SLAM数学基础(四):理解极大似然估计

0 前言

数理统计的基本问题是:根据样本所提供的信息,对总体的分布或者分布的数字特征等作出统计推断。

在数理统计中,极大似然估计法是点估计的一种方法,此外还有矩估计法。

极大似然原理:是人们从长期的实践经验中总结出来的,即,

一个已经发生的事件 A,如果我们推断出 k 导致 A 发生的概率最大,那么就推断导致事件 A 发生的原因是 k

这是极大似然估计法成立的基石。

1 问题描述

有总体 $X$ ,它服从于一个参数为 $(\theta_1,\theta_2,\ …\ ,\theta_k)$ 的分布(该分布模型已知,但参数 $(\theta_1,\theta_2,\ …\ ,\theta_k)$ 未知,且正是我们的求解目标)。

从这个总体中,随机地且相互独立地抽取出样本集 $(X_1,X_2,\ …\ ,X_n)$ ,样本观测值为 $(x_1,x_2,\ …\ ,x_n)$ ,根据这个样本集信息来估计未知参数$(\theta_1,\theta_2,\ …\ ,\theta_k)$。

2 分析与理解

既然这个总体的分布模型已知,只是参数未知,那么是可以写出这个模型的概率密度函数的,只不过这个函数中模型参数用符号 $\theta$ 表示,我们称之为总体 $X$ 的分布,记为 $F(x;\theta)$ ,当 $X$ 为连续型随机变量(为便于书写,此处暂不讨论离散型随机变量),其概率密度设为 $f(x;\theta)$ ,那么抽取到任意一个样本值为 $x_i$ 的样本 $X_i$ 的概率值为 $f(x_i;\theta)$ ,那么抽取到这个样本集的概率就是抽到每一个样本的概率值相乘(因为是相互独立),因此,记样本集 $(X_1,X_2,\ …\ ,X_n)$ 的联合概率为:

$$
L(\theta;x_1,\ …\ ,x_n)=f(x_1;\theta)\ …\ f(x_n;\theta)=\prod_{i=1}^n{f(x_i;\theta)}
$$

注意,上式是关于 $\theta$ 的函数,其中的 $(x_1,x_2,\ …\ ,x_n)$ 是已知的,就是所抽取的样本集的观测值。这个函数反映的是在不同的参数取值 $θ$ 下,取得当前这个样本集的可能性,因此称为参数 $θ$ 相对于样本集的似然函数(likehood function)。记为 $L(θ)$ 。

回到问题描述中,我们现在已经抽到了这个样本,那为什么会抽到这个样本呢?凭什么就是它呢?从最容易接受的角度来描述,就是,因为抽到这个样本的概率大,所以我们抽到了它(总不至于,抽到这个样本的概率非常小,我就是一抽就抽到了它)。这里听起来有点拗口,停下来理解一下。其实这点就是极大似然估计法的基本思想。

当在随机的条件下获取了一个较大的样本,极大似然估计法的理论认为,在这个总体出现这个结果就是可能性最大的,that‘s why “极大似然”。

于是,就可以利用这点进行参数估计,将满足

$$
\hat\theta = \arg \max(L(\theta))
$$

的 ${\theta}$ 取值 $\hat{\theta}$ 作为所求参数估计。

3 一般求解步骤

(1)写出似然函数;

(2)对似然函数取对数,并整理;

(3)求导数,令导数为0,得到似然方程;

(4)解似然方程,得到的参数即为所求。

其中第二步取对数,是因为 $L(\theta)$ 表现为一些函数的连乘积,求 $\ln{}L(\theta)$ 会更加方便。

Tips:其实要理解什么是极大似然估计是干什么的,到这里基本就可以了,后面是用更加严格的数学语言进行描述。

4 数学定义

4.1 似然函数

似然函数定义

设 $(X_1,X_2,\ …\ ,X_n)$ 是总体 $X$ 的样本,$(x_1,x_2,\ …\ ,x_n)$ 是样本观察值。称

$$
L(\theta)=L(\theta;x_1,\ …\ ,x_n)=
\begin{cases}
\prod_{i=1}^n{p(x_i;\theta)} ,当X是离散型且其分布律为\ \ p(x;\theta)时;\\
\\
\prod_{i=1}^n{f(x_i;\theta)} ,当X是连续型且其概率密度为f(x;\theta)时;
\end{cases}
$$

为似然函数。

似然函数与概率密度函数

(1)似然函数有其直观的意义。

取出样本$(X_1,X_2,\ …\ ,X_n)$ 可以理解为进行了n次随机试验,试验的结果为 $(x_1,x_2,\ …\ ,x_n)$ ,

当 $X$ 为离散型时,似然函数就是样本$(X_1,X_2,\ …\ ,X_n)$ 取值为 $(x_1,x_2,\ …\ ,x_n)$ 这一事件发生的概率;

当 $X$ 为连续型时,似然函数就是联合概率密度在 $(x_1,x_2,\ …\ ,x_n)$ 处的取值。

(2)似然函数与联合分布在形式上是一样的,但是含义不同。

似然函数是关于参数 ${\theta}$ 的函数;

联合分布是关于试验结果 $(x_1,x_2,\ …\ ,x_n)$ 的函数。

4.2 极大似然估计值

定义

设 $L(\theta)=L(\theta;x_1,\ …\ ,x_n)$ 是似然函数,若存在$\hat{\theta}=\hat{\theta}(x_1,x_2,\ …\ ,x_n)$ 使得

$$
L(\hat{\theta})=\max_{\theta\in\Theta}{L({\theta})}
$$

则称 $\hat{\theta}(x_1,x_2,\ …\ ,x_n)$ 是未知参数 ${\theta}$ 的极大似然估计值,

​ $\hat{\theta}(X_1,X_2,\ …\ ,X_n)$ 是未知参数 ${\theta}$ 的极大似然估计量。

极大似然估计值其实就是字面上的意思,似然函数取最大值时 ${\theta}$ 的值 $\hat{\theta}$ 。这里望文生义是没有问题的。

4.3 似然函数的重要性

在统计学中,似然函数是表示参数取值给定一组观测数据的可能性大小的函数。它是参数的函数,给定某一组参数取值后,可以计算出这组参数下,观测数据出现的概率。

可以通过似然函数来选择最佳的参数估计值,通常使用最大似然估计法来进行参数估计。如前所述。

此外,在最大后验估计中,似然函数同样扮演着重要的角色,它是计算后验分布时的一部分。具体而言,在最大后验估计中,我们需要找到一个能够最大化后验分布的参数值,而后验分布可以通过似然函数和先验分布进行计算。

后验概率 $p(\theta\vert{}X)$ 通常由 $P(\theta\vert{}X)=\frac{P(X\vert{}\theta)P(\theta)}{P(X)}$ 计算而得,其中 $P(X\vert{}\theta)$ 就是似然函数。

5 EM算法

<TODO>

6 SLAM数学基础*系列笔记


齐民友主编《概率论和数理统计》

Donate
  • © 2023 , Monicakaa .

请我喝杯咖啡吧~

支付宝
微信