SLAM数学基础(五):理解最大后验概率估计

0 问题引出

在前文《极大似然估计》中,基于极大似然原理,仅利用样本信息实现了对模型参数的估计。

极大似然原理的一个朴素认知,就是认为当前事件会发生,就是因为本身它发生的概率就比较大,那就干脆认为它发生的概率最大,基于这个前提来进行参数估计。

但是我们知道,一个随机事件的任何一种情况的出现都要考虑其概率,样本中出现频次最高的并不一定就是概率最大的那种情况,尤其是样本量较小的时候,这么这种情况下极大似然估计值是不是就不太可靠了呢?这个时候 ,如果有一些关于这个模型参数的初始信息(这个初始信息其实就是先验知识),当同时结合先验知识和样本信息来进行参数估计,是不是得到的结果的可信度更高一些?

1 贝叶斯定理

贝叶斯定理也叫贝叶斯公式、贝叶斯法则。

贝叶斯公式如下:

$$
P(A\vert{}B) = \frac{P(B\vert{}A)\times P(A)}{P(B)}
$$

$P(A\vert{}B)$ 是在 $B$ 已经发生的条件下, $A$ 发生的概率;是一种条件概率。

$P(B\vert{}A)$ 是在 $A$ 已经发生的条件下, $B$ 发生的概率;也是条件概率。

$P(A)$ 是事件 $A$ 发生的概率。

$P(B)$ 是事件 $B$ 发生的概率。

上述公式的推导并不难,由

$$
P(A \cap B)=P(B\vert{}A)\times P(A) \\
P(A \cap B)=P(A\vert{}B)\times P(B)
$$

就可推出,但这不是重点,建立一种直观的理解才是更重要的。


考虑并理解以下表述方式:

贝叶斯公式可以用来计算在给定某个观测结果的情况下,某个备选假设成立的概率。

设一个总体服从于某种分布,该分布模型参数为 $\theta$ ,$D$ 表示观测到的数据。根据贝叶斯公式,在给定数据 $D$ 下模型参数 $\theta$ 的概率分布:

$$
P(\theta\vert{}D) = \frac{P(D\vert{}\theta)\times P(\theta)}{P(D)}
$$

其中,$P(\theta\vert{}D)$ 表示在已有数据 $D$ 的前提下,模型参数 $\theta$ 的概率分布,称为后验概率; $P(D\vert{}\theta)$ 是在模型参数为 $\theta$ 的前提下,观测到数据 $D$ 的概率(也称为似然函数,后面再讲);

$P(\theta)$ 是模型参数 $\theta$ 的概率分布,称为先验概率;

$P(D)$ 表示观测到数据 $D$ 的概率。

后验概率是指在得到新的数据或信息后,重新计算某个事件发生的概率,即根据先前的经验和新的证据来更新我们的概率判断。

2 贝叶斯公式中的似然函数理解

上面提到, $P(D\vert{}\theta)$ 也称为似然函数,在数值上, $ P(D\vert{}\theta)=L(\theta\vert{}D)$ ,

等式左边, $P(D\vert{}\theta)$ 其含义是在条件 $\theta$ 下观测到数据 $D$ 的概率,

等式右边, $L(\theta\vert{}D)$ 其含义是当已有观测数据 $D$ ,模型参数 $\theta$ 的似然。

为什么是这样呢?回顾似然函数的定义:

所以事实上,我们这里说到的联合概率,以及前面的条件概率 $P(D\vert{}\theta)$ ,似然 $L(\theta\vert{}D)$ ,都是指同一个东西,形式上都是:

$$
p(x_1;\theta)p(x_2;\theta)…p(x_n;\theta)=\prod_{i=1}^n{p(x_i;\theta)}
$$

只不过,当模型参数 $\theta$ 已知时,它一般用来描述事件发生的概率,此时表述为条件概率或联合概率密度,着眼于“概率”;当模型参数 $\theta$ 未知时,这个式子一般就是用来估计模型参数 $\theta$ 的,此时被称为似然函数,是关于模型参数 $\theta$ 的函数,参数 $\theta$ 的估计方法一般有极大似然估计或最大后验估计(这两种方法也是频率学派和贝叶斯学派各自思想主张的具体体现之一,如果有时间再来总结对比吧)。


概率与似然的一种理解

“概率”描述了给定模型参数后,描述结果的合理性,而不涉及任何观察到的数据。

“似然”描述了给定了特定观测值后,描述模型参数是否合理。


先验概率与后验概率的一种理解

先验概率是 以全事件 $Ω$ 为背景下, $A$ 事件发生的概率, $P(A\vert{}Ω)$ 。

后验概率是 以新事件 $B$ 为背景下,$A$事件发生的概率, $P(A\vert{}B)$ 。

全事件一般是统计获得的,所以称为先验概率,是指没有实验前的概率,是普遍认可的先验知识(例如,硬币两面是均匀的)。

新事件一般是实验,如试验 $B$ ,现在是一个具体的情境了(例:我们现在手里有一个具体的硬币在做试验了),此时的事件背景从全事件变成了 $B$ ,该事件 $B$ 可能对 $A$ 的概率有影响,那么需要对$A$现在的概率进行一个修正,从 $P(A\vert{}Ω)$ 变成 $P(A\vert{}B)$ ,

所以称 $P(A\vert{}B)$ 为后验概率,也就是试验(事件$B$发生)后的概率,依据试验情况进行更新后的概率。

3 最大后验概率MAP

讲到这里才真正说到最大后验概率估计,其实基本上已经说的差不多了。

最大后验概率(Maximum a posteriori probability,MAP)是一种用来描述随机事件的概率的统计方法。是贝叶斯推断中的一个重要方法,表示在给定观测值和先验信息时,得到最大后验概率的参数值。

在贝叶斯推断中,粗略地讲,对于一个已知的随机事件 $X$ 和其分布的先验知识 $P(\theta)$,其中 $\theta$ 是事件 $X$ 的未知参数,我们可以通过贝叶斯公式求出其后验概率 $P(\theta\vert{}X)$。具体而言,可以写作:

$$
P(\theta\vert{}X) = \frac{P(X\vert{}\theta)P(\theta)}{P(X)}
$$

其中,$P(X\vert{}\theta)$ 是已知参数 $\theta$ 下 $X$ 观测值的概率密度函数,称为似然函数;

$P(\theta)$ 是先验分布,即在进行观测前对未知参数 $\theta$ 的分布的了解;

$P(X)$ 是归一化常数,确保后验概率 $P(\theta\vert{}X)$ 的积分等于 $1$。

最大后验概率是指,在已知观测值 $X$ 和先验知识 $P(\theta)$ 的基础上,求出一个最有可能的参数 $\theta_{MAP}$,使得其后验概率 $P(\theta_{MAP}\vert{}X)$ 达到最大。即:

$$
\theta_{MAP} = \underset{\theta}{\operatorname{argmax}} P(\theta\vert{}X)
$$

最大化后验概率求参数 $\theta$ 的估计值的方法,就是最大后验估计(MAP estimation)。

在一些数据较少且参数维度较高的问题中,最大后验估计算法相对于极大似然估计、普通最小二乘法等其他估计算法,能够通过先验概率信息有效避免过拟合和欠拟合等问题,提高模型的泛化能力。

当数据量或样本量非常大时,极大似然估计与最大后验估计是殊途同归的。

4 SLAM数学基础*系列笔记


齐民友主编《概率论和数理统计》

Donate
  • © 2023 , Monicakaa .

请我喝杯咖啡吧~

支付宝
微信