SLAM数学基础(六):最小二乘法

1 最简单的最小二乘问题

先不考虑模型的适用场景,以及为什么要用这个方法,只从数学的角度,看这是一个什么问题。有如下数学模型:
$$
\min_{x}{F(x)}=\frac{1}{2} \parallel{f(x)}\parallel_2^2
$$
最小二乘问题就是求满足上式的 $x$ 值。其中,自变量 $x\in\mathbb{R}^n$ ,$f$ 是任意标量非线性函数 $f(x):\mathbb{R}^n\mapsto\mathbb{R}$ 。注意这里的系数 $\frac{1}{2}$ 无关紧要,有没有都不会影响之后的结论。

拆解一下最小二乘,顾名思义,“二乘”就是指平方,“最小”指,要求的是函数 $F(x)$取最小值的时候 $x$ 的取值。当然,上面这个是最简单的一个最小二乘问题。

如果 $f$ 是个数学形式上很简单的函数,那么该问题可以用解析形式来求。令目标函数的导数为零: $\frac{dF}{dx}=0$ ,然后求解 $x$ 的最优值,就和求二元函数的极值一样。解这个方程,就得到了导数为零处的极值。它们可能是极大、极小或鞍点处的值,只要逐个比较它们的函数值大小即可。

但是,这个方程是否容易求解呢?这取决于 $f$ 导函数的形式。如果 $f$ 为简单的线性函数,那么这个间题就是简单的线性最小二乘问题;但是有些导函数可能形式复杂,使得该方程可能不容易求解。求解这个方程需要我们知道关于目标函数的全局性质,而通常这是不大可能的。

对于不方便直接求解的最小二乘问题,可以用迭代的方式(到这里才是重点要了解学习的地方),从一个初始值出发,不断地更新当前的优化变量,使目标函数下降。对于最小二乘问题,有一阶和二阶梯度法(最速下降法、牛顿法),高斯牛顿法,列文伯格一马夸尔特法等,后两种实际应用较多,且高斯牛顿法最常用。

以上是最简单的模型情况,下面再来看最小二乘在一些实践中的应用。

2 最小二乘的提出

在生产实践中,经常会遇到利用一组观测数据来估计某些未知参数的问题。例如,一个做匀速直线运动的质点在时刻 $t$ 的位置是 $\hat{y}$ ,可以用如下的线性函数来描述:
$$
\hat{y}=\hat{\alpha}+t\hat{\beta}
$$
式中, $\hat{\alpha}$ 是质点在$t=0$时刻的初始位置, $\hat{\beta}$ 是平均速度,它们是待估计的未知参数,可见这类问题为线性参数的估计问题。对于这一问题,如果观测没有误差,则只要在两个不同时刻 $t_1$ 和 $t_2$ 观测出质点的相应位置 ${y_1}$ 和 ${y_2}$ ,由上述函数分别建立两个方程,就可以解出 $\hat{\alpha}$ 和 $\hat{\beta}$ 的值了。但是,实际上在观测时,考虑到观测值带有偶然误差,所以总是作多余观测。在这种情况下,为了求得 $\hat{\alpha}$ 和 $\hat{\beta}$ ,就需要在不同时刻 $t_1,t_2,\ …\ ,t_n$ 来测定其位置,得出一组观测值 $y_1,y_2,\ …\ ,y_n$ 这时,由上式可以得到:
$$
\delta{}_i=\hat{\alpha}+t_i\ \hat{\beta}-y_i
$$
$\delta{}_i$ 为观测值 $y_i$ 与真值 $\hat{y_i}(=\hat{\alpha}+t_i\ \hat{\beta})$ 的差值,即观测误差(或者成为残差)。由于观测误差的存在,由观测数据 $(t_i,y_i)$ 描绘不成直线,而有某些“摆动”。

这里就产生这样一个问题:用什么准则来对参数 $\hat{\alpha}$ 和 $\hat{\beta}$ 进行估计,从而使估计直线 $\hat{y}=\hat{\alpha}+t\hat{\beta}$ “最佳”地拟合于各观测点?(哦对了,不要忘了,我们进行观测的目的是得到参数 $\hat{\alpha}$ 和 $\hat{\beta}$ 的估计值。)

这里的“最佳”一词可以有不同的理解。例如,

  • 可以认为:各观测点到直线最大距离取最小值时,直线是“最佳”的;

  • 也可以认为,各观测点到直线的偏差的绝对值之和取最小值时,直线是“最佳”的,等等。

在不同的“最佳要求下,可以求得相应问题中参数 $\hat{\alpha}$ 和 $\hat{\beta}$ 不同的估值。

早在19世纪,勒让德就认为依据“残差的平方和最小”估计出来的模型是最接近真实情形的。这也就是最小二乘原理,按照最小二乘原理的要求,认为“最佳”地拟合于各观测点的估计曲线,应使各观测点到该直线的偏差的平方和达到最小。

在众多的“最佳”中,为什么选择“残差的平方和最小”呢?这里暂且不表,后续再说。

3 最小二乘的多维形式

4 最小二乘估计与极大似然估计

5 最小二乘问题的解法

6 SLAM数学基础*系列笔记


当估计的变量是一个服从高斯分布的随机变量时,最小二乘可以由极大似然估计引出。此种情况下最小二乘估计和极大似然估计结果是一致的。

所以,最小二乘估计是极大似然估计的一种特例(???)。

服从高斯分布的随机变量由于服从正态分布有许多优雅的性质,因此广泛应用于工程实践中。不知道是不是错觉,极大似然估计多停留在数学层面,工程实践中最多的还是最小二乘估计。


高翔、张涛等著《视觉SLAM十四讲》

武汉大学测绘学院测量平差学科组编著《误差理论与测量平差基础》

一文让你彻底搞懂最小二乘法—胤风的博客

Donate
  • © 2023 , Monicakaa .

请我喝杯咖啡吧~

支付宝
微信