对于线性回归模型 y=ax b, 常用到的估计参数的方法有:最小二乘法和极大似然估计,本话题暂不讨论这两种理论方法如何去估计出参数,只讨论在最小二乘法的核心思想中,为什么使用残差平方和去做处理。
先来看看最小二乘法的核心思想:
平面直角坐标系中有一些数据点,对于线性回归模型来说就是要找到一条回归线,能使得这几个样本数据点尽可能的靠近这条回归线
问题来了,样本点尽可能靠近这条拟合线 这句话毕竟是主观臆想,怎么将主观思想进行量化,从而变得更加直观呢?
既然要寻找最优拟合线,假设是 y=ax b ,那么拟合数据应该与每条对应的真实数据之间的误差越小越好,量化成数据也就是:
y(真实)-y(拟合)达到最小,这个思想对于每个样本点均要适应,毕竟大家小才是真的小。
更直观理解请看如下动图:
将上述思想规范的写起来就是:
上式中,每个小括号中的差值我们通常称之为 残差。
到这里其实目标已经很明确了,即让F达到最小时,回归拟合线 y 才是真正适合的。然而还有一些计算上的小问题。
使用残差平方和的原因一
1:直接使用残差来计算的话会有一个符号问题,间接性的引出计算复杂等问题--结果未知
2:使用优化后的 离差带上绝对值怎么样呢?最终结果还是一样,是直接性的出现计算复杂问题。
3:为了避免上述策略对计算带来的复杂性,大伙一致认为(存在即合理)使用残差平方和作为最终优策略。
使用残差平方和的原因二
既然最小二乘的核心思想是让残差和达到最小,我们不妨在残差方面继续扩展下, 回归拟合线 y=ax b 与真实数据值之间差了个 残差e
,求得的拟合线也是在基本假设(残差服从正态分布)成立下才有意义
因此根据残差服从正态分布可知样本点y的概率密度函数为:
注:表达式3中 每个样本点都是独立的正态分布,但并不是同分布的。
分析到了这里,我们已经知道了每个样本点 y 的概率分布,则对于已存在的样本点数据(相当于已发生的事实),出现这些样本点的似然函数为:
emmmm,这个似然函数表达式看起来有些复杂,我们再简化下,
简化思想:似然函数L的总是大于0的(事件已经发生),原函数L与取对数后的函数在新的定义域上有相同的单调性
基于上述简化思想,我们对该似然函数两边取对数并继续简化
至此,所有样本点已发生的似然函数最终简化为表达式为F,要求的F的最大概率(已出现的样本点我们有理由相信他的概率取最大)也就是最终目的求出F的最大值,这样以最大概率估计出来的参数,才是符合事物发展的规律。
要求出F最大,即使得下述代数最小
分析到了这里,再和本文刚开始分析的代数式(下图)比较起来殊途同归。
那么本话题的原因二用一句话总结就是:
最小二乘估计参数时使用残差平方和估计的参数值是当前样本的极大似然估计;
根据已存在的样本点(事实)采用残差平方和思想估计出来的模型参数比其他估计手段(例取绝对值、四次方等)的估计值概率要大。
既然是已存在的事实当然是选择概率最大的才是最优的。
--- END ---
首发地址: 公众号:数据与编程之美
,