-
最小二乘法(即最小平方和)是一种数学优化技术。可以通过它计算最小化误差的平方和寻找数据的最佳函数匹配。
-
利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
-
通常一元线性回归和多元线性回归都用最小二乘法求得未知参数,比如一元线性回归方程的斜率和截距,多元线性回归的多个参数和常量。
-
用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
-
用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
-
最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。
-
例如一元线性回归方程:y=a bx
n个离差构成的总离差越小越好,只有如此才能使直线最贴近已知点。换句话说,求回归直线方程的过程其实就是求离差最小值的过程,也就是求最优参数的过程,机器学习训练模型也是求最优参数的过程,训练线性回归就是求最优参数。
一个很自然的想法是把各个离差加起来作为总离差。可是,由于离差有正有负,直接相加会互相抵消,就无法反映这些数据的贴近程度,即这个总离差不能用n个离差之和来表示,见下图:
离差
-
所以应该用离差平方和表示,即:
离差平方和公式
-
用最小二乘法求回归直线方程中的a、b的公式如下:
离差平方和最小时b和a的值
推导过程如下:-
变形公式一:
-
变形公式二:
-
变形后,推导最小二乘法求回归直线方程的公式:
到此,公式推导完成,从最后公式可以看出后两项
与a、b无关,属于常数项
与a、b无关,属于常数项,所以要想让最小二乘法的平方差最小,只需要让
只需让前面的项为0
这样可以得到误差平方和最小时b(斜率)和a截距的值: