在统计学中有一个很有意思的方法叫做最小二乘法最小二乘法在统计学的地位很高,可类比于微积分在数学上的地位有意思的是最小二乘法和微积分的发现有诸多相似之处,尤其是谁是第一个发现的有据可考的是勒让德最先发表了有关最小二乘法的文章,高斯随后就发表相关文章,二者也是争吵多年,但是勒让德的名声显然比不了高斯不过最终也是没有争出个高下来,因为二者的最小二乘法不尽相同和当年牛顿和莱布尼兹类似,一个认为是微小的量,一个认为是流数,也是吵了大半个世纪,现在小编就来说说关于最小二乘法通俗易懂?下面内容希望能帮助到你,我们来一起看看吧!

最小二乘法通俗易懂(最小二乘法)

最小二乘法通俗易懂

在统计学中有一个很有意思的方法叫做最小二乘法。最小二乘法在统计学的地位很高,可类比于微积分在数学上的地位。有意思的是最小二乘法和微积分的发现有诸多相似之处,尤其是谁是第一个发现的。有据可考的是勒让德最先发表了有关最小二乘法的文章,高斯随后就发表相关文章,二者也是争吵多年,但是勒让德的名声显然比不了高斯。不过最终也是没有争出个高下来,因为二者的最小二乘法不尽相同。和当年牛顿和莱布尼兹类似,一个认为是微小的量,一个认为是流数,也是吵了大半个世纪。

在统计当中我们统计的目的是真实值。好比我们统计人口,我们每五年一次人口普查就是为了知道我们国家到底有多少人。以及各个年龄阶段人口的数量,以及我们的出生率和死亡率。来为我们到底要不要开放二胎做准备。然而不是所有的问题都可以像人口普查一样来进行。在统计中我们最常用的做法是统计尽可能多的数,然后取平均数。可是有时候我们无法直接拿到我们想要的那个数。如果我们想拿到的那个数不是像测量一个西瓜的外径,或是门窗的大小,而是你只能测量出和其相关的量,这个值和你需要的值之间有个关系,线性的或是非线性的,这个时候该怎么办呢?比如你想测量地球直径,怎么测?你总不能拿着尺子量吧,那需要多大的尺子呢。显然你需要间接测量出这个,实际上最小二乘法就是来自于测量地球子午线的长度。

例如我想测量x1,x2,x3这三个值,但是你不能直接测量出这个值,只能测量出和其相关的值θ1,θ2,θ3而θ1,θ2,θ3和x1,x2,x3之间呈现x1*θ1 x2*θ2 x3*θ3=0。这个时候只要测量出三组θ1,θ2,θ3就可以组成这个方程组,也就可以解出这个方程,这样就可以测出我们想要的值了。但是这样真的正确吗?好像不对,因为根据经验,如果我们想要得到尽可能的准确真实值,我们就多多的测量,然后取平均值。但是间接测量出来的值如何尽可能多的取值呢?你总不能真的只测三组值吧,还是需要尽可能的多的测量。然而这就就有一个很有意思的问题了。这是一个三元一次方程,只需三个方程组就可以解出这个方程。你却测出了大于三个,比如你测了100个。也就是说这有三个未知数,只需要三个方程就可以了,你手里却又100个方程,怎么办?选择哪三个好呢?总要选择三个来解这个方程吧!当时的人们是怎么做的呢?真是各有奇招,也各有想法。1,平均分,比如三个未知数,我就测量90组数据,然后就有了90个方程,前三十个相加组成一个方程,中间三十个相加组成一个,后三十相加组成一个,这样就可以组成三个了,当然也可以解出方程来。还有更加奇葩的想法,当属伟大的拉普拉斯,拉普拉斯给出了各种奇怪的组合,比如将所有方程相加为一个方程,然后取前一半之和减去后一半之和为一个方程等等各种奇葩的组合,拉普拉斯自己都没有给出为什么这样组合,这个和他在正态分布一样,主观的给出了一个没有充分理由的方程,然后在那条路上越走越远,最终正态分布花叫做高斯分布而不是拉普拉斯分布。那上面说的到底有没有道理了,或是到底能不能服众呢?显然不能,没有理论依据或是没有好的说法,大家都接受不了。那到底什么方法可以解决这问题了。勒让德在这里想出了一个解决的方法,事实上这个方法的来源似乎和正太分布被解决时有些异曲同工之妙,就是不拘泥于某个具体的细节,而是提出一个处理问题的方式或是处理问题的原则。这样能找出解决问题的方法,也最能被大家接受。勒让德并没有去寻找解决方程的方法,而是转而去考虑怎么来处理误差。在方程x1*θ1 x2*θ2 x3*θ3=0中,由于测量时肯定有误差,也就是会出现x1*θ1 x2*θ2 x3*θ3≠0的情况,应该说是基本都不会等于0。由于每个方程都有误差,有的方程误差大一些,有的方程误差小一些,尤其是我们并不知道哪个方程的误差小,也就是我们无法来选择到底用哪个方程来求解,这个时候勒让德给出了他的思考:整体来考虑误差,要让所有方程均匀的来分摊误差。哪到底如何来操作呢?我不清楚勒让德当时到底是怎么考虑的,也就是如何才能让每个方程尽可能的均匀来分摊误差,而让整体更加平衡呢?其实没有办法来具体操作出每个方程的误差尽可能小,而是间接的来操作。这个方法很巧妙,就是让所有方程的误差之和最小。其实细细想来也是这个道理,如果方程误差之和最小,按照最传统的思想将这些误差平均分配到每个方程上,那么每个方程的误差就是最小了,因为如果误差之和不是最小的,你无论采用何种方式来分配,最终的结果是什么呢?最终的结果是总有一部分方程的误差比误差平均值大,另一部分的误差比平均值也小,当你的平均值越大也就会出现比平均值大的误差,这样当误差越大对于方程求解显然不利。(在这里我们要做一个假设就是我们的测量是符合同一个正态分布的,事实上也应当如此。也就是说,我们进行测量,比如测量了180次,前90次和后90次应该是符合同一个正态分布。)当要让误差之和最小该如何处理呢?全部相加肯定不是一个好的方法,因为误差有正有负,相加的结果若是为0就不好处理了,所以将其平方后全部误差为正数相加后即可。当然你取绝对值或是四次方也可以,但是绝对值有很多不好的地方就是会有很多地方不可而四次方计算会过于复杂,这样就普遍的采用了平方,可导,好计算,成为首选。当对整个方程组平方后求和,然后求其最小值就是对各个参数求偏导数,这样也就可以确定参数了。

最后来看看勒让德自己的说法,勒让德在其著作里曾经写下这么一段话:使误差平方和最小,在各方程的误差之间建立一种平衡,防止某一误差取得支配地位,而这有助于揭示系统更加接近真实系统的状态。