什么是回归

我们先来聊聊历史,从回归这个词被发明的源头聊起。话说有一个叫高尔顿的生物学家兼统计学家在研究人类遗传问题时发现了一个现象:非常高的父亲,其儿子的身高往往要比父亲矮一点,而非常矮的父亲,儿子的身高也会比父亲高一些,也就是说,人类的身高从高矮两个极端移向所有人的平均值,他把这种现象称为“向平均回归(regression to the mean)”。

回归分析的十种方法(细说回归分析)(1)

其实仔细想想这种现象应该是正常的才对,如果不发生这种向平均值回归的事情,那么高的人后代将越来越高,同样矮的人的后代会越来越矮,那么经过一系列的种族繁衍后,人类将变成特别高和特别矮的两极分化状态。

这是回归这个词的由来,所以我们再来理解一下什么是回归分析,首先我要去分析两个现象之间有什么关系,然后我要知道现象之间的具体形式,并用数学表达式来展示。比如上次的相关性分析中我们说到了城市化水平和离婚率之间存在着相关关系,那么这两个变量之间的关系到底深到什么程度,是谁在影响谁,这就需要我们用函数定量地去描述,这就是回归。

在说相关性的时候,我们会把两个变量之间的关系用散点图来展示,更进一步地,还会去找到一条最合适的平均线,也就是“向平均回归的线”,而这条线的函数表达式,就是我们说的回归方程,所以说,回归分析要寻找的就是变量之间的最佳拟合关系。

常见回归算法

有线性和非线性,这里我们就重点说下线性回归

线性回归,顾名思义,就是用一条直线去拟合样本的趋势。包括一元线性回归和多元线性回归,在实践中,多元应用的较多。什么是“元”?实际上就是自变量X,一个X就是一元线性回归,多个X就是多元线性回归。

一元线性回归是最基本的回归,对于每一个自变量X都有因变量Y,误差项是一个服从正态分布的随机变量且相互独立,上公式:

回归分析的十种方法(细说回归分析)(2)

多元线性回归就是多个自变量x,X和Y之间的函数关系如下:

回归分析的十种方法(细说回归分析)(3)

在线性回归里,我们只需要关注2点:一个是x和y是线性表达式,这一点很重要,如果有非线性关系的变量我们用线性来描述,这就是误区了;另一点是线性回归有一个误差项,且误差项服从正态分布,这个怎么理解呢?不是所有的关系都能百分之百用函数表达式去解释的,可能有80%的部分我们可以去解释,但是还有20%的部分我们解释不了,就把它归为误差项。

评价回归算法的指标

做出了回归分析的表达式,那么如何评价它的好坏呢?这样预测是准确还是不准确呢?就要用到几个指标来评价。

R平方

评估模型拟合度的好坏,取值范围是[0,1],R平方越大,说明模型拟合的越好。R平方的值与自变量的个数有关,自变量越多,R方越大,这样的话就削弱了R方的评价能力,因此需要剔除自变量数目影响后的R平方,也就是修正后的R平方,这是在多元线性回归中需要了解的。

在Excel中我们可以通过画趋势线来得到R平方。

回归分析的十种方法(细说回归分析)(4)

回归分析的十种方法(细说回归分析)(5)

F统计量

检验因变量和自变量之间的线性关系是否显著,回归方程整体的显著性检验,用到的是F检验。

P值

回归方程系数的显著性检验:P值,理论显著性水平α值,通常为0.01、0.05。如果某个系数对应的P值小于显著性水平,则认为在显著性水平下,该回归系数是显著的。

这些评价指标还可以用Excel里的【回归】功能实现。

回归分析的十种方法(细说回归分析)(6)

我在之前的文章中也写过具体的做法:

致命的回归错误

其实这些错误都是对业务不理解导致的,所以技术是一方面,思维层面的思考是另一方面,二者结合才能发挥更大的作用。


@ 作者:可乐

@ 公众号/知乎专栏/头条/简书:可乐的数据分析之路

@加个人data_cola,备注:进群,拉你入 可乐的数据分析群 和各行各业的小伙伴交流探讨数据分析相关内容

回归分析的十种方法(细说回归分析)(7)

微信公众号

回归分析的十种方法(细说回归分析)(8)

个人微信号

,