回归分析是一种预测性的数据分析方法,通过建立数据模型,研究多变量之前的数据关系。比如以下案例,研究气温与冰红茶的销量的关系,通过天气预报来预测后续一段时间内的冰红茶销量。

统计学线性回归分析(统计学之回归分析入门)(1)

原始数据如下

统计学线性回归分析(统计学之回归分析入门)(2)

首先通过观察散点图,及其相关系数(0.9227),发现两者具有很强的线性相关性

统计学线性回归分析(统计学之回归分析入门)(3)

接下来回归分析就要出场啦。做回归分析,就可以通过最高气温来预测冰红茶的销量了。

Excel中已经集成了部分基础回归分析功能。在散点图上增加趋势线,并选中线性、显示公式、显示R平方值

统计学线性回归分析(统计学之回归分析入门)(4)

散点图就变成下图了

统计学线性回归分析(统计学之回归分析入门)(5)

方程y=3.7379x-36.361 即为该案例的回归方程。

显然,本案例使用线性回归模型,即用直线来拟合所有点,但无法保证直线精确穿过每个点。可以有很多条拟合直线,那么该哪一条直线的拟合度较好呢。

具体思路是,计算所有点到直线的距离的平方和,选择使这个值达到最小的直线。通过这个思路可以推导出具体的回归方程,具体推导过程就不太赘述。

而R平方值,成为判定系数。R平方值取值范围是0到1,使用来衡量回归方程的精度的,越接近1说明回归方程精度越高。反之,如果R平方值接近0,说明回归方程可能没有意义。

一般统计学上,R平方值在0.5以上,回归方程有一定意义。

好了,有了回归方程后,就可以根据未来的气温来预测冰红茶的销量了。

当然这里只研究了最高气温对冰红茶销量的影响,还可以进一步看最低气温、折扣力度以及工作日/周末等各种因素都是怎么影响销量的。受限于数据源,就不展开说了。

本案例只是入门级的双变量线性回归分析,还有多变量回归及非线性回归,但思路基本相似,都是先拟合,再预测。既为预测,肯定误差及准确率的问题。比如本案例中,最高气温是31度时,分别有84、75、73三个不同销量,如果接下来一天最高气温是31度时,应该是多少呢?

,