前面在《数据分析方法论及案例分享》中有提到回归分析,它主要用来探究:哪些维度会影响现状指标。

在数据量不大的情况下,我们可以直接用excel来进行回归分析。毕竟,相对于SPSS、Python来说,excel的获得和操作真的容易很多。

回归分析,分为线性回归、非线性回归。这次先以线性回归为例,分享一下如何用excel进行分析,以及如何解读分析结果

【如何调出excel中的回归分析工具】

  1. 在工具栏的左上角,点击“文件”

excel预测分析怎么用(用excel轻松找出影响因素)(1)

点击文件

  1. 将左侧导航栏拉到底部,点击“选项”

excel预测分析怎么用(用excel轻松找出影响因素)(2)

点击选项

  1. 在弹出的面板上,点击“加载项”

excel预测分析怎么用(用excel轻松找出影响因素)(3)

点击加载项

  1. 在加载项面板上,点击“转到(G)”

excel预测分析怎么用(用excel轻松找出影响因素)(4)

点击转到

  1. 在可用加载宏列表中,勾选“分析工具库”,并点击“确定”

excel预测分析怎么用(用excel轻松找出影响因素)(5)

勾选分析工具库

  1. 回到第一步的工具栏,点击“数据”,在分析栏里就出现了“数据分析”工具

excel预测分析怎么用(用excel轻松找出影响因素)(6)

点击数据

【如何使用回归分析工具】

接下来,我通过一个具体的案例进行操作和解读。

1.导入要分析的数据列表,确定分析目的。

(1)数据列表的字段有“数据爬取时间”“销量排名”“价格”“评论条数”“评分”“时间”,这是从某个电商平台上每天爬取的商品相关数据(共547天):这个商品在547天中每天变化的销量排名、价格、评论条数、评分等数据

excel预测分析怎么用(用excel轻松找出影响因素)(7)

商品相关数据

(2)本次回归主要想探究:价格、评论条数、评分、时间这些维度对销量排名的影响程度哪些维度是真正有影响的因素;进一步找到预测未来变化的回归公式,即Y=β0 β1X

2.点击“数据分析”,在弹出的面板上选择“回归”,并点击“确定”。

excel预测分析怎么用(用excel轻松找出影响因素)(8)

选择回归

3.在回归参数设置面板上,输入因变量Y,即“销量排名”;输入自变量X,即“价格”“评论条数”“评分”“时间”。因为我把列名也划进变量区域了,所以要勾选“标志(L)”。置信度一般默认95%。

excel预测分析怎么用(用excel轻松找出影响因素)(9)

设置参数

4.点击“确定”,就会生成如下分析结论:

excel预测分析怎么用(用excel轻松找出影响因素)(10)

分析结论

【如何解读线性回归分析结论】

从案例上看,excel共输出了三组结果,前两组是针对整体,即把所有自变量当作一个整体,第三组是针对个体,即每个自变量和因变量的关系。

excel预测分析怎么用(用excel轻松找出影响因素)(11)

解读分析结论

1.看整体

(1)R Square,即R2,表示因变量Y出现的变化,可以被所有自变量整体X解释的比例。在线性的情况下,R2的值越大越好。如上图所示,R2=0.4057,意味着有40.57%的“销量排名”变化可以被“价格”“评论条数”“评分”“时间”共同解释。因为列表中的数据只是样本,且自变量个数较多,所以看解释性可以用Adjusted R Square(矫正后的R2)。

扩展知识:R2=1-(RSS/TSS),RSS=e12 e22 e32 …… en2(取最小化的RSS),ei=真实样本的Y值-回归线的Y值,TSS=(真实样本的Y值-真实样本的Y的均值)2。

Adjusted R2=1-[(n-1)(1-R2)/(n-p-1)],n是样本数量,p是变量个数。

(2)F,表示因变量Y和所有自变量整体X的关联程度,越大越存在关联。但并不意味着Y跟任一X都有关联。

扩展知识:F=[(TSS-RSS)/p]/[RSS*(n-p-1)]

2.看个体

(1)P-value,越接近0,相关性越显著。如上图所示,价格、时间、评论条数、评分的P值都很接近0,说明每个自变量对销量排名都显著相关。

(2)t Stat,绝对值越大,相关性越显著。正负符号代表相关的方向。如上图所示,价格和评论条数的t值大于0,说明价格越高,评论条数越多,那么销量排名就越靠后;评分和时间的t值大于0,说明时间越久,评分越高,那么销量排名就越靠前。

3.预测未来变化的回归公式

这个案例的线性回归公式,结构应该是Y=β0 β1X价格 β2X评论条数 β3X评分 β4X时间。只要求出β系数的值,就能获得公式。

excel预测分析怎么用(用excel轻松找出影响因素)(12)

回归公式的β系数

Coefficients,表示系数列,其中Intercept是常数项系数,即β0;其余变量的系数,对照Coefficients值,可以自行对号入座。

【如何提升线性回归的解释性】

案例的Adjusted R2=40.14%,这个解释性并不强,其中一个原因是“销量排名”的数据变化并不是线性的,因为排名数据是相对的,而其他自变量数据都是绝对的。所以要提升解释性,可以先把几个变量转变成线性相关。

1.那么如何转变成线性相关呢?有个办法就是将所有变量自然对数化,在excel中就是使用ln函数。这样可以获得变量间的相对百分比变化,比如价格提高百分之一,销量排名变化了百分之几。

excel预测分析怎么用(用excel轻松找出影响因素)(13)

LN函数

2.用新的LN变量进行回归分析,操作步骤就不重复了,直接看分析结果:

excel预测分析怎么用(用excel轻松找出影响因素)(14)

提升解释性

我们发现LN后,Adjusted R2=53.54%,提升了10个百分点,说明自变量整体对因变量变化的解释性确实更强了。同时,评论条数的P值不再接近0,不再显著相关,说明评论条数增加,并不怎么影响销量排名。

以上是关于回归分析学习笔记的分享,在践行费曼学习法的同时,也希望能帮助对数据分析有兴趣的同学~

,