今天想了好久,发现实在是取标题无能,就这样得了

线性回归,往高大上点说,是一种数据分析的方法,但往简单点说,就是在一堆都是点点的图上加一条和所有点点最贴近的直线,用来代表整张图

为什么要这么做呢?因为直线的公式简单啊,直接y=ax b,就可以根据散开的数据点,估计出一个完整连续区域上所有的值,这种方法在数学上,也可以叫做预测

线性回归如果用Excel实际做起来,可以参考一下三种方式

1) 在散点图中选中所有数据点,右键添加趋势线,选择线性,下方显示公式处打勾

excel表格做线性回归(Excel工具线性回归)(1)

这里我把显示R平方值也打上了勾,虽然这个数据不是后续计算必需的,但却是用来验证这条直线是否可用的重要指标,所以我会在后面讲的仔细点

计算出来的直线公式会直接显示在图表上,下面这个图算是举个例子:

excel表格做线性回归(Excel工具线性回归)(2)

这种直接在散点图上添加趋势线的方式最大的优点是简单,很好操作,但缺点是计算出来的直线公式显示在图表上,而且y=ax b中的系数a和常数b都只能显示出有限的几位数,精确度上会打点折扣

2) 第二个方法需要用到Excel的数据分析工具,用的是和前天的文章里画直方图同样的工具,这里我偷个懒少贴一点:

前天的链接:https://www.toutiao.com/i6593195962838024712/

excel表格做线性回归(Excel工具线性回归)(3)

装好之后按钮的位置:

excel表格做线性回归(Excel工具线性回归)(4)

打开之后选择"回归":

excel表格做线性回归(Excel工具线性回归)(5)

excel表格做线性回归(Excel工具线性回归)(6)

计算出来的东西是这么一大片数字,如果看着晕菜的话,就只挑圈出来的那三个数看看好了(系数a、常数b和R平方)

excel表格做线性回归(Excel工具线性回归)(7)

这个做法的好处是精确,一次性把所有相关的统计量都算出来了,缺点是啰嗦,算条直线冒出来一大片豆腐干,而且没点统计学知识压根搞不明白这一堆数字是干嘛的

3) 最后一种方式是直接上手用公式计算,这里需要借助一些人家专业人士的结论:

excel表格做线性回归(Excel工具线性回归)(8)

excel表格做线性回归(Excel工具线性回归)(9)

看不懂么,嗯~~~是挺容易看懵的,我大概翻译下,这几个公式的意思是:

系数a=sum((每个x值-x的平均)*(每个y值-y的平均)) /sum((每个x值-x的平均)的平方)

常数b=y的平均-a*x的平均

r平方=(sum((每个x值-x的平均)*(每个y值-y的平均)))^2/sum((每个x值-x的平均)的平方)*sum((每个y值-y的平均)的平方)

写在Excel里大概是这样:

excel表格做线性回归(Excel工具线性回归)(10)

两旁有大括号{}的是数组公式,请注意输完后Ctrl Shift Enter三键一起按

唉,算了,实在不好理解的话,这个方式就权当参考了吧


最后讲下关于r平方这个东西,一般来说,不是所有的散点图都可以画成直线的,按人家专业搞数学的人提出来的观点,要做线性回归至少得满足几个条件:

excel表格做线性回归(Excel工具线性回归)(11)

1. x和y的两组数得确定两者之间是有联系的,别闲的没事把不相干的东西放一起分析

2. 多个x之间得尽量不相干,不然重复或类似的x值会影响推测y值的准确性

3. 还有就是你得确定按散点画出来的最合适最贴近的形状是条直线,人家要是条曲线的话你不能强行勉强人家掰直了(我怎么觉得自己讲得怪怪的。。。)

前两个条件咱还可以自行理解,可是问题就是最后一个条件,怎么能确定这个散点图适合用直线来表示呢?这里就用的到r值了

r值的大名叫皮尔森相关系数(外国人都喜欢用自己的名字命名公式),用来确定两个系列的数据之间相关的程度,计算结果在-1到1之间,而且越接近1或-1的话两者相关程度越高,0附近那就表示两者基本没有线性关系

但是为了方便判断,咱们如果把r值取平方的话,得到的结果就在0到1之间,这样的话只需要看数值越大,越接近1,相关程度就越好了

一般来说,建议r平方的值至少得在0.9以上,甚至最好在0.95以上,在这个基础上画的直线会比较靠谱,适合后期做进一步预测

今天略有点超长了,我考虑下明天是不是可以水一点。。。。。。

,