数据分析教材适合在经营投资,研究与开发,生产产品,制造工程,质量管理,服务等领域,分析数据其波动性和规律性,探究影响的主要因素,加以改善和控制,使事物保持向预期健康发展;

现实工程工作中,分析数据的目的:1.鉴别和验证变量之间相互关系;2. 对影响关键指标的自变量进行改善和控制,以达到符合希望的目标结果;实际工作中,相关和回归分析法可以根据输入的变化对输出结果进行预测,从而确定是否对输入进行调整,即改善和控制自变量,对因变量进行预测和实现);

本节教材主要介绍数值型因变量和数值型之间关系的分析方法-相关与回归分析。分类方式

从所处理的变量多少分类:1)研究分析两个变量之间的关系,称为简单相关和回归分析;2)如果研究两个以上变量之间关系,称为多元相关和多元回归分析;

从变量之间关系分类:有线性相关与线性回归分析及非线性回归分析;

本节教材主要介绍简单相关和回归分析的方法;


一、相关性分析:

1.分析自变量(X)对因变量(Y)的影响,采集到的数据如下:

相关分析和回归分析的联系(相关和一元回归分析)(1)

图1

2.散布图分析,由自变量,因变量组成的散布图10个点坐标:

相关分析和回归分析的联系(相关和一元回归分析)(2)

图2

相关分析和回归分析的联系(相关和一元回归分析)(3)

图3

散布图显示数据分布呈一条细带型; 由左下角延伸至右上角;粗略显示因变量(Y)随自变量(X)增加而增加;

3.相关系数(r)来描述变量(X)与Y之间线性相关程度的参数;可以精确量化x和y的相互关系。公式不再赘述,直接分析;

相关分析和回归分析的联系(相关和一元回归分析)(4)

图4

相关系数r=0.914>0.8, 可以视为自变量(x)和因变量(y)高度相关;

显示显著水平P值 p-value=0.000<0.05, 因此x和y之间存在相关关系;


二 、回归分析:

至此,可以小结确定变量间的相关性及相关程度;但是,在解决实际问题时,仅做到这一步还不够;分析的目的是发现主要因素并找到其影响规律;随着关键少数因子(X)的变化,因变量(Y)如何变化,对应于x的变化量,y的变化量为多少?回归分析就是用来定量分析变量x和因变量y间关系的方法。通过回归分析可以将研究分析的变量转换成用方程来表示x和y的关系式;使用回归分析可以自众多的变量筛选出潜在的少数x;对y进行预测和优化;以及确定对应于y的最优值的x的区间;

1.一元线性回归方程,y=ax b έ (a,b称为回归系数,έ是模型的误差项,代表随机误差);为简化讲解过程,使用回归模块分析图1变量间关系:

相关分析和回归分析的联系(相关和一元回归分析)(5)

图5

相关分析和回归分析的联系(相关和一元回归分析)(6)

图6 回归-选项

相关分析和回归分析的联系(相关和一元回归分析)(7)

图7

自以上输出可知以下结论:

1) 得到回归方程:Y=-25.7 40.8X;

2)回归方程的显著项:本例常数项和系数均为显著项;

3)R平方和R平方(adj):这两个参数表示回归方程可以解释的变差占总变差的百分比,本例为83.5%;可能还存在其他因素的影响;

4)回归方程的方差分析结果:本例P值<0.05, 因此以95%的置信度认为回归方程拟合良好;

5)得到Y的预测值,预测区间(95.0%CI)和置信区间(95.0%PI);


三 、残差分析:

残差分析是建立在前面回归分析的基础之上

相关分析和回归分析的联系(相关和一元回归分析)(8)

相关分析和回归分析的联系(相关和一元回归分析)(9)

图8

1.残差正态分布图:样本数太少,仅供参考;

2.残差直方图:本例仅供参考!要自直方图得出结论,样本数需30个以上,才能进行分析;

3.残差(与拟合值)图:呈抛物线状,说明x和y之间有非线性相关关系;因数据量太小,后续介绍二次非线性方程来拟合时进行讲解;

4.残差(与顺序)控制图:控制界限是残差e /-3sigma,无超出点,说明无异常


四 、图示回归分析结果:

相关分析和回归分析的联系(相关和一元回归分析)(10)

图9

1.回归方程:Y=-25.66 40.83X;

2.中间一条直线表示回归方程的拟合值;

3.紧靠直线的两条虚线代表拟合值均值在95%置信度下的置信区间;

4.最靠外的两条画线代表拟合值在95%置信度下的预测区间;

后续,在数据分析教材,将介绍非线性相关关系和一元非线性相关回归分析,多元线性回归和非线性回归分析。希望对您的学习和工作有帮助。

教材编制辛苦,请您点赞并转发,让更多学习者使用。非常感谢!

作者:关中老玉米

日期:2020年12月20日

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

,