咏牡丹
【宋】陈与义
一自胡尘入汉关,十年伊洛路漫漫。
青墩溪畔龙钟客,独立东风看牡丹。
作者陈与义是南北宋相交时的著名诗人。这首诗是作者南渡后于绍兴六年(1136年)居住在青墩(今浙江桐乡县北,与乌镇隔水相望)时所作,距靖康二年(1127年)金兵攻陷汴京正好十年。"十年伊洛路漫漫"中"路漫漫"既是说离自己的家乡洛阳(伊水、洛水)是路途遥远,也是说家乡被金兵占领的时间也已经很长久了(十年)。
在这首诗里,作者表面说的是面对春日盛开的青墩牡丹,自己独自一个在观赏,实际上想说的是什么时间我才能再回到故乡去观赏天下驰名的洛阳牡丹。但想到眼前的景况,时间在无情地流逝,自己已变得老态龙钟,然而家国破碎故土依然难回时,作者通过牡丹而强烈地表达出了对故乡深切无尽的思念及对前景的无望与悲苦万千的愁绪!
一元线性回归分析简介在前面章节提到线性回归分析的条件是:LINE,即为 线性、独立、正态、方差齐性。其具体分析步骤如下:
(1) 绘制散点图,考察数据是否满足线性趋势
- 若在散点图中发现有明显远离主体数据的观测值,则称之为异常点,异常点可能对正确评价两变量间的关系有较大影响,对异常点的识别与处理需要从专业知识和数据特征两方面进行考虑。需要强调的是,实践中不能通过简单提出异常数据的方式来得到拟合效果较好的模型,只有认真核对原始数据并检查其产生过程认定是过失误差,或通过重复测定确定是抽样误差造成的偶然结果,才可以提出或采用其他估计方法。
(2) 观察数据的分布
- 分析因变量的正态性、方差齐性,确定是否可以进行线性回归分析,模型拟合完毕,通过残差分析结果来考察模型是否可靠。如变量进行了变换,则应重新绘制散点图并观察数据分布。
(3) 拟合回归曲线
(4) 残差分析
考察数据是否符合模型假设条件,主要包括以下方面:
a. 残差是否独立:实际上就是考察因变量取值是否相互独立,采用Durbin-Watson残差序列相关性检验进行分析。
b. 残差分布是否正态:实际上就是考察因变量取值是否服从正态分布,可以用残差列表及一些相关指标来分析,直观方法为图示法。
(5) 结果解释
- 反映两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数绝对值,而不是假设检验的P值。P值越小只能说越有理由认为变量间直线关系的存在,而不能说关系越密切或越"显著"。另外,线性回归用于预测时,其使用范围一般不应超过样本中自变量的取值范围,此时求得的预测值成为内插,而超过自变量取值范围所得的预测值称为外延。若无重复理由说明现有自变量范围以外的两变量间仍然是直线关系,则应尽量不合理的外延。
示例:某课题组随机抽取30名成年男性,收集其年龄X和收缩血压Y(mmHg)。分析收缩压对年龄的直线回归方程。
1. 线性关系验证
- 从上图可看出,年龄与收缩压之间之间具有一定的直线关系,同时,从散点图也可看出,有一个点,游离于其他点之外,可能为异常值,后续可进行判断
2. 正态性判断
(1)打开 分析—描述—探索
- 由上图可知,收缩压与年龄的P值均大于0.05,所以呈正态分布
3. 打开 分析—回归—线性
4. 参数说明
(1) 主页面说明
- 因变量:定义会分析的因变量,只能选择一个;
- 自变量:可以定义一个或多个
- 方法:自变量的选择方式,默认为Enter(输入,即强行进入法),本例只有1个自变量,选择Enter法
a. 输入:将自变量列表中的自变量全部选入回归模型
b. 逐步:先选择对因变量贡献最大,并满足判断条件的自变量进入回归方程,然后将模型中符合剔除数据的变量移出模型,重复进行到没有变量被引入或剔除,得到回归方程
c. 删除:先建立全模型,然后根据设定的条件一部就剔除部分自变量
d. 后退:先建立全模型,根据选项对话框中设定的判定条件,每次讲一个不符合条件的变量模型删除,重复进行到没有变量被删除,得到回归方程
e. 前进:模型从无自变量开始,根据选项对话框中设定的判定条件,每次将一个最符合条件的变量引入模型,直到所有符合判定条件的变量进入模型
- 选择变量:在分析某变量符合一定条件的记录时,选择该变量,并通过右侧的 规则 按钮Ian里选择条件,跟之前章节中讲到的 样本选择 的功能相同。
- 个案标签:选择一个变量,其取值作为每条记录的标签
- WLS权重:进行加权最小二乘法的回归分析
(2)"统计"页面
a. 回归系数
- · 估计:输出回归系数、标准误差、标准化回归系数、t检验以及显著性概率p值
- · 置信区间:输出回归系数的95%置信区间
- · 协方差矩阵:输出回归系数的协方差矩阵和相关系数矩阵
b. 其他指标
- · 模型拟合:对所有自变量进行统计输出,包括复相关系数R、R2及其修真值、估计值的标准误差以及ANOVA方差分析表
- · R方变化量:输出模型中引入或剔除一个自变量所产生的R2该变量,R2该变量越大,表明该自变量对模型的贡献越大,说明其可能是一个较好的回归自变量。
- · 描述:输出描述性统计量,包括分析中每个变量的有效个案例数、平均数、相关系数注重以及单侧显著性水平
- · 部分相关性和偏相关性:输出部分相关系数和偏相关系数
- · 共线性诊断:由于一个自变量是其他自变量的线性函数时所引起的共线性是不被期望的。输出共线性诊断结果,包括特征根、条件指数、方差-分解比例等
c. 残差
- Durbin-Watson:用于检测回归分析中的残差项是否存在自相关线性,同时输出可能是异常值的诊断表。D-W统计量的取值范围为0-4,当残差一阶正相关时D-W接近0,当残差一阶负相关时D-W接近4,D-W接近2时残差独立。
- 个案诊断:
-- 离群值:设置异常值的判断依据,默认是3倍标准差
-- 所有个案:输出所有观测变量的残差值
(3)"图"页面
a. 左侧的变量列表:显示的是可做散点图的做图元素:dependent—因变量、ZPRED—标准化预测值、ZRESID—标准化残差、*DRESID—剔除残差、*ADJPRED—调整的预测值、*SRESID—学生化残差、*SDRESID—学生化剔除残差
b. 标准化残差图:
- · 直方图:输出带有正态曲线的标准化残差的直方图
- · 正态概率图:输入P-P图,用来检查残差的正态性
- · 产生所有部分图:输出每个自变量的残差相对于因变量的残差分布图,要生成部分图,至少要有2个自变量
(4)"保存"页面
a. 预测值:回归模型对每个个案的预测值
- · 未标准化:输出为标准化的预测值
- · 标准化:输出标准化的预测值,预测值减去平均值预测值,得到的差除以预测值的标准差
- · 调节:调整预测值,当一个观测值被排除在回归方程之外,得到的回归方程对这个观测值的预测值
- · 平均值预测值:预测值的标准误差。
b. 残差:设置残差选项,用于模型诊断
- · 未标准化:原始残差
- · 标准化:标准化后残差,均数为0,标准差为1
- · 学生化:采用T变换产生的残差
- · 删除后:不考虑当前记录,当前模型对该记录因变量的预测值对观察值的原始残差,即剔除残差,可发现可疑的强影响点
- · 学生化删除后:学生化提出残差
c. 距离
- · 马氏距离:计算自变量个案值与所有个案平均值的距离,当马氏距离过大时,表明该个案的一个或多个自变量的取值有异常。
- · 库克距离:计算Cook距离,表示把一个个案从计算回归系数的样本中去除时,所引起的残差变化的大小。Cook值越大,表明该个案对回归系数的影响也越大。一般而言,多大于1,则该记录则可能为影响点。
- · 杠杆值:用以测量单个观测对拟合效果的影响程度,若值大于2*P/N(P-变量数,N-样本量)则该记录则可能为影响点。0表示此样本对拟合无影响。
d. 预测区间
- · 平均值:平均预测响应的预测区间的下限和上限
- · 单值:单个个案的因变量预测区间的下限和上限
- · 置信区间:可输入1-99.99的数值,默认为95,,输出两个区间的置信度
e. 影响统计:设施诊断影响点的统计量选项
- · DfBeta:表示不考虑观察值后回归系数的变化值
- · 标准化DfBeta:当大于2/sqrt(N)时,该点可能是强影响点
- · DfFit:表示不考虑该观察值后预测值的变化值
- · 标准化DfFit:当大于2/sqrt(N)时,该点可能是强影响点
- · 协方差比率:在多重回归中,表示不考虑该观察值后协方差矩阵与含该观察值协方差矩阵的比率。绝对值大于3*P/N时,该点可能为强影响点
(5)"选项"页面
- · 使用F的概率:1个自变量F检验的显著性水平小于等于进入值,该变量进入回归方程;当值大于删除值时,则删除。系统默认是进入0.05,删除0.1。
- · 使用F值:使用F值作为依据,F值大于等于进入值,该变量进入回归方程,F值小于删除值,则删除。
5. 结果输出与解释:
(1) 描述性统计
- · 图A给出因变量与自变量的平均值、标准偏差,以及样本数
- · 图B给出因变量与自变量的相关系数,可看出年龄与收缩压的相关系数为0.658。
(2) 模型输入/除去的变量
- · 下图显示了拟合过程中变量进入/退出模型的情况,本例中只有一个自变量,并且采取强行进入方法,所以只出现一个模型。
(3) 模型摘要表
- · R2:决定系数,反映模型的解释度,或模型准确性;R2=0.432,即年龄仅可解释收缩压的43.2%的变异;
- · 但R2会受自变量数量的影响,自变量越多,R2越大,为校正自变量个数的影响,一般采用调后的R2
- · 徳宾-沃森(D-W)检验:一般取值0~4,一般认为1.8~2.2,数据间相互独立,本例中D-W=1.692,可认为数据间近似独立
(4) 方差分析表
- · 方差分析反映了模型整体的显著性,由下表可知,P=0.000<0.05,构建的回归模型有统计学意义
(5) 回归系数
- · 依据回归系数表可建立回归方程:Y=98.715 0.971*X,表示说明年龄增长一岁,收缩压增加0.971。
- · 经过t检验,常数项与年龄的显著性小于0.01,具有显著性意义。
(6) 个案诊断
- · 发现1个异常点,个案号为2号,其标准化残差绝对值超过3个标准差。可对上述2号个案进行检查,看数据是否有误。有误更改,无误可以考虑删除。
以下为删除个案为2号的相应分析结果。
(1) 描述统计
- 从图A与图B中均可看出,平均值、标准偏差、相关系数均有改变,其中相关系数有所增加,相关性更强
(2) 分析结果
- 从下表可看出,删除异常值后,R2=0.702,增加较多,表明年龄仅可解释收缩压的70.2%的变异
- 回归方程为:Y=97.077 0.99*X,表示说明年龄增长一岁,收缩压增加0.949。
(3) 标准化残差图
- 可见总体上残差符合正态分布。说明符合线性回归的正态性的条件
(4) 残差散点图
- 为回归标准化残差与标准化预测值的散点图,基本在 3个标准差以内,说明总体效果较好,满足等方差性。
6. 语法
********************散点图******************.
GRAPH
/SCATTERPLOT(BIVAR)=X WITH Y
/MISSING=LISTWISE.
********************回归分析******************.
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10) CIN(95)
/NOORIGIN
/DEPENDENT Y
/METHOD=ENTER X
/SCATTERPLOT=(*ZRESID ,*ZPRED) (*SDRESID ,*ZPRED)
/RESIDUALS DURBIN HISTOGRAM(ZRESID) NORMPROB(ZRESID)
/CASEWISE PLOT(ZRESID) OUTLIERS(3)
/SAVE COOK LEVER MCIN ICIN.