变量定义的正确方式(什么是变量转换)(1)

在《如何让女朋友理解多元回归?//先让她搞懂一元回归啊!》一文中提到,当自变量和因变量之间不满足线性关系的时候,可以考虑进行变量转换,从而让转换后的自变量和因变量之间满足线性关系。

本文通过一个案例来介绍相关操作过程和注意的问题。如下图所示,自变量x与因变量y不满足线性关系。

变量定义的正确方式(什么是变量转换)(2)

如果想要拟合线性模型,那么就需要对自变量进行转换(也可以对因变量进行转换)。那么用什么办法进行转换呢?

在SPSS里面,有一个功能叫做曲线拟合,通过这个功能,可以知道应该用什么样的代数变换对数据进行处理。菜单位置是分析<回归<曲线估计。将自变量与因变量选入相应的位置,勾选模型类型,这里想要探索哪一个模型合适,就将所有模型勾选。

变量定义的正确方式(什么是变量转换)(3)

结果得到一个表格和一张拟合的图形,在表格中根据R方这一列对模型进行选择,R方代表的是拟合优度,这个值越大,越接近于1,表示模型的效果越好。从表格里面可以看到三次,也就是立方模型最好。R方为0.998.于是选择立方模型对自变量进行变换。

变量定义的正确方式(什么是变量转换)(4)

也可以结合拟合的图形辅助判断

变量定义的正确方式(什么是变量转换)(5)

通过转换<计算变量菜单调出计算变量对话框,计算自变量的立方变换,做的事情就是把自变量x连乘3次。

变量定义的正确方式(什么是变量转换)(6)

然后再对因变量y和变换后的自变量x的立方做散点图,结果如下图。这是很明显的线性模型。

变量定义的正确方式(什么是变量转换)(7)

再调用回归<线性建立线性模型。得到的模型如下图所示,统计检验显著。模型的拟合优度为0.998.和前面的模型拟合优度是一样的。

变量定义的正确方式(什么是变量转换)(8)

现在得到的模型表达式应该是 y=13.065*x^3 40.576

需要注意的是前面的曲线拟合,也能够得到一个模型。模型表达式为:

y=-9.571*x 4.462*x^2 12.468*x^3 44.499

(该图中模型三次对应的行,参数估计值b1 、b2 、b3分别为x、 x^2、 x^3的系数,常数项为44.499)

既然曲线拟合可以直接得到模型为什么还需要先用曲线拟合找到转换的代数关系,再拟合呢?

因为变量转换一般不是在一元线性回归中使用的,一般在多元回归中使用,试想,在多元回归中,一个自变量x1与因变量y是对数关系,另外一个x2是平方根关系,还有一个x3是立方关系,这种不能直接作出曲线拟合,因为曲线拟合只支持一个自变量。这种情况下我们需要将自变量一一进行转换,然后才能进行线性拟合。

总结:

(1)在自变量与因变量之间的关系是非线性的时候,需要利用一定的代数变换,来转换成线性关系;

(2)可以通过SPSS里面的曲线拟合来探索何种转换最合适宜;

(3)一元线性回归时,曲线拟合转换后的线性模型效果差不多;

(4)多元回归时,自变量与因变量不成线性关系时,一定需要转换自变量。

如果您的身边或者亲朋好友的孩子今年参加高考,麻烦您点击阅读原文,将这份问卷转发给ta。以便于我们了解TA的困惑,我们后面会组织资源给出有针对性的建议。

,