线性回归怎么理解 如何通俗理解线性回归(1)

无论实验性研究还是观察性研究,线性回归分析十分重要,尤其是现况调查和队列研究。在现况调查中,回归分析既可以初步探索变量与变量的关系,也可以通过多变量的回归分析开展复杂关联性分析。

现况调查的分析过程及回归分析的位置

学习回归分析,首先得了解回归的历史,模型的定义,建模的意义等,本文将基于简单线性回归,来帮助大家全面了解线性回归分析。

回归分析的历史

“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。

1855年, 高尔顿发表《遗传的身高向平均数方向的回归》一文,他和他的同事通过观察1078对夫妇的身高数据,他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。当父母越高或越矮时,子女的身高会比一般儿童高或矮。他将儿子与父母身高的这种现象拟合出一种线形关系,分析出儿子的身高y与父亲的身高x大致可归结为一下关系:

Y= 0.8567 0.516*X (单位为米);

假如父母辈的平均身高为1.75米,则预测子女的身高为1.7597米。 这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这就是回归一词最初在遗传学上的含义。

有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所 生的儿子比其父要高,身材较高的父母所生子女的身高却回降到多数人的平均身高。换句话说,当父母身高走向极端,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高,即有“回归”到平均数去的趋势,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数方向的回归”(regression toward mediocrity)。

“回归”一词正式流传下来,不过后来的统计学看重的不是“向平均数方向的回归”而是高尔顿建立起来的回归方程。这个回归方程是一个函数,它不能准确反映父亲身高和子代身高的关系,但是却可以大致判断,并且在一个群体水平计算父亲身高对子女的影响的平均值,可以从数据上反映父亲身高与子女身高的因果关系。

“回归”逐渐成为根据一种变量(父母身高)预测另一种变量(子女身高)或多种变量关系的描述方法,成为百年来经久不衰的统计学方法。

回归关系,即一种用数学函数描述的变量的数量依存关系,而且主要是因果关系。

线性回归分析的模型

▌什么是模型?

模型(model)模型是指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式比如,地球仪是一个模型,它代表着用物理球体来反应真实的地球。

最常见的是用数学的方式来反映客观事物。因此,全球各国有一个注明的数学比赛,叫做数学建模大赛!用数学方法来拟合现实事件发生的一般规律。

统计模型也是一种数学的方式。比如,高尔顿的子代身高问题,我们想关心的是,子代身高到底受什么影响?我们能否预测它,能否用数学的方式预测它?此时,便需要构建数学模型。

高尔顿给出了最为经典,但有十分简单的方式,用一元一次,或者多元一次模型来构建子代身高的模型:

Y= 0.8567 0.516*X (单位为米);

回归模型或者回归函数是一类统计学分析最重要的模型,除了线性回归模型,还有不计其数的各种回归模型,典型还有logistic回归模型,Cox模型,Poisson模型等。本文以线性回归模型为例,来探讨模型结构。

线性回归怎么理解 如何通俗理解线性回归(2)

▌线性回归模型定义

线性回归按变量数量的多少可以分为:简单线性回归和多重线性回归。简单线性回归,也就是有一个自变量,数学上表达为一元一次函数,其模型可以表示如下:

上述公式是基于样本得到的结果,b0和b1均为统计量,若该公式拓展到总体人群,则为

公式中参数解释如下:

x:自变量

ŷ:y的预测值

b0 、β0:截距

b1、β1:变量回归系数

其中,关键的指标即为b1和β1,他们称之为回归系数,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。

值得注意的是,这里x是真实的变量值x,而y带了一顶帽子,并非是y的真实值,而是成为y的预测值或者估计值。

实际上,世界上所有的x和y没有严格上一一对应的关系,通过x产生的预测值ŷ,是接近于y但不等于y。

y预测值与y直接的差值我们称之为残差。

线性回归怎么理解 如何通俗理解线性回归(3)

残差反映了除了x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。

可以这么来理解ϵ:我们对y的预测是不可能达到与真实值完全一样的,这个真实值只有上天知道,因此必然会产生误差,我们就用ϵ来表示这个无法预测的误差。我们通过引入了ϵ可以让模型达到完美状态,也就是理论的回归模型。

残差ϵ就是没有被解释的部分,是剩下来的变异,是边角料。

再通俗来说,就是x和y完美的关系是不存在的,通过x只能差不多预测y。真实和模型总是有点差别,有些差别大,有些差别小。就如,现在的美女们,照片的美女和实际真人残差很大,很以前的美女,照片和真实简直一摸一样,残差小。以前的照片,残差是粉底;现在的照片,残差都是手机惹的祸,你想要怎么美都行!结合残差,真实的y和x关系如下:

线性回归怎么理解 如何通俗理解线性回归(4)

同样的,多个自变量存在的情况下,多重线性回归模型的表示如下:

线性回归怎么理解 如何通俗理解线性回归(5)

其中,bk、、βk:回归系数,在多重线性回归中,被称之为偏回归系数,表示每个自变量都对y部分的产生了影响。意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量

线性回归怎么理解 如何通俗理解线性回归(6)

一个回归模型,必然有残差,成功的模型必然也有相应的变量来解释y的变异,但是残差可大可小。一般来说,建立回归模型时,总希望残差尽可能小残差越小,往往意味着更多的y的变异被解释掉了,预测模型更加真实,即Y预测值更接近于Y真实值。

这一“残差越小越好”的思维被运用回归分析中,便成为了回归建模的基本原则,最小二乘原则。

,