单变量数据和二变量数据

到目前为止,我们所使用的变量都是单变量数据。所谓单变量数据,指的是单一变量的频数或概率,单变量所描述的对象只有一个,它无法描述多组数据之间的关系。这时,就需要使用二变量数据了。

二变量数据给出了两个变量数值。例如,我们要观察天晴时数对音乐会听众人数的影响,这时就需要给出两个变量:天晴时数和音乐会听众人数。

如何一天学会统计学:每天一点统计学(1)

如果其中一个变量以某种方式受到控制,或者被用来解释另一个变量,则这个变量被称为自变量或解释变量,另一个变量则称为因变量或反应变量。我们希望用天晴时数 预测听众人数,所以天晴时数是自变量,听众人数是因变量。可以使用散点图将二变量数据可视化:

如何一天学会统计学:每天一点统计学(2)

这里需要提醒的是:两个变量之间存在相关关系并不一定意味着一个变量会影响另一个变量,也不意味这二者存在实际关系。

用最小二乘法求最佳拟合线

能最好地接近所有数据点的线被称最佳拟合线,要求出最佳拟合线,可以首先假设直线公式为y=a bx。最佳拟合线即表达式为y=a bx且使得y的实际观察值与每个x相对应的y的估计值的差距为最小的线。

误差平方和

假设我们用Yi表示表示数据集中的每一个y值,用Y^i表示通过最佳拟合线得出的估计值。我们想让y的实际值和我们根据最佳拟合线得出的估计值之间的差为最小,也就是说想让Yi与Y^i的差别只和最小,为了让所有的距离不相互抵消,我们求出他们的差的平方和,即误差平方和(SSE),算式如下:

如何一天学会统计学:每天一点统计学(3)

误差平方和公式

高中数学我们就已经知道,b代表直线的斜率,下面直接给出使误差平方和最小的b的计算公式:

如何一天学会统计学:每天一点统计学(4)

斜率的计算公式

以上面天晴时数和音乐听众人数的数据作为例子,根据误差平方和公式以及斜率计算公式,可以得出:

b=5.32

参数a的计算公式如下:

如何一天学会统计学:每天一点统计学(5)

a的计算公式

所以可得出a=15.80.

,