卡方检验成功案例(卡方检验原理与应用实例)(1)

本文简单介绍卡方检验的原理和两个类型的卡方检验实例。

本期推送的另外几篇文章,来自微信公众号“amegroups”,长按下方二维码,关注该公众号。关注后,回复“卡方检验”即可看原文,给出出处,以防止转载过程中,关键信息丢失影响阅读时,找不到原文。

一、卡方检验的作用和原理

1)卡方检验的作用:简单来说就是检验实际的数据分布情况与理论的分布情况是否相同的假设检验方法。怎么理解这句话呢,拿一个群体的身高来说,理论上身高低于1米5的占10%,高于2.0的占10%,中间的占80%,现在我们抽取了这个群体中的一群人,那么对应这三个身高段的人数的比例关系是不是1:8:1呢?卡方分析就是解决这类问题。

2)卡方检验的原理:上面已经提到卡方检验是检验实际的分布于理论的分布时候一致的检验,那么用什么统计量来衡量呢!统计学家引入了如下的公式:

卡方检验成功案例(卡方检验原理与应用实例)(2)

Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ti等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。和参数检验的判断标准一样,这个统计量有一个相伴概率p。零假设是理论分布与实际分布是一致的,所以如果P小于0.05,那么就拒绝原假设,认为理论和实际分布不一致。

二、适合性卡方测验

所谓适合性检验就是检验一个样本的分布是否符合某个分布的一种假设检验方法。比如说检验数据是否正态分布,是否成二项分布或者平均分布等等。拿正态分布来说吧!请看下图

卡方检验成功案例(卡方检验原理与应用实例)(3)

在这个近似标准正态分布的玉米株高的分布中,横轴代表的是株高的数据,而纵轴代表的是对应株高的频数,简单来说,正态曲线上的某点的纵坐标代表的就是这个点对应的横轴坐标显示株高的玉米有多少株。只不过正态分布曲线上显示的是频率值,而频率=该组株数/总的株数,所以分布曲线不会变,只不过纵坐标由频数变为频率。这也解释了昨天推送的《如何判断数据是否符合正态分布》中用带正态曲线的直方图判断数据是否符合正态分布的原理。

回到本节,当我们要检验玉米株高是否符合正态分布时,我们能够通过计算,计算出当样本量为600(注意本例株高数据的个案数为600,下载数据资料进行练习过的学员应该知道)时,每个株高下的玉米株数设为E,然后我们已经有实际值 设为A,然后我们带入上面的公式计算得到卡方统计量,由SPSS输出相伴概率,我们就能判断数据是否符合正态分布了。

再说一个例子。

卡方检验成功案例(卡方检验原理与应用实例)(4)

这里假设理论上我们认为车祸每天发生的数量相同,就计算出每天车祸发生的理论发生数为22.8,而实际上每天车祸发生的数目并不是这样,那么这种不同是显著不同于理论分布呢,还是只是抽样引起的呢?需要用卡方进行检验。我们计算得到卡方统计量和相伴概率,就能够判断车祸实际每天发生的数量是就是理论上认为的应该相同了。

下面给出SPSS的操作过程:

1)选择非参数检验下的旧对话框按钮-点击卡方检验,然后把每天对应的概率输入期望值对话框。

卡方检验成功案例(卡方检验原理与应用实例)(5)

2)或者这种情况之下,因为概率相同,你可以选择所有类别期望值相同。

3)输出结果

卡方检验成功案例(卡方检验原理与应用实例)(6)

sig值,也就是P值小于0.05,拒绝原假设,说明现实中每天车祸放生的概率明显不同,我们知道这一结论之后,结合源数据,选择周二出行可能是比较保险的。然而现实中,我们可能必须每天都要出去,所以时刻注意安全才是保障啊!祝各位一生平安!

三、卡方独立性检验

独立性检验是检验两个变量之间是否独立的检验。通常的源数据格式为excel透视表的形式如:

卡方检验成功案例(卡方检验原理与应用实例)(7)

本例检验不同员工喜欢的保险方案是否显著不同,把数据录入SPSS中:

卡方检验成功案例(卡方检验原理与应用实例)(8)

注意录入数据时,每个单元格表示一个变量信息,要做数据分析,必须保证数据存储的格式是正确的。

接下来需要做加权处理,把人数进行加权

卡方检验成功案例(卡方检验原理与应用实例)(9)

至于为什么要做加权,因为我们后边在做交叉表分析时,人数这个变量不会被选入,这样人数就不能跟随它的类别进入了,因此要加权。

接下来做交叉表分析,里面会有卡方检验的过程:

卡方检验成功案例(卡方检验原理与应用实例)(10)

将两个分类变量分别选入行和列对话框

卡方检验成功案例(卡方检验原理与应用实例)(11)

点击统计量,选中卡方统计量

卡方检验成功案例(卡方检验原理与应用实例)(12)

点击继续后,点击确定得到输出结果

卡方检验成功案例(卡方检验原理与应用实例)(13)

可以看到sig大于0.05,接受原假设,因此可以有95%把握认为不同类型员工对保险方案的选择没有差别;但是如果考虑置信度为0.1的话,则0.088<0.1,拒绝原假设,因此有90%的把握认为不同类型的员工对保险方案的选择有差别!这里看你怎么选择置信度了!

,