什么是卡方(Chi-square)检验

卡方(Chi-Square)检验,被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者是英国的数学家卡尔·皮尔逊(Karl Pearson)。

卡方(Chi-Square)检验是当影响因子(X)和结果(Y)是分类/属性数据时的一种假设检验。希腊字母X或chi(发音为“kye”,与“eye”押韵)用来代表这一统计量(最后的符合是“平方”,因此称为“卡方”。卡方检验是每个类别预期值和观察值之间“差的平方”之和。卡方检验也是六西格玛较常用的工具,主要应用于A阶段。同T检验、方差分析等一样,在六西格玛中使用使用的频率较高。

卡方检验假设的形式

用卡方检验独立性,统计学家假设现实中的大多数变量都是独立、不想关联的。因此,

-H0:数据是独立的(不相关的);

-Ha:数据是非独立的(相关的)。

如果P值小于0.05,则拒绝H0。

案例分享

HR招聘专员通过物色到455个候选人,包含年长的、年轻的。想研究候年龄大小与被雇佣的关系。原始数据汇总表见图1。

卡方检验入门:六西格玛工具之卡方(1)

图1

Minitab卡方检验的路径很多人找不到路径的,因为其路径不在“质量工具”类别里面,而在“表格”里(参见图3)。卡方检验的具体路径为:统计 > 表格 > 相关性卡方检验。

1)打开Minitab软件,输入相关分类数据。见图2。

卡方检验入门:六西格玛工具之卡方(2)

图2

2)卡方检验的具体的具体路径为:统计 > 表格 > 相关性卡方检验。

卡方检验入门:六西格玛工具之卡方(3)

图3

3)代入相关数据并确定。

卡方检验入门:六西格玛工具之卡方(4)

图4

注:对于列联表数据,选择双因子表格中的汇总数据。

4)会话窗口输出

卡方检验入门:六西格玛工具之卡方(5)

图5

解析

通过卡方检验会话窗口输出, 可以看出卡方为0.007=0.004 0.001 0.002 0.000,即卡方贡献的总和;得知DF=1,P=0.932。因此没有证据显示年龄大小与被雇佣的比率有关联性。卡方的公式参见图6。

卡方检验入门:六西格玛工具之卡方(6)

图6

至于卡方的计算,可以使用Minitab, 也可以使用Excel表格。但前者更快、更准确。参见图5红色方框的计算方法如下:f0为实际的观测计数,即30、fe为期望计数,即(总行数X总栏数)/合计数=(180X75)/455=29.67;对卡方的贡献(f0-fe)的平方/fe,当前值为0.004=(30-29.67)的平方/29.67=(0.33X0.33)/29.67。其他的均以此类推。

若是后者,则需要先汇总原始数据汇总表(见图1),再计算期望值表(见图7),最后计算卡方表(见图8)。计算方式如上,此处不再赘述了。图8中绿色方框的卡方值看起来有些眼熟吧?没错!结果同图5的Minitab输出的卡方值是一样的。

卡方检验入门:六西格玛工具之卡方(7)

图7

卡方检验入门:六西格玛工具之卡方(8)

图8

若20% 以上单元格的预期频率(计数)都小于5,尤其是在p值较小并且这些单元格对总卡方值的贡献较大时,一些统计人员则会犹豫是否使用卡方检验 。如果某些单元格的预期频率(计数)较小,则可以考虑合并或忽略行和/或列类别

作者简介:Victor Wang

1) SGS制造业专业委员会首期成员;

2)国内某新能源上市公司CQO,锂电及质量领域的一名老兵;

3)资深六西格玛黑带(SSBB)。

,