卡方检验原理与应用(卡方检验案例)(1)

通常情况下,卡方检验是研究分类数据与分类数据之间关系的分析方法,如研究性别和是否吸烟之间的关系。卡方检验通常会涉及卡方值和p值两个名词术语。卡方值与p值有对应关系,p值小于0.05则说明有差异存在,即性别与是否吸烟之间有联系。

一、案例背景

某调查研究青少年近视情况,共有117人参与调查,调查者年龄范围5~14岁,年龄段分组分别为5~8岁,8~11岁以及11~14岁,观察不同年龄组与是否近视之间的关系。(PS:案例仅供参考,并无实际意义)部分数据如下

卡方检验原理与应用(卡方检验案例)(2)

二、预处理

首先将“年龄”进行虚拟哑变量处理;得到3个哑变量即3个标题,分别代表‘是否5~8岁’,‘8~11岁’和‘11~14岁’;

卡方检验原理与应用(卡方检验案例)(3)

将因变量Y与新得到的3个哑变量进行卡方检验。

卡方检验原理与应用(卡方检验案例)(4)

三、结果说明

研究不同年龄段和是否近视之间的关系。结果将从基本分析结果、图示化以及统计过程值三个方面进行说明。

  1. 基本分析结果

卡方检验原理与应用(卡方检验案例)(5)

首先分析X分别与Y之间是否呈现出显著性(一般观察p值小于0.05或0.01);从上表可知:8~11岁时p值>0.05,其余两项均小于0.05 ,所以不同近视情况样本对于8~11岁不会表现出显著性差异,另外,近视情况样本对于5~8岁, 11~14岁共2项呈现出显著性差异。

并且5~8岁的少儿,近视占比为18.37%,占比较小,但是家长在孩子5~8岁时也需要注意保护视力。年龄11~14岁的孩子,近视占比为51.02%已经超过了一半,更加需要注意。接下来查看堆积柱形图也许能够更直观的看出数据情况。

图示化

(1)5~8岁

卡方检验原理与应用(卡方检验案例)(6)

绿色代表5~8岁青少年近视情况,可以直观的看出调查范围内,不近视的人占比相对于近视群体多一些。

(2)8~11岁

卡方检验原理与应用(卡方检验案例)(7)

绿色代表8~11岁青少年近视情况,可以直观的看出调查范围内,不近视的人占比与近视群体差不多,没有很大差异。

(3)11~14岁

卡方检验原理与应用(卡方检验案例)(8)

绿色代表11~14岁青少年近视情况,可以直观的看出调查范围内,近视的人占比相较于不近视群体多一些,有明显差异。

统计过程值

卡方检验原理与应用(卡方检验案例)(9)

卡方检验原理与应用(卡方检验案例)(10)

卡方检验原理与应用(卡方检验案例)(11)

从上表格可以看出,研究不同年龄对于是否近视的差异关系,由于是否为该年龄段共分为2类,胆固醇分为2类;2*2格式的卡方检验,期望频数大于5的格子总数比例为100%,因而最终选择使用pearson卡方值。

从上表可知,不同近视情况样本对于8~11岁不会表现出显著性差异,另外,近视情况样本对于5~8岁, 11~14岁共2项呈现出显著性差异。


补充说明:

Pearson卡方,yates校正卡方,也或者Fisher卡方的选择标准如下:

下述中n代表总样本量;E代表期望频数;R代表X的类别个数;C代表Y的类别个数。

针对2*2(R=2,C=2)

n>=40 且 E全部>=5则使用Pearson卡方;

n>=40但其中有1个格子出现1 <=E<5则使用yates校正卡方;

任何一格子出现E <1或n<40则使用Fisher卡方;

针对R*C(R,C中任意一个大于2;且R>=2,且C>=2)

E全部>1 且 1 <=E<5格子的比例小于20% 则使用Pearson卡方,否则使用yates校正卡方。除此之外SPSSAU还提供了多重比较以及趋势卡方研究如有需要可以进行分析在结果里查看。

五、总结

本篇案例的数据比较特殊,结果展示包含多个卡方值和p值,研究青少年近视情况,共有117人参与调查,首先将数据进行哑变量处理,将因变量Y与新得到的3个哑变量进行卡方检验,对结果从基本分析结果、图示化以及统计过程值三个方面进行说明。发现不同近视情况样本对于8~11岁不会表现出显著性差异,近视情况样本对于5~8岁, 11~14岁共2项呈现出显著性差异。并且在着重关注11~14岁的青少年视力情况。注意用眼卫生,坐姿等。

,