spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(1)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(2)

正态分布是一种最常见,最重要的连续型随机变量分布,在做统计分析时,要判断数据是服从正态分布,我们需要做正态性检验。今天我们就来学习几种正态性检验的方法和实例操作。

1. 图示法

常用的图示法有概率图(P-P plot)和分位数图(Q-Q plot),p-p图是以实际或观察的累积频率(X)对被检验分布的理论或期望累积频率(Y)作图。而Q-Q图是以实际或观察的分位数(X)对被检验分布的理论或期望分位数(Y)作图,两者以Q-Q图的效率较高。如果所分析的数据是服从正态分布的,则在P-P图和Q-Q图上的数据是分布在从左下到右上的直线附近。这两种图示法的在SPSS上的操作如下:

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(3)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(4)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(5)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(6)

上面的P-P图上的散点几乎都在一条直线上,故可以认为该资料服从正态分布。

Q-Q图也在SPSS分析-描述统计里,和P-P图是一样的操作。图示法相对其他方法而言,比较直观,方法简单,从图中可以直接判断,无需计算,但这种方法的效率不高,提供的信息只是正态性检验的重要补充。

2. 计算法

●(1)偏度和峰度

偏度是指分布的不对的程度和方向,用偏度系数来衡量:而峰度则是指分布与正态曲线相比的冒尖程度或扁平程度,用峰度系数来衡量。理论上,总体偏度系数=0为对称,>0为正偏态,<0为负偏态;总体峰度系数=0为正态峰,>0为尖峭峰,<0为平阔峰。只有同时满足这两个条件都接近于0,才能认为资料服从正态分布。通过SPSS 操作如下:

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(7)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(8)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(9)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(10)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(11)

偏度和峰度系数近似于0,可以判断资料分布近似于正态分布。

偏度和峰度系数只能用于参考资料是否为正态分布,更多的适用于判断在确定为非正态分布后,资料是为负偏态分布还是正偏态分布。最常用于正态性检验的是K-S检验和Shapiro-Wilk检验。

●(2)K-S检验

建议学习数学家柯尔莫哥(Kolmogorow)和斯米诺夫(Smirnov)创建了K-S单样本检验,它假设单样本所在的总体与指定的理论分布无显著差异,利用样本累计频率分布与理论累积频率分布的最大偏离值,来检验样本分布与理论分布的符合程度。当KS统计量显著性水平值大于临界值P=0.05时,认为样本来自具有理论分布的总体,符合理论分布。

K-S检验在SPSS上有两种途径,先介绍其中的K-S单样本检验,另一种和Shapiro-Wilk检验途径一样,稍后再作介绍。

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(12)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(13)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(14)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(15)

SPSS出来的正态性检验结果,当P>0.05时表明该变量服从正态分布,否则为非正态分布。结果显示:P=0.984,故该变量服从正态分布。

●(2)Shapiro-Wilk检验

Shapiro—Wilk检验法是S.S.Shapiro与M.B.Wilk提出用顺序统计量W来检验分布的正态性,对研究的对象总体,先提出假设认为总体服从正态分布,再将样本量为n的样本按大小顺序排列编秩,然后由确定的显著性水平α,以及根据样本量为n时所对应的系数αi,根据特定公式计算出检验统计量W.最后查特定的正态性W检验临界值表,比较它们的大小,满足条件则接受假设,认为总体服从正态分布,否则拒绝假设,认为总体不服从正态分布。Shapiro-Wilk检验适用于小样本量检验,SPSS操作过程如下:

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(16)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(17)

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(18)

提示:当样本量在3-50时,用shapiro-wilk检验,当样本量大于50时,用K-S检验。

SPSS出来的正态性检验结果,提供了K-S检验以及Shapiro-wilk检验的结果。结果显示:K-S的P=0.200,服从正态分布;Shapiro-wilk检验的P=0.944,服从正态分布。

大家思考一下为什么两种途径的K-S检验结果不一样

这是因为第一种途径的Kolmogorov-Smirnov检验,是没有经过Lilliefors纠正或改进的,只能做标准正态性检验。而第二种途径是经过Lilliefors纠正或改进的,用于一般性的正态检验。

关于正态性检验作用的案例:

《经皮鱼嘴钳固定治疗胫骨平台骨折》一文中, 应用撬拨复位、 经皮鱼嘴钳固定的方法治疗胫骨平台骨折 83例,随访其中 81 例, 得到膝关节功能评价结果见表:

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(19)

分析:

本例中治疗前的前三个指标的标准差是均数的2倍, 明显不成正态分布, 而“均数±标准差”用来说明呈正态分布的集中趋势的,用在这里是不合适的。会犯这种错误的原因,是没有做正态性检验,描述这样的偏态资料的集中趋势应该选用中位数, 描述其离散程度应选择四分位数间距。

提示:经验判断一组数据是否呈正态分布,一般要求均数大于2倍的标准差,当然精确判断是否成正态分布还是要借助SPSS等统计软件。SPSS中检验正态分布的方法我在上面已经详细介绍了。


【医学方】来自于“医学人”,始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员,关注【医学方】头条号,更多临床和科研相关的实用培训课程等着你哦~

【医学方】已推出【医学统计学精品公益课程】、【医学方R语言快速入门与数据清洗】、【R语言可视化及作图】、【GEO|TCGA|Oncomine数据挖掘教程】等视频教程。可登陆网易云课堂,搜索“医学方”查询

spss非正态数据相关性分析(专治SCI论文中统计疑难杂症)(20)

,