正态分布简介

正态分布(Normal Distribution)是统计学中一个非常重要的连续性分布,又称为高斯分布。我们在高中或者大学概率论中都学过,正态分布基本上能描述所有常见的事物和现象,如正常人的身高、体重等。同时,不少医学现象是服从正态分布或近似正态分布的,如同性别健康成人的红细胞数、血红蛋白量、脉搏数等;医学实验中的随机误差,一般表现为正态分布;当然,也有的医学资料虽不呈正态分布,但可经过变量变换,转换为正态分布,由此在转换后可按正态分布规律来处理。

正态曲线呈钟型两头低中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线

对分类变量进行正态分布检验(连续变量假设检验)(1)

正态分布是一种概率分布,通常记作N(μ,σ)μ是遵从正态分布的随机变量的均值σ是该随机变量的方差。从整体分布图上可看出,正态分布以均数 μ 为中心左右对称,当x < μ ,f(x)随着x的增大而增大;当 x> μ 时,f(x)随着x的增大而减小;

正态分布有两个参数,即均数 μ 和标准差σ,其中μ是位置参数,当 恒定后, μ增大,则曲线沿横轴向右移动;反之,则向左移动。 σ是形状参数,当μ恒定时, σ越大,表示数据越分散,曲线就变“矮胖”, σ越小,表示数据集中,曲线越“瘦高”

正态分布的特征,归纳起来有两点:一是对称性,二是峰度。分布不对称的就是偏态,有正偏态和负偏态,峰度也有两种,一是尖峭峰,另一个是阔峰。

SPSS正态检验方法

在SPSS中有两种检验方法:

一是图示法,主要采用概率图 P-P图Q-Q图,其中 P-P图中有以正态分布标准参考线,若散点在参考线周围,则符合正态分布。可通过SPSS中的“分析-描述统计—P-P图/Q-Q图”和“分析—描述统计—探索性分析”中实现

二是计算法,可用 K-S 检验S-W检验。可使用“分析—描述统计—探索性分析”和“分析—非参数检验—旧对话框—单样本K-S检验”。

图示法检验:P-P图

P-P图名为“Probability-Probability Plot”,指横坐标为某种理论分布的累计概率,而纵坐标为当前数据分类累计概率的数据图。

示例:打开数据,某市从城市工业园地区抽取15名7岁以下儿童测量其体内血铅含量,那么计算该工业园地区儿童的血铅含量是否符合正态分布。

1. 打开 分析—描述统计—P-P图

对分类变量进行正态分布检验(连续变量假设检验)(2)

2. 参数说明:

3. 结果输出与说明

对分类变量进行正态分布检验(连续变量假设检验)(3)

对分类变量进行正态分布检验(连续变量假设检验)(4)

4. 语法:

PPLOT /VARIABLES=xqhl /NOLOG /NOSTANDARDIZE /TYPE=P-P /FRACTION=BLOM /TIES=MEAN /DIST=NORMAL.

图示法检验:Q-Q图

Q-Q图原理与P-P图非常类似,也用于比较变量的实际分布与其所假定的理论分布是否一致。但P-P图比较的是两者的累计概率分布,而Q-Q图则是根据变量的实际百分位数与理论的百分位数进行绘制的,相比之下,Q-Q的适用条件较宽松,结果也更稳健。

Q-Q图的对话框界面、操作方式和P-P图基本类似。

对分类变量进行正态分布检验(连续变量假设检验)(5)

  1. 结果输出与说明

对分类变量进行正态分布检验(连续变量假设检验)(6)

对分类变量进行正态分布检验(连续变量假设检验)(7)

  1. 语法:

PPLOT /VARIABLES=xqhl /NOLOG /NOSTANDARDIZE /TYPE=Q-Q /FRACTION=BLOM /TIES=MEAN /DIST=NORMAL.

计算法:K-S检验:
  1. 方法一:通过 探索对话实现

对分类变量进行正态分布检验(连续变量假设检验)(8)

对分类变量进行正态分布检验(连续变量假设检验)(9)

对于K-S检验和S-W检验,当显著性(p)大于0.05时,提示数据符合正态分布。但:

---当样本量小时,很可能数据分布畸形,检验结果却不显著

---当样本量大时,数据分布贴近正态,但结果显示p<0.05

由此可看,两个检验结果容易受到样本量的影响。有学者建议:

---当样本量小于50时,使用S-W检验

---当样本大于50时,使用K-S检验

--- 在SPSS中,当样本量大于5000时,SPSS只输出K-S检验

对分类变量进行正态分布检验(连续变量假设检验)(10)

从上表看,样本量只有15个样本,所以我们看S-W检验结果,p=0.263>0.05,说明原数据分布呈正态分布,同我们通过P-P图和Q-Q图得出的结论一致。

如果我们需要检验不同组别样本正态性,可在“探索”对话框中将分组变量选入“因子列表”,可分别检验 不同组别样本上的 正态性。

示例:判断不同医院在麻醉费用上的分布是否呈正态性?

对分类变量进行正态分布检验(连续变量假设检验)(11)

EXAMINE VARIABLES=xqhl /PLOT BOXPLOT STEMLEAF /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

  1. 方法二:通过 非参数检验方法实现

对分类变量进行正态分布检验(连续变量假设检验)(12)

  • 参数说明:
  • --- 检验分布:有四种分布可以进行检验,默认为正态

    --- 选项:提供统计(描述、四分位数等)等常用统计量以及对缺失值的处理方式。

    对分类变量进行正态分布检验(连续变量假设检验)(13)

    由下表可知,K -S 检验=0.169,P =0.200 > 0.05,血铅含量符合正态分布。

    对分类变量进行正态分布检验(连续变量假设检验)(14)

  • 语法
  • NPAR TESTS /K-S(NORMAL)=xqhl /MISSING ANALYSIS.

    下次我们介绍 连续变量分布--单样本t检验

    ,