多数研究时,会对研究数据的分布情况进行查看,比如类别数据性别,可通过频数分析画饼图查看,定量连续数据时,可通过直方图查看正态性情况,或者使用PP/QQ图查看正态性,与此同时,还可使用核密度图直观查看数据分布情况,也可以使用小提琴图或者箱线图等查看数据的分布情况。下述列出几类常用的数据分布特征图形:
核密度图-背景
当前有一份关于高中生体验身高数据(50个样本),并且包括性别(男和女)和地区(北方和南方)两个特征,现希望查看下身高的分布情况,直观展示身高特征情况。当然默认可使用直方图展示数据分布情况,如下图:
明显地可以看到,高中生身高数据更多集中于1.65~1.75之间,与此同时,还可进一步使用核密度图查看。
核密度图-理论核密度图是一种非参数检验方法,其是对直方图的进一步抽象化,但其更加直观,其曲线下面积为1,通常用于连续数据的直观展示,比如年龄的分布情况,身高的分布情况等。核密度图中会涉及带宽值,该值会对分布图的准确性有一定影响,SPSSAU自动计算带宽值时是按照‘大拇指法则’进行,其为非参数检验的内部原理参数值,通常自动让系统计算即可。
SPSSAU中核密度图的使用非常简单,直接将分析项拖拽进入分析框即可。如下说明:
-
如果包括X(比如性别),分析项为身高,那么是想研究不同性别的身高分布情况;
-
如果不包括X,只有分析项且分析项大于1个,SPSSAU默认会展示每个分析项的核密度图,并且汇总展示所有分析项在一个核密度图中。
本案例操作截图如下:
h带宽图建议不输入,系统默认会以‘大拇指法’进行自动计算。由于暂不区分性别或者地区的身高分布,因而X项不用放入。
核密度图-SPSSAU输出结果SPSSAU共输出图形和自动计算后的h带宽值表格,分别说明如下:
从核密度图可以明显的看到,身高主要集中于1.65~1.75之间,小于1.65或者大于1.75的样本相对均较少。相对于直方图,核密度图得到的结论也一致,二者的功能意义完全一致,但相对更加抽象和直观化。另图形中有展示带宽值h,可按研究者需要修改标题内容,同时下表格展示带宽值。
文字分析:
上述案例中直接针对身高数据进行核密度图展示,如果还希望进一步观察比如不同性别,或者不同地区样本的身高分布情况,便于进行对比。操作和结果如下:
将性别放入X框中,最终得到不同性别群体身高的核密度图对比图如下:
上图可以看到:男生群体主要集中在1.7米左右,非常集中,但是女生群体身高分布较为均匀,各个身高分布段都比较均匀,并没有特别的固定集中身高区间。
涉及以下几个关键点,分别如下:
-
SPSSAU核密度图带宽值计算使用‘Silverman大拇指法则’,并且默认使用高斯正态核密度公式进行计算核密度值。
-
核密度图用于数据分布展示时使用,通常是针对连续数据更加适合,与此同时,很多研究方法时也会使用到核密度图,比如倾向得分匹配PSM法,RDD断点回归时。