箱线图中的异常值分析(箱形图在实际数据分析中的应用)(1)

箱形图是我们日常使用的频率很高的图形,这篇文章分享在实际数据分析时,箱形图都可以怎么应用。

一、什么是箱形图?

箱形图(也称盒图,箱线图等),因为形状长得像一个箱子而得名。它是用于显示一组数据分散情况资料的统计图,可以通过这种图直观的探索数据特征。

箱线图中的异常值分析(箱形图在实际数据分析中的应用)(2)

箱线图


二、箱形图怎么看?

箱形图的每一条横线都有意义,共由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)。

特别说明:箱形图里面的极大值(上边缘值)并非最大值,极小值(下边缘值)也不是最小值。

如果数据有存在离群点即异常值,他们超出最大或者最小观察值,此时将离群点以“圆点”形式进行展示。

三、箱形图实际数据分析中的应用

(1)识别数据中异常值(离群点)

不论什么研究数据,在分析之前应该对数据进行预处理,其中找到并处理数据异常值,即数据中出现偏离所属样本的大部分观测值的数值,就可以使用箱形图,它可以非常直观地展示出异常数据。

1、案例数据

比如我们有一份数据,记录一个班级总共48位学生的成绩,数据中存在异常值,当我们把这份数据上传到SPSSAU系统中进行相关分析前,首先要考虑找出异常值、剔除异常值,否则这些异常值会影响之后数据分析的结果,甚至得到完全相反的结论。


箱线图中的异常值分析(箱形图在实际数据分析中的应用)(3)

部分数据


2、绘制箱形图

我们借助箱形图来识别数据中是否存在异常值,绘制方法如下:

①上传数据后,在SPSSAU中的【可视化】板块选择【箱线图】

箱线图中的异常值分析(箱形图在实际数据分析中的应用)(4)

②因为想要看【成绩】这个定量变量是否存在异常值,所以将【成绩】变量放入对应分析框中,点击【开始分析】即可得到箱形图。

箱线图中的异常值分析(箱形图在实际数据分析中的应用)(5)


③输出箱形图

箱线图中的异常值分析(箱形图在实际数据分析中的应用)(6)


箱形图中的异常值会以“圆点”的形式进行展示,从图中可以很直观的看到,成绩中存在2个异常值,下一步就可以考虑去处理这些异常值了 。

(2)比较不同类别的数据分布情况

箱形图还很适合非参数检验时查看不同类别X时,Y的数据分布情况,由于它使用的是中位数和四分位数等描述性统计量,比平均数和标准差更为稳健。

还是上面的例子,我们同样可以使用箱线图来比较不同性别时,成绩的分布情况。可以将【性别】定类变量放入定类分析框中,将【成绩】变量放入定量分析框中,点击【开始分析】:

箱线图中的异常值分析(箱形图在实际数据分析中的应用)(7)

输出箱线图:

箱线图中的异常值分析(箱形图在实际数据分析中的应用)(8)


图形解读:

要将性别分开比较,可以发现女生的中位数比男生高(分别是88,80),另外女生的箱线图中,中间横线也就是中位数没有在箱子的中间,而是在偏上方的位置,说明有异常值拉低了平均值。另外主要看中间的箱子,可以看出,女生的成绩比男生更集中。



,