箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。
本文将为您介绍如何利用Data Analytics快速制作箱线图!
一、你需要先知道的基本统计知识
中位数:从小到大排列数据集,然后计算中间位置。
总数是奇数,则为位于中间的数值;总数是偶数,则中位数就是中间两个数的平均值
四分位数:
一般,数据集中的最小值我们称之为下界,最大值称之为上界。
计算四分位数之前,第一步需要先求中位数M,
下四分位数Q1=数据集中所有数值由小到大排列后第25%的数字
上四分位数Q3=数据集中所有数值由小到大排列后第75%的数字
四分位数间距IQR=Q3-Q1
下界(Min):Q1-1.5IQR
上界(Max):Q3 1.5IQR
箱线图其实就是四分位数图形化展示。
二、箱线图的作用
1、识别出可能的异常值
箱线图最重要的作用就是可以识别出可能的异常值。在数据清洗环节,可以借助箱线图对异常值进行检查和处理。
2、多批同类数据的比较
箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。箱体越扁说明数据越集中,端线越短也说明数据集中。
所以箱线图也常见用于质量管理、人事测评、探索性数据分析等统计分析活动。
三、如何制作箱线图
场景:某客户经理想查看各省顾客的大概订单数量,以探索各省的大客户都有哪些。
工具:DataHunter的数据分析产品Data Analytics
步骤方法:
第一步:导入数据
第二步:选择新建图表为“箱线图”
将“省份”拖入维度,“订单数量”拖入度量,“顾客姓名”拖入颜色,就能一步生成箱线图。
说明:此处维度用于整体聚合,颜色用于分组聚合。
第三步:观察分析,得出结论
将鼠标悬浮至异常点上,可查看相关数据:河南省内,高瑞光这位顾客的订单量要远高于其他顾客,属于标准的“大客户”
从中位数上,还可以看到不同省份之间的订单量差异,可以看出,在已展示的十个省份中,山西省的整体订单量略高,西藏较低。
另外鼠标悬浮在每个箱子上都能看到该省内所有顾客的订单量的四分位数信息。
四、小结
1、箱线图是四分位数的图形展示;
2、箱线图的主要作用是识别异常值以及对同类数据进行比较。
,