在做数据分析时,需要用到各式各样的图表。柱状图、散点图、甘特图…不同图表该怎么用呢?
先看这张思维导图,能够帮助大家更快了解各类型图表的数据特点。
基于功能和属性:可将图表分为四大类,具体见下图:
基于使用场景,则可以分为两大类——日常需求、专业需求。
01 日常需求先来看看日常工作生活中都会使用哪些图表,假设一个场景:几种水果的各个维度对比。
上面这个数据分析图表是用这个模板套出来的,按需自取>> 解决方案中心,全行业解决方案,解决方案园地-简道云
柱状图柱状图是最常见的图表类型,也最容易解读。
它的适用场合是二维数据集(每个数据点包括两个值,即X和Y),但只有一个维度需要比较的情况。
例如,如下图所示的柱形图就表示了一组二维数据,【类型】和【单价】就是它的两个维度,但只需要比较【单价】这一个维度。
柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好。其局限在于只适用中小规模的数据集。
折线图折线图也是常见的图表类型,它是将同一数据系列的数据点在图上用直线连接起来,以等间隔显示数据的变化趋势。
同样结合上面额柱状图,我们加上折线表示【单价】就能很清楚的观察出价格的变化趋势:
折线图可以显示随时间而变化的连续数据(根据常用比例设置),它强调的是数据的时间性和变动率,因此非常适用于显示在相等时间间隔下数据的变化趋势。
面积图面积图与折线图类似,也可以显示多组数据系列,只是将连线与分类轴之间用图案填充,主要用于表现数据的趋势。
但不同的是:折线图只能单纯地反映每个样本的变化趋势,如水果的价格变化趋势;而面积图除了可以反映每个样本的变化趋势外,还可以显示总体数据的变化趋势,即面积,如下图所示:
饼图饼图虽然也是常用的图表类型,但在实际应用中应尽量避免使用饼图,因为肉眼对面积的大小不敏感。
例如,还是上面柱状图的同一组数据,使用饼图和柱形图来显示,效果就没有那么明显了:
一般情况下会用柱状图替代饼图。但是有一个例外,就是反映某个部分占整体的比重,这种情况下,饼图会先将某个数据系列中的单独数据转为数据系列总和的百分比,然后按照百分比绘制在一个圆形上,数据点之间用不同的图案填充。
另外饼图中还包含了圆环图,来表现一个数据在整体数据中的大小比例。
XY散点图XY 散点图主要用来显示单个或多个数据系列中各数值之间的相互关系,或者将两组数据绘制为XY坐标的一个系列。
散点图有两个数值轴,沿横坐标轴(X轴)方向显示一组数值数据,沿纵坐标轴(Y轴)方向显示另一组数值数据。
一般情况下,散点图用这些数值构成多个坐标点,通过观察坐标点的分布,即可判断变量间是否存在关联关系,以及相关关系的强度。
散点图适用于三维数据集,但其中只有两维需要比较(为了识别第三维,可以为每个点加上文字标示,或者不同颜色)。
雷达图雷达图,又称为戴布拉图、蜘蛛网图。适用于多维数据(四维以上),且每个维度必须可以排序(国籍就不可以排序)。但是,它有一个局限,就是数据点最多6个,否则无法辨别,因此适用场合有限。
它用于显示独立数据系列之间及某个特定系列与其他系列的整体关系。每个分类都拥有自己的数值坐标轴,这些坐标轴同中心点向外辐射,并由折线将同一系列中的值连接起来,如下图所示。
需要注意的时候,用户不熟悉雷达图,解读有困难。使用时尽量加上说明,减轻解读负担。
02 专业需求除了日常工作使用,还有一些专业性更强的数据分析图表,比如:
热力图以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。可以直观清楚地看到页面上每一个区域的访客兴趣焦点。
但不适用于数值字段是汇总值,需要连续数值数据分布。
矩形树图展现同一层级的不同分类的占比情况,还可以同一个分类下子级的占比情况,比如商品品类等。适用于展示父子层级占比的树形数据。
但是不适合展现不同层级的数据,比如组织架构图,每个分类不适合放在一起看占比情况。
甘特图甘特图是项目/任务管理中非常常用的一种图表类型,通过活动列表和时间刻度表示出特定项目的顺序与持续时间。
甘特图参考模板>>解决方案中心,全行业解决方案,解决方案园地-简道云
词云展现文本信息,对出现频率较高的“关键词”予以视觉上的突出,比如用户画像的标签。适用于在大量文本中提取关键词。
不适用于数据太少或数据区分度不大的文本。
漏斗图用梯形面积表示某个环节业务量与上一个环节之间的差异。适用于有固定流程并且环节较多的分析,可以直观地显示转化率和流失率。
缺点是无序的类别或者没有流程关系的变量。
瀑布图采用绝对值与相对值结合的方式,展示各成分分布构成情况,比如各项生活开支的占比情况。适用于展示数据的累计变化过程。
局限:各类别数据差别太大则难以比较。
桑葚图一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,起始流量总和始终与结束流量总和保持平衡。比如能量流动等。可用来表示数据的流向。
不适用于边的起始流量和结束流量不同的场景。比如使用手机的品牌变化。
箱线图是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。可用来展示一组数据分散情况,特别用于对几个样本的比较。
不足:对于大数据量,反应的形状信息更加模糊。
最后为大家整理了一份个图表的维度和注意点:
以上。关注@简道云,更多干货等你!
,