一个数据分析报告里面,也少不了统计表。别以为只有统计图能被画得很丑,统计表丑起来,那也叫一个惨绝人寰!报告里面的统计表,往往长这样。

表xxx 我很丑,但我也不温柔

怎么做好看的统计图(统计图难看也就算了)(1)

这还是做了点美化之后的效果,我们以这个表为例,说说做统计表时候常见的几个问题。

1

表格的样式

先说这个表,横线竖线都齐全,没毛病,就是难看。难看在哪里,表格线条太多!水妈评语:报告交完了不浪费,下来能接着用这个表格下五子棋呢。

水妈最推崇的表格形式,是“三线表”。三线表,顾名思义只有三条线。下表是一篇学术论文中的三线表(来源:Bayesian measures of model complexity and fit, J. R. Statist. Soc. B, 2002)。上下两条线,是表格的上下边缘;中间的一条线,区分了列标题和表的内容。如果你愿意花点心思,可以让上下线更粗一点,这样比较美观。

同学们,咱都长点心,以后不用把横线竖线画得那么齐全,学会制作三线表,或者在其基础上灵活调整。

怎么做好看的统计图(统计图难看也就算了)(2)

2

表格的基本要素

  1. 表的标题在上方(图的标题在下方)。报告中的表,要表明序号,例如:表1、表2等等。
  2. 表要有横、列标题,命名清晰明确。
  3. 如有需要,注明资料或者数据来源以及数据单位。

3

表格的其他细节

  1. 先说文字的统一。由于现在大家分析的数据集,列名常常是英文命名或者是汉语拼音之类,导致论文中的表格,经常中英文混杂。水妈在这里的建议是,尽量都统一成中文,这样方便阅读也不用来回解释英文的含义。咱没见过哪个英文论文里面,还混杂着一堆中文不是。
  2. 再说内容的对齐。某一列,定了规矩(左对齐、右对齐或者居中),就保持一致。不要一会儿居左,一会儿居中。如果中文的说明文字很长,居中的效果就会一般,显得不整齐,可以尝试居左或者视情况调整。
  3. 最后说说数字。统计表里面,少不了数字。最常见的问题是小数位数的保留,要么就是保留过多的小数位数(有的保留个5、6位),要么就是小数位数不统一(一会儿保留2位,一会儿保留4位)。非常影响阅读者的心情。水妈建议,保留1到2位小数位数即可。

数据分析报告里面,常见这么几种统计表:数据说明表、频数分布表、模型结果表等等。今天我们讲一下数据说明表的作用以及注意事项。后面会陆续讲讲其他的。

一份数据分析报告,数据介绍与说明是必要且重要的环节。读者能够通过这个环节了解数据的来源、包含的变量以及数据的基本情况等。在介绍数据变量时,非常忌讳简单的罗列,例如下面这个错误示范。

本数据包含了以下变量:

  • 年龄:嗯,没啥可说的;
  • 性别:也就是男和女;
  • 收入:都不怎么高;
  • 出生地:包括20个水平,贵阳、建阳、庆阳、小沈阳……

……

  • 是否患有某种疾病:终于写完了!

这种罗列介绍变量的办法,混乱无逻辑、冗杂无重大、丑陋无前途!且看一个正确示范。

这是狗熊会精品案例中的一个数据变量说明表(手动比心关关老师),基本样式是三线表,颜色上还做了些细心处理。

示例:数据变量说明表

怎么做好看的统计图(统计图难看也就算了)(3)

由于现在的数据集都比较大,变量很多,所以在做数据分析报告的时候,有必要做这么一个数据变量说明表让读者能够比较容易地了解数据情况。数据变量说明表建议包含以下内容。

  1. 变量名。尽量以中文命名,比较易懂。展示的时候,要提前进行归纳分组,这样比较有逻辑。比如上表,把自变量分成【驾驶人因素】和【汽车因素】。
  2. 详细说明。包括变量的类型(定量变量、定性变量等)、单位、取值范围等。这部分的组织视情况而定,水妈的建议是不需太详尽,给一个总括即可。
  3. 备注说明。数据变量说明表,也可以发挥描述分析的作用,为后面的统计分析分担一部分工作。比如【驾驶人性别】这个变量,有两个取值。如果后续描述分析环节,采用饼图来展示性别分布,没有必要。那么就可以在数据说明表的备注里面说明男性(或者女性)的占比。
,