直方图有很多种形态,如图 7-16 所示。

excel高级应用与分析(Excel应用大全集中趋势)(1)

图7-16不同形态的直方图

无论何种形态,都可以用如下两个特征来进行描述:中心点和围绕该中心点的变动幅度。这两个特点也是每个计量数据都有的特征。从直方图转换到数据组,这两个特征分别对应的就是集中趋势和离散趋势。集中趋势也称为平均数,最常见的三种形式是:均值(又称:算数平均数)、中位数和众数。平均数(average)和均值(mean)是不同的概念,均值是平均数的表现形式之一。离散趋势的形式包括极差、方差和标准差等。

均值

从平均成绩、平均身高、平均产量、平均价格到生活中的方方面面,人们都经常用均值来衡量某一组数据的中心点特征。均值是最常见的数据指标,也称为算数平均数,它的重要性不言而喻。人人都会计算均值,但使用中需要注意以下几点。

1. 均值的统计学意义假设有一组数据包含 3 个数值 1、2、3,这组数据的均值是 2,每个数值与均值相减得到的值是均值偏差,如图 7-17 所示

excel高级应用与分析(Excel应用大全集中趋势)(2)

图7-17计算均值偏差

将所有的均值偏差相加得到:-1 0 1=0,这就是均值在统计学中的意义,均值是数据组中令所有均值偏差总和为 0 的那个数值。2. 和均值相关的两个重要符号™ ∑ :英文发音“Sigma”,中文发音“ 西格玛 ”, 1 2 , , ,,i xx x   代 表1 2 i xx x  ,就是将 ∑ 后面的所有数值相加。™ X :读音“ X 拔”,表示数据组的均值。

3. 均值的局限性

均值能非常直观地描述一组数据,但是它对极值非常敏感,如果数据组中出现差异很大的极值,均值的准确性会下降。例如,有 9 个人围坐在一起交流每个人的年收入,经过计算得出,这 9 个人的年均收入为 12 万美金,此时比尔·盖茨突然走了过来,加上比尔·盖茨后的年均收入达到了上千万美金,但是这个均值无法代表 90% 的大多数人,只是由于异常值存在,导致均值出现了极大的偏差。

如果不希望受异常值的干扰,那么中位数是一个很好的选择。

中位数

中位数是另一种对中心点的描述方法。

某服装公司有 5 个销售渠道,每个渠道 2018 年的净利润如图 7-18 所示。

excel高级应用与分析(Excel应用大全集中趋势)(3)

图7-18 5 个销售渠道在 2018 年的净利润

图 7-18 中 5 个销售渠道在 2018 年的净利润数据,按照净利润从小到大的排列,位于中间位置的是第 3 个渠道京东商城,年利润 7 万元,7 就是该组数据的中位数。中位数就是一组数据从小到大排列以后,在中心位置的数。这组数据有 5 个渠道,数据项数是 5,由于 5 是个奇数,很容易找到中间位置(第 3 个数据),如果数据项数是个偶数,则需要换一种方法。

该服装公司在 2019 年又增加了拼多多的渠道,净利润如图 7-19 所示。

excel高级应用与分析(Excel应用大全集中趋势)(4)

图7-19 6 个销售渠道在 2019 年的净利润

数据组的项数增加到 6 项,中心点位于唯品会和京东商城之间,也就是在 4 万元和 8 万元之间,这种情况下,中位数是 6 万元(4 和 8 的均值)。

对于偶数项数据组,中位数是紧挨中心点左右的两个数值的均值。从计算方法中可以很容易看出中位数的优点,它不受极值的影响。在图 7-18 中,线下专卖店 100 万元与其他渠道差异很大,可以认为是一个极值,净利润的均值是 24 万元,中位数是 7 万元。

一个能代表数据组的中心点的数应该具备此特征:约有一半的数值比它小,约有一半的数值比它大。均值 24 万元是该组数据中第二大的数值 8 万的 3 倍,很显然它不能代表数据的中心点。但是中位数可以满足该特征,无论是去年的 7 万元,还是今年的 6 万元,都是处在数据组的中心位置。

正是这个原因,特定场景的数据集中趋势都是使用中位数,而不是均值,一瓶水在全国各地的售价,如果用均值,会受到少数特殊场景的售价影响,如景区的天价水等,而使用中位数则可以较准确地体现真实售价。

众数

众数是数据组中出现次数最多的数值。计算方法是找出所有数值的频数,频数最高即为众数。

有 10 个学生,每个人可以报一个特长班,如图 7-20所示。

excel高级应用与分析(Excel应用大全集中趋势)(5)

图7-20报名人数分布

A1:B11 区域是报名详情表,D1:E4 区域是报班统计结果。从报班统计结果看,声乐是报名人数最多的课程,所以所有特长班的众数是声乐。

注意:众数不一定是个数值,也有可能是某种事物、属性、类别等,由于大家的惯性思维,通常会认为众数是 5,其实众数应该是声乐。另外,众数有可能有多个,例如舞蹈 2 人,朗诵和声乐分别是 4 人,那么众数就是朗诵和声乐;众数也有可能不存在,如果三个特长班的报名人数完全相等时。现实生活中,绝大多数用到众数的场景都是事物的属性和类别,遇到数值类的数据组,通常用均值和中位数。

在没有极端值影响的前提下,均值是最能表达数据集中趋势的形式,因为均值是运用了全部的数据组信息,是最精确的表达。但是由于均值对极端值很敏感,这时可以用中位数来表达。如果该数据组不是数值型的,是事物属性的组合,则需要用众数来表达集中趋势。

推荐阅读北京大学出版社Excel数据处理与分析应用大全

excel高级应用与分析(Excel应用大全集中趋势)(6)

,