“
频繁应用在产品运营的各类场景中的数据分析方法主要分为两类:描述分析和推断分析
”
本文主要介绍描述分析中描述性统计分析的相关知识点,包含理论知识、案例说明和基本操作。
01
—
描述分析与推断分析
- 描述分析主要用于分析数据的整体情况,重点着眼于分析数据本身的分布和特征,主要包括描述性统计、多维分析和相关性分析等分析方法。例如在分析产品的DAU时,通常用描述分析对DAU的分布、趋势和组成进行初步分析,以了解掌握DAU的总体特征情况。一般而言,拿到一份数据或者报表时,通常首先进行描述性分析,看看整体情况如何后再进行其他更加深入的分析。
- 推断分析主要通过分析少量数据的特征,来推断整体数据特征的方法,主要包括方差分析,样本检验和趋势预测。例如,判断影响营销活动效果的有效因素、分析对指定客群投放营销活动后的真实效果、A/B测试中选取的客群能否代表整体用户特征等等,这些都是推断分析去解决的场景。一般而言,推断分析是在描述分析之后,深入探索数据特征,寻找数据归因的重要分析方法。
02
—
描述性统计
作为一名数据同学,每天到公司的第一件事情就是制作和看各种各样的报表以了解产品运营的情况。特别是当我们打开一份有十几列,几万行的明细数据时,那种感觉真的是铺天盖地,头晕目眩。
面对令人崩溃的场景,我们需要快速找到数据的特征。描述性统计正是为此而生,我们通过常用的分析工具就可以快速建立业务的整体认知,并帮助我们寻找业务分析的突破口。
常用的三个分析工具分别是:
- 中位数/平均数
- 方差/标准差
- 异常值并且还提供了一个分析图表---箱线图来辅助分析。
03
—
用中位数和平均数
来分析数据分布
01 数学定义和业务含义中位数和平均数的数学含义很简单,这里重点说明一下平均数的特点:极易受极大值或极小值的影响,从而变得不客观,所以在计算平均数时,一般都要看这组数据的最大值和最小值是否偏离太大,如果偏离太大需要提出再计算平均值。
譬如,要评估11月中30天的日均销售额,显然双11极高的销售额会把整月的日均销售额拉高,无法真实反应11月的日均销售额。所以需要剔除双11的数据后再计算11月的日均销售额。
平均数一般包含算数平均数和几何平均数,算数平均数是将N个数据相加后除以N;几何平均数是将N个数相乘后再开N次方。
特别需要强调的是,算数平均数和几何平均数的适合场景完全不同。
- 算数平均数适用于指标是绝对值的数据,例如计算近30天日均DAU、日均新增访客、月均收入等都是可以使用算数平均数。
- 几何平均数适合指标是百分比的数据,例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率、月均增长率等,只能用几何平均数来计算。
02 使用指南
中位数和平均数通常结合起来使用,通过比较中位数和平均数的大小,判断数据的分布是偏大还是偏小。
平均数>中位数
- 数据中偏大的居多,抬高了整体的均值,导致平均数大于中位数;
- 也或者是,数据中出现了极个别的极大值,抬高了整体的均值,导致平均数大于中位数。
平均数<中位数
- 整体数据偏小的居多,降低了整体的平均值,导致平均数小于中位数;
- 或者数据中出现了极个别的极小值,拉低了整体的均值,导致平均数小于与中位数。
在电商行业中经常需要分析不同品类的销售情况。
由上表可以看出,产品A和产品B的累计销售量完全一样,日均销售量也是一样,仅仅看这两个指标无法得出任何业务上的结论;但是我们尝试查看产品的平均数和中位数。
- 产品A的日均销售额为281.11,每日销售额中位数为234,即平均数大于中位数。意味着产品A的每日销售额偏高的居多,可能是产品A某一天的销售量很高,可能是产品A的客单价较高,拉高了平均数。
- 产品B的日均销售量为281.11,每日销售量的中位数是315,即平均数小于中位数。意味着产品B的每日销售额偏低的居多,可能是产品B某一天的销售量较低,可能是产品B的客单价较低,拉低了平均数。
04
—
用方差和标准差
来分析指标波动情况
01 数学定义和业务含义
方差,是指数据的离散程度,是一组数据与这组数据平均值之差的平方值的平均数;而标准差,是方差的开放差。这些都是简单的基本概念,我们了解下方差和标准差的业务含义。
- 方差和标准差代表了业务指标的波动情况,即业务稳定性的高低,也即业务经营风险大小;
- 当方差和标准差变小,意味着指标变动大,业务稳定性降低,业务经营风险提高;
- 当方差和标准差变小,意味着指标波动变小,业务稳定性升高,业务经营风险降低;
- 方差和标准差可以将微小的变化显著放大,即更加直观和更加直接的观察业务经营风险。
02 使用指南
方差和标准差的使用非常简单,只需要留意两点就可以:
- 方差没有量纲,即没有任何单位,不具备任何业务含义,就是一个纯数字。不能说11月的销售额方差是多少万元,只能说方差是多少数字。所以单看一个方差没有任何业务价值,从变化中找到可能的数据问题。例如,连续两周的每周的DAU方差都在变大,意味着DAU的波动不断变大,背后的原因或者是投放的运营活动数量和节奏出现问题,或者是产品稳定性出现问题,或者外部竞品抢用户等等。
- 标准差有量纲,即有单位,有业务含义,我们可以说11月的销售额标准差是5.5万元。但看标准差同样没有任何意义,仍然需要通过各种对比来看标准差的变化来从中发现问题。
因为方差会将数据微小的波动放得很大,所以在某些情况下方差数据可以到8位甚至9位数,这对视觉体验非常不友好。所以更多数情况下我们考察标准差,因为数字显示的不是太大,同时具备业务含义。
03 应用实例
渠道是重要的获客方式,渠道的获客稳定性非常重要,波动过大的渠道一般其客群质量也不会太高,对于产品而言会造成获客资源的浪费,以及加大后续运营资源的压力。如果要评估渠道的获客稳定性,那么我们就要用方差/标准差来评估。
例如,要分析如下三个渠道的新增用户稳定性,考察其每日新增用户数的方差,看看能否得出有趣的结论。
从上表可以看出,仅分析这三个渠道的累计新增用户数、日均新增用户数无法得出任何业务结论,同时分析各个渠道自己的平均值和中位数也难以评估渠道的获客稳定性。
所以,我们用方差来计算,分别计算这三个渠道的每日获客量的方差和标准差:
渠道 A 的每日新增用户数的方差是 305.6,标准差是 17.48;
渠道 B 的每日新增用户数的方差是 834.6,标准差是 28.89;
渠道 C 的每日新增用户数的方差是 630.6,标准差是 25.11。
于是,我们发现:因为渠道 B 的每日新增用户数方差和标准差最大,可以认为在这 3 个渠道中,渠道 B 的获客能力波动最大,稳定性最差,后续的风险也在 3 个渠道中最高(相对),接下来的运营需要更多的关注渠道 B 的运营情况;而渠道 A 和渠道 C 的获客能力相对波动较小,获客较稳定,保持中优先级的关注即可。
05
—
用分位数和异常值
来寻找异常数据
1.数学定义和业务含义
分位数,是指将一组有序数据分为几个具有相同长度的区间,常用的有中位数、四分位数等。
统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置就是分位数,通常用 Q1、Q2、Q3 来表示一分位(前25%)、二分位(前 50%)、三分位(前 75%),其中二分位数就是中位数。
异常值,即在数据集中存在过高或过低的值。特别注意的是,当我们说“这个月 DAU 的最大值是 190 万”,其中的“最大值”是指剔除异常值后剩下数据中的最大值(最小值也同理)。
注意:异常值并不一定是最大值或最小值,它一般也不参与正常业务讨论的范畴。
所以刚才这句话应该说“这个月 DAU 的最大值是 190 万,同时我们发现 1月9日 DAU 异常高,超过 270 万”。
【异常值筛选算法】
在统计学中,通常用分位数来确定正常值区间,并筛选出异常值,筛选算法如下:
若数据大于 Q3 1.5(|Q3-Q1|) ,则数据为异常值;
若数据小于 Q1-1.5(|Q3-Q1|) ,则数据为异常值;
若数据在 Q1-1.5(|Q3-Q1|)~Q3 1.5(|Q3-Q1|) 之间,则为正常值。
其中 |Q3-Q1| 也叫分位距或分位差,用 IQR 来表示。
感兴趣同学了解即可,这里不再深入讲原理。
【异常值的业务含义】
计算任何平均值前,都必须要提出异常值后才能进行;
异常值,通常需要单独排查和分析,在很多互联网公司都会设置一个职位专门跟进分析异常值,它们叫 Bad Case;
异常值不能说好,也不能说不好,要根据实际业务情况来看。双 11 这天的销售数据,对比其他日期的销售,显然是一个异常值。但对于这个异常值,当然希望越大越好,也就是越异常越好。
02 使用指南
在异常值的算法中,IQR 前面的系数是重要的运营手段。在实际工程应用中,IQR 前面的系数 1.5 被认为是一个经验值,可根据业务实际情况在 1.0~2.0 之间调节,越大意味着异常值标准越宽松,越小意味着异常值标准越严格。
为了找出正常值范围以及异常值,除了用基于 IQR 的算法外,还可以通过箱线图更直观地找出异常值。
上图即是标准的箱线图,其中游离在外的点即表示异常值,同时还能从箱线图解读出更多信息:
可以直接看到中位数和平均值所在的位置,便于快速评估中位数和平均值的大小;
可以通过箱子的高度,定性地判断方差大小,箱子高度越高,方差越大,反之越小;
可以看到正常值的范围,上下限之间即是正常值范围。
箱子越高,方差越大的原因在于:箱子的高度是 Q3-Q1,也叫 IQR 分位距。IQR 越大,意味着这组数据的范围被拉得很宽,也就意味着分布得越散,也就意味着方差/标准差越大。
03 应用示例渠道是重要的获客资源,其获客能力的趋势非常重要。若要分析如下三个渠道的新增用户情况,考察其每日新增用户数有无异常情况,看看能否得出有趣的结论。
我们为这三个渠道做了如下箱线图,可以看出:
- 渠道 A 的获客能力排位第二,因为它的箱线图位置在渠道 B 和渠道 C 之间,同时稳定性对比其他两个渠道也较好,整体运营正常,并无异常值出现;
- 渠道 B 的获客能力排位第一,因为它的箱线图位置最上,同时稳定性也最差,因为箱线图中的箱体高度最高,整体运营正常,并无异常值出现;
- 渠道 C 的获客能力排位第三,因为它的箱线图位置最下,同时整体运营有一定问题,因为出现了一个异常值,需要单独排查原因,是否是拉新活动、渠道联合活动等因素导致的。
操作:在 Excel 中实现描述性统计
Excel 作为最重要的数据分析平台,已内置了描述性统计的所有分析工具,能够简单快速地完成上述分析,并且结果极易解读。
- 用 Excel 的“数据分析”工具包实现描述性统计
第一步:点击“数据”选项卡,点击“数据分析”。
第二步:点击“描述统计”。
注意:若数据列第一行为标题,请勾选“标志位于第一行”。
第五步:点击“确定”,即可完成。
如下图所示,这里将平均数、标准差、方差、最大值、最小值等描述性统 所需要的数据均清晰展出。
2.用 Excel 的“箱线图”分析异常值
在前文讲述分位数和异常值的算法时,可以通过计算公式和箱线图两种方法来寻找异常值。事实上,Excel 也提供了箱线图工具来帮助我们快速查找异常值。
第一步:选择要分析的数据。
第二步:点击“插入”选项卡,点击图表区域的“箱形图”,完成
注意:如果图表区域无此图标,请升级 Excel 至 Office 2019 及以上版本。
---------------------------------------------------------END-----------------------------------------------------------------
感谢阅读,感兴趣的同学可以通过以下简单的思维脑图回顾知识点:
,