频繁应用在产品运营的各类场景中的数据分析方法主要分为两类:描述分析和推断分析

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(1)

本文主要介绍描述分析中描述性统计分析的相关知识点,包含理论知识、案例说明和基本操作。

01

描述分析与推断分析

02

描述性统计

作为一名数据同学,每天到公司的第一件事情就是制作和看各种各样的报表以了解产品运营的情况。特别是当我们打开一份有十几列,几万行的明细数据时,那种感觉真的是铺天盖地,头晕目眩。

面对令人崩溃的场景,我们需要快速找到数据的特征。描述性统计正是为此而生,我们通过常用的分析工具就可以快速建立业务的整体认知,并帮助我们寻找业务分析的突破口

常用的三个分析工具分别是:

03

用中位数和平均数

来分析数据分布

01 数学定义和业务含义

中位数和平均数的数学含义很简单,这里重点说明一下平均数的特点:极易受极大值或极小值的影响,从而变得不客观,所以在计算平均数时,一般都要看这组数据的最大值和最小值是否偏离太大,如果偏离太大需要提出再计算平均值。

譬如,要评估11月中30天的日均销售额,显然双11极高的销售额会把整月的日均销售额拉高,无法真实反应11月的日均销售额。所以需要剔除双11的数据后再计算11月的日均销售额。

平均数一般包含算数平均数和几何平均数,算数平均数是将N个数据相加后除以N;几何平均数是将N个数相乘后再开N次方。

特别需要强调的是,算数平均数和几何平均数的适合场景完全不同。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(2)

02 使用指南

中位数和平均数通常结合起来使用,通过比较中位数和平均数的大小,判断数据的分布是偏大还是偏小。

平均数>中位数

平均数<中位数

03 应用示例

在电商行业中经常需要分析不同品类的销售情况。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(3)

由上表可以看出,产品A和产品B的累计销售量完全一样,日均销售量也是一样,仅仅看这两个指标无法得出任何业务上的结论;但是我们尝试查看产品的平均数和中位数。

04

用方差和标准差

来分析指标波动情况

01 数学定义和业务含义

方差,是指数据的离散程度,是一组数据与这组数据平均值之差的平方值的平均数;而标准差,是方差的开放差。这些都是简单的基本概念,我们了解下方差和标准差的业务含义。

02 使用指南

方差和标准差的使用非常简单,只需要留意两点就可以:

因为方差会将数据微小的波动放得很大,所以在某些情况下方差数据可以到8位甚至9位数,这对视觉体验非常不友好。所以更多数情况下我们考察标准差,因为数字显示的不是太大,同时具备业务含义。

03 应用实例

渠道是重要的获客方式,渠道的获客稳定性非常重要,波动过大的渠道一般其客群质量也不会太高,对于产品而言会造成获客资源的浪费,以及加大后续运营资源的压力。如果要评估渠道的获客稳定性,那么我们就要用方差/标准差来评估。

例如,要分析如下三个渠道的新增用户稳定性,考察其每日新增用户数的方差,看看能否得出有趣的结论。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(4)

从上表可以看出,仅分析这三个渠道的累计新增用户数、日均新增用户数无法得出任何业务结论,同时分析各个渠道自己的平均值和中位数也难以评估渠道的获客稳定性。

所以,我们用方差来计算,分别计算这三个渠道的每日获客量的方差和标准差:

渠道 A 的每日新增用户数的方差是 305.6,标准差是 17.48;

渠道 B 的每日新增用户数的方差是 834.6,标准差是 28.89;

渠道 C 的每日新增用户数的方差是 630.6,标准差是 25.11。

于是,我们发现:因为渠道 B 的每日新增用户数方差和标准差最大,可以认为在这 3 个渠道中,渠道 B 的获客能力波动最大,稳定性最差,后续的风险也在 3 个渠道中最高(相对),接下来的运营需要更多的关注渠道 B 的运营情况;而渠道 A 和渠道 C 的获客能力相对波动较小,获客较稳定,保持中优先级的关注即可。

05

用分位数和异常值

来寻找异常数据

1.数学定义和业务含义

分位数,是指将一组有序数据分为几个具有相同长度的区间,常用的有中位数、四分位数等。

统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置就是分位数,通常用 Q1、Q2、Q3 来表示一分位(前25%)、二分位(前 50%)、三分位(前 75%),其中二分位数就是中位数。

异常值,即在数据集中存在过高或过低的值。特别注意的是,当我们说“这个月 DAU 的最大值是 190 万”,其中的“最大值”是指剔除异常值后剩下数据中的最大值(最小值也同理)。

注意:异常值并不一定是最大值或最小值,它一般也不参与正常业务讨论的范畴。

所以刚才这句话应该说“这个月 DAU 的最大值是 190 万,同时我们发现 1月9日 DAU 异常高,超过 270 万”。

【异常值筛选算法】

在统计学中,通常用分位数来确定正常值区间,并筛选出异常值,筛选算法如下:

若数据大于 Q3 1.5(|Q3-Q1|) ,则数据为异常值;

若数据小于 Q1-1.5(|Q3-Q1|) ,则数据为异常值;

若数据在 Q1-1.5(|Q3-Q1|)~Q3 1.5(|Q3-Q1|) 之间,则为正常值。

其中 |Q3-Q1| 也叫分位距或分位差,用 IQR 来表示。

感兴趣同学了解即可,这里不再深入讲原理。

【异常值的业务含义】

计算任何平均值前,都必须要提出异常值后才能进行;

异常值,通常需要单独排查和分析,在很多互联网公司都会设置一个职位专门跟进分析异常值,它们叫 Bad Case;

异常值不能说好,也不能说不好,要根据实际业务情况来看。双 11 这天的销售数据,对比其他日期的销售,显然是一个异常值。但对于这个异常值,当然希望越大越好,也就是越异常越好。

02 使用指南

在异常值的算法中,IQR 前面的系数是重要的运营手段。在实际工程应用中,IQR 前面的系数 1.5 被认为是一个经验值,可根据业务实际情况在 1.0~2.0 之间调节,越大意味着异常值标准越宽松,越小意味着异常值标准越严格。

为了找出正常值范围以及异常值,除了用基于 IQR 的算法外,还可以通过箱线图更直观地找出异常值。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(5)

上图即是标准的箱线图,其中游离在外的点即表示异常值,同时还能从箱线图解读出更多信息:

可以直接看到中位数和平均值所在的位置,便于快速评估中位数和平均值的大小;

可以通过箱子的高度,定性地判断方差大小,箱子高度越高,方差越大,反之越小;

可以看到正常值的范围,上下限之间即是正常值范围。

箱子越高,方差越大的原因在于:箱子的高度是 Q3-Q1,也叫 IQR 分位距。IQR 越大,意味着这组数据的范围被拉得很宽,也就意味着分布得越散,也就意味着方差/标准差越大。

03 应用示例

渠道是重要的获客资源,其获客能力的趋势非常重要。若要分析如下三个渠道的新增用户情况,考察其每日新增用户数有无异常情况,看看能否得出有趣的结论。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(6)

我们为这三个渠道做了如下箱线图,可以看出:

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(7)


操作:在 Excel 中实现描述性统计

Excel 作为最重要的数据分析平台,已内置了描述性统计的所有分析工具,能够简单快速地完成上述分析,并且结果极易解读。

  1. 用 Excel 的“数据分析”工具包实现描述性统计

第一步:点击“数据”选项卡,点击“数据分析”。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(8)

第二步:点击“描述统计”。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(9)

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(10)

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(11)

注意:若数据列第一行为标题,请勾选“标志位于第一行”。

第五步:点击“确定”,即可完成。

如下图所示,这里将平均数、标准差、方差、最大值、最小值等描述性统 所需要的数据均清晰展出。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(12)

2.用 Excel 的“箱线图”分析异常值

在前文讲述分位数和异常值的算法时,可以通过计算公式和箱线图两种方法来寻找异常值。事实上,Excel 也提供了箱线图工具来帮助我们快速查找异常值。

第一步:选择要分析的数据。

第二步:点击“插入”选项卡,点击图表区域的“箱形图”,完成

注意:如果图表区域无此图标,请升级 Excel 至 Office 2019 及以上版本。

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(13)

---------------------------------------------------------END-----------------------------------------------------------------

感谢阅读,感兴趣的同学可以通过以下简单的思维脑图回顾知识点:

运营用到的数据分析(数据化运营数据分析方法之描述性分析)(14)

,