大数据统计分析常用方法（大数据的道与术-读书笔记3统计分析方法）

统计分析方法

※ 拆指标-1分布分析、2趋势分析、3因素分析

※ 拆数据-1个案分析、2异常分析、3分组分析

※ 不同分析方法的结合与创新

针对于指标的拆分有三种办法：分布分析、趋势分析和因素分析；针对于样本的拆分也有三种办法：个案分析、异常分析和分组分析，这六种分析方法即为本章的主要内容。

大数据统计分析常用方法（大数据的道与术-读书笔记3统计分析方法）(1)

分布分析是使用频度分布表（或直方图或散点图），越过概要统计指标，进一步察看数据的详细情况。如经典的安斯康姆四重奏问题，四组数据（每个样本有两个维度特征x与y）在均值、方差、相关系数、线性回归线四个指标上均取值相同，但如果认为他们是类似的数据就大错特错了。

四组数据的情况完全不同，只有画出数据分布的散点图，做分布分析才能正确认知。

大数据统计分析常用方法（大数据的道与术-读书笔记3统计分析方法）(2)

大数据统计分析常用方法（大数据的道与术-读书笔记3统计分析方法）(3)

趋势分析分为单指标的趋势分析和多指标的趋势分析。单指标趋势分析关注单个指标变化趋势的4种构成，通过拆解来透彻掌握趋势中的多种信息。多指标的趋势分析关注多个指标变化趋势之间的相互影响，通过“系统基模”分析来掌握问题背后的全局逻辑。

趋势分析是将一条原始的时序曲线（随时间变化的指标曲线，如企业近36个月的营收变化），拆分成四个组成部分：趋势、周期、异常与波动。

（1）趋势：

曲线的大趋势是上涨、下降还是平稳，通常是最受关注的信息。

（2）周期：

曲线波动是否呈现周期性？以小时、天、周、月、季度还是年度为周期？由于人类的作息规律，很多互联网产品的流量均以一定的时间周期波动。

（3）异常：

曲线在某些时间点出现的非正常波动，如大幅的突增突降。有时候是自然的原因，有时候是人为的原因，如某个新闻事件爆发导致微博的流量猛涨，服务器机房的大规模断电导致产品流量下滑等等。

（4）波动：

从曲线中去除上述三个方面剩下的自然波动，应该满足正态分布，可以用标准差衡量波动幅度。

大数据统计分析常用方法（大数据的道与术-读书笔记3统计分析方法）(4)

2. 多指标的趋势分析

在清晰掌握单指标趋势的基础上，进一步期望知道多指标之间的趋势变化关系，以及背后隐藏的系统性问题，就需要“多指标的趋势分析”。该分析主要采用系统基模的理论。

系统基模理论是对多个指标之间的变化趋势，系统化的逻辑分析。它强调在一个整体系统中，多个指标的变化是互相作用和影响的，最终形成一套生态逻辑。在这种场景，不能独立地看待每个指标的变化，而需要从全局出发，更透彻地理解系统问题并找到更根本的解决方案，改变“头痛医头，脚痛医脚”的决策模式。

系统基模理论由“3种基本元件”和“9种常见基模”两部分构成。

（1）基本元件：系统基模由3个基本元件构成，分别是增强环、调节环和时间延迟。

▷ 增强环：多个指标之间互相促进，形成交互式的增长。如打车软件，使用该软件的“乘客人数”与“司机人数”之间即为增强环。越多的乘客使得司机变得更容易接到订单，导致越多的司机愿意使用该软件。越多的司机使得乘客变得更容易订到附近的出租车，导致越多的乘客愿意使用该软件。

大数据统计分析常用方法（大数据的道与术-读书笔记3统计分析方法）(5)

▷ 调节环：多个指标之间互相制约，最后达到某个平衡点。如企业的“体量”与“盈利率”之间即为调节环。当企业的盈利率增长时，企业有意愿和能力扩大业务，造成体量的增长。但随着企业体量的增长，会逐渐纳入一些盈利率不高的业务，导致整体的盈利率下降。当盈利率下降到一定程度时，企业没有能力再扩张业务，最后达到体量和盈利率的平衡点。

大数据统计分析常用方法（大数据的道与术-读书笔记3统计分析方法）(6)

▷ 时间延迟：很多指标之间的相互影响，具有非线性的时延特点。如“优秀的产品体验”和“用户数上涨”，两者间是非线性的时延关系。当一个产品的功能和体验优化到极致时，容易以为用户数会稳步的增长，如下面的蓝色曲线所示。但实际上，用户数的增长在前期会非常缓慢，而到某一个时间点后开始爆发式的增长。这是由于互联网产品的传播特性决定的，也是”新产品如何运营“（Growth Hacking）成为业内火热话题的原因。这个阶段产品的KPI很难确定，因为如果未到爆发点，每季度的用户数增长率可能仅在10%～20%，而一旦达到爆发点，每个季度的用户数翻几倍都是常见的。

大数据统计分析常用方法（大数据的道与术-读书笔记3统计分析方法）(7)

将上述三个基本元件，应用到众多业务场景，可形成多种多样的指标关系图（基模）。幸运的是，一些常见的基模已经被几代研究者们总结的比较清晰，可供参考。常见的基模有如下9种：饮鸩止渴、富者愈富、舍本逐末、目标侵蚀、恶性竞争、成长上限、共同悲剧、意外之敌、成长与投资不足。

拆指标-3　因素分析

拆指标的最后一个方法：因素分析。将一个综合性或结果性的指标按照某维度拆解，以便从更细致的角度观察数据。虽然该方法在“拆指标”的最后介绍，但它是最重要的一种数据分析方法。有经验的管理者都清楚，新接手一项业务，首要工作就是建立合理的“指标体系”，才能随时掌控业务进展，分析业务中的主要问题并规划改进方向。

构建指标体系，常用的拆分方法有两种：

（1）横向因素拆分（空间逻辑）：

将综合性指标按照某种维度拆解成共同影响结果的几个关键指标，典型的有针对企业财务的杜邦分析法。分解指标之间是并列的逻辑关系，分别代表不同的构成因素，例如企业的毛利可以拆成销售收入减销售成本。

（2）纵向阶段拆分（时间顺序）：

将结果性的指标按照业务实现流程进行拆解，又称为漏斗分析法。每个拆分指标之间是串行阶段的关系，如消费者的营销过程可拆分成：知晓、兴趣、比较、消费、评价。

这两种拆分方法的主要区别：一个的拆分维度是共同影响的并列因素，另一个的拆分维度是时序先后的递进阶段。

拆数据-1　个案分析

个案分析用“观察具体个案”的方法启发分析思路，辅以统计归纳。

实际上，个案分析过程非常类似机器学习中规则学习的方法：“sparate and conquer”，两者的学习框架是一致的，只不过从样本集合中提取规则，是靠人工观察还是机器统计而已。它不仅在数据分析领域很有用，在机器学习领域做“特征挖掘”时也经常用到。比如一个区分商品是正品还是次品的二分类模型，使用哪些特征做区分，刚开始并没有思路。运用个案分析，先挑一些典型的正品和次品，人工观察他们的主要区别，总结出一批特征维度。然后，将数据中可以用这些特征分开的商品的样本过滤掉，在剩余样本中再用个案分析进一步挖掘新特征，直到几乎所有样本都可以用总结的特征正确区分。

拆数据-2　异常分析

数据异常意味着有超越既有认知的情况出现。这些意外往往是启发新思路，推进产品改进的源泉，称为“异常分析”。

拆数据-3　分组分析

分组分析是将总样本集合按照某些维度拆分成几组，独立分析每组样本，并采取不同的产品策略。秉承“思考为什么”的学习模式，先回答“为何需要分组？”，再探讨“如何进行分组？”

为何需要分组？只有把样本按合适的维度拆分成更细致的分组，才能透彻理解数据的内涵。

下一个问题，如何进行分组？选哪些维度切分样本最合适？首先明确分组分析的目标：“分组内部的用户需求差异尽量小，分组之间的用户需求差异尽量大”，这也是选取切分特征的主要依据。

三个切分维度均基于一个目标：把不同需求的客户尽量分开，使得组内相近、组间相异。在实际项目中，可以根据业务理解来选择维度，也可以使用一些技术方法，如计算每个特征所带来的“信息增益”。

信息熵的计算公式如下：

H=-∑P（xi）log（2,P（xi）），i=1,2,…n其中，事件共有n种可能结果，P（xi）是结果xi发生的概率。

信息熵有如下特性：当每种可能的概率均等时，其值达到最大。如二元的信息墒计算结果如下图所示，当两种可能的概率p=0.5时，信息墒的结果是最大的；而当结果基本确定为某一种可能时，信息墒接近于0。

使用“信息增益”计算特征切分效率的过程如下。

步骤1：按照业务需要定义用户分类（如分成5类）。

步骤2：标记所有用户样本到所属分类（最贴近的类别即可）。

步骤3：以所有可能的特征为候选集，逐一使用每个特征切分样本，计算切分后的“信息增益”。“信息增益”代表使用该特征切分后，各分类纯度提升的程度。

步骤4：信息增益最大的特征即为当前最优的切分维度。

反复步骤3和步骤4，可以筛选出合适的特征列表。

除了用信息熵（information entropy）衡量纯度之外，少数类（minority class）和Gini系数（Gini index）也是常用的衡量方案。熟悉机器学习的朋友会发现，数据分析的很多技巧与数据建模是相通的。

最后，用一句话总结分组分析：寻找能将样本切分成组内相近、组间相异的分组维度，用这些维度拆分数据。独立分析每组数据的个性化特征，确定差异化的产品定位和商业策略。

不同分析方法的结合与创新

统计分析是通过某些维度去观察数据指标，思考原因并改进业务的过程。本章谈到的3种拆样本的方法（决定维度）和3种拆指标的方法（决定指标），是最基本的分析方法。在项目实践中，往往会结合多种分析方法，创造出最适用于业务场景的分析方法。下面以一个近两年在国外很火的数据分析方法Cohort Analysis，与大家说明下这种思考创新的过程。

Cohort Analysis是将“分组分析”和“趋势分析”相结合的方法，从一个时间跨度（生命周期）来观察不同用户分组的行为变化趋势。

Cohort Analysis分析方法

Cohort Analysis（有翻译成“断代分析”）是一种分析方法的框架，将用户依据某些特征进行分组，研究不同分组的用户在不同生命周期的表现情况。

实施这种方法，有以下三个核心步骤。

（1）如何定义分组（Create Cohort Identifiers）？维度1-决定用户分组的某种特征组合，通常用不同的趋势线标注。

（2）如何定义生命周期（Calculate Lifecycle Stages）？维度2-某种衡量用户生命周期的方法，通常转换为坐标系的横轴。

（3）如何定义观测量（Define Measurement）？观察指标，通常转换为坐标系的纵轴。