统计分析方法

※ 拆指标-1分布分析、2趋势分析、3因素分析

※ 拆数据-1个案分析、2异常分析、3分组分析

※ 不同分析方法的结合与创新

针对于指标的拆分有三种办法:分布分析、趋势分析和因素分析;针对于样本的拆分也有三种办法:个案分析、异常分析和分组分析,这六种分析方法即为本章的主要内容。

大数据统计分析常用方法(大数据的道与术-读书笔记3统计分析方法)(1)

分布分析是使用频度分布表(或直方图或散点图),越过概要统计指标,进一步察看数据的详细情况。如经典的安斯康姆四重奏问题,四组数据(每个样本有两个维度特征x与y)在均值、方差、相关系数、线性回归线四个指标上均取值相同,但如果认为他们是类似的数据就大错特错了。

四组数据的情况完全不同,只有画出数据分布的散点图,做分布分析才能正确认知。

大数据统计分析常用方法(大数据的道与术-读书笔记3统计分析方法)(2)

大数据统计分析常用方法(大数据的道与术-读书笔记3统计分析方法)(3)

趋势分析分为单指标的趋势分析和多指标的趋势分析。单指标趋势分析关注单个指标变化趋势的4种构成,通过拆解来透彻掌握趋势中的多种信息。多指标的趋势分析关注多个指标变化趋势之间的相互影响,通过“系统基模”分析来掌握问题背后的全局逻辑。

趋势分析是将一条原始的时序曲线(随时间变化的指标曲线,如企业近36个月的营收变化),拆分成四个组成部分:趋势、周期、异常与波动。

(1)趋势:

曲线的大趋势是上涨、下降还是平稳,通常是最受关注的信息。

(2)周期:

曲线波动是否呈现周期性?以小时、天、周、月、季度还是年度为周期?由于人类的作息规律,很多互联网产品的流量均以一定的时间周期波动。

(3)异常:

曲线在某些时间点出现的非正常波动,如大幅的突增突降。有时候是自然的原因,有时候是人为的原因,如某个新闻事件爆发导致微博的流量猛涨,服务器机房的大规模断电导致产品流量下滑等等。

(4)波动:

从曲线中去除上述三个方面剩下的自然波动,应该满足正态分布,可以用标准差衡量波动幅度。

大数据统计分析常用方法(大数据的道与术-读书笔记3统计分析方法)(4)

2. 多指标的趋势分析

在清晰掌握单指标趋势的基础上,进一步期望知道多指标之间的趋势变化关系,以及背后隐藏的系统性问题,就需要“多指标的趋势分析”。该分析主要采用系统基模的理论。

系统基模理论是对多个指标之间的变化趋势,系统化的逻辑分析。它强调在一个整体系统中,多个指标的变化是互相作用和影响的,最终形成一套生态逻辑。在这种场景,不能独立地看待每个指标的变化,而需要从全局出发,更透彻地理解系统问题并找到更根本的解决方案,改变“头痛医头,脚痛医脚”的决策模式。

系统基模理论由“3种基本元件”和“9种常见基模”两部分构成。

(1)基本元件:系统基模由3个基本元件构成,分别是增强环、调节环和时间延迟。

▷ 增强环:多个指标之间互相促进,形成交互式的增长。如打车软件,使用该软件的“乘客人数”与“司机人数”之间即为增强环。越多的乘客使得司机变得更容易接到订单,导致越多的司机愿意使用该软件。越多的司机使得乘客变得更容易订到附近的出租车,导致越多的乘客愿意使用该软件。

大数据统计分析常用方法(大数据的道与术-读书笔记3统计分析方法)(5)

▷ 调节环:多个指标之间互相制约,最后达到某个平衡点。如企业的“体量”与“盈利率”之间即为调节环。当企业的盈利率增长时,企业有意愿和能力扩大业务,造成体量的增长。但随着企业体量的增长,会逐渐纳入一些盈利率不高的业务,导致整体的盈利率下降。当盈利率下降到一定程度时,企业没有能力再扩张业务,最后达到体量和盈利率的平衡点。

大数据统计分析常用方法(大数据的道与术-读书笔记3统计分析方法)(6)

▷ 时间延迟:很多指标之间的相互影响,具有非线性的时延特点。如“优秀的产品体验”和“用户数上涨”,两者间是非线性的时延关系。当一个产品的功能和体验优化到极致时,容易以为用户数会稳步的增长,如下面的蓝色曲线所示。但实际上,用户数的增长在前期会非常缓慢,而到某一个时间点后开始爆发式的增长。这是由于互联网产品的传播特性决定的,也是”新产品如何运营“(Growth Hacking)成为业内火热话题的原因。这个阶段产品的KPI很难确定,因为如果未到爆发点,每季度的用户数增长率可能仅在10%~20%,而一旦达到爆发点,每个季度的用户数翻几倍都是常见的。

大数据统计分析常用方法(大数据的道与术-读书笔记3统计分析方法)(7)

将上述三个基本元件,应用到众多业务场景,可形成多种多样的指标关系图(基模)。幸运的是,一些常见的基模已经被几代研究者们总结的比较清晰,可供参考。常见的基模有如下9种:饮鸩止渴、富者愈富、舍本逐末、目标侵蚀、恶性竞争、成长上限、共同悲剧、意外之敌、成长与投资不足。

拆指标-3 因素分析

拆指标的最后一个方法:因素分析。将一个综合性或结果性的指标按照某维度拆解,以便从更细致的角度观察数据。虽然该方法在“拆指标”的最后介绍,但它是最重要的一种数据分析方法。有经验的管理者都清楚,新接手一项业务,首要工作就是建立合理的“指标体系”,才能随时掌控业务进展,分析业务中的主要问题并规划改进方向。

构建指标体系,常用的拆分方法有两种:

(1)横向因素拆分(空间逻辑):

将综合性指标按照某种维度拆解成共同影响结果的几个关键指标,典型的有针对企业财务的杜邦分析法。分解指标之间是并列的逻辑关系,分别代表不同的构成因素,例如企业的毛利可以拆成销售收入减销售成本。

(2)纵向阶段拆分(时间顺序):

将结果性的指标按照业务实现流程进行拆解,又称为漏斗分析法。每个拆分指标之间是串行阶段的关系,如消费者的营销过程可拆分成:知晓、兴趣、比较、消费、评价。

这两种拆分方法的主要区别:一个的拆分维度是共同影响的并列因素,另一个的拆分维度是时序先后的递进阶段。

拆数据-1 个案分析

个案分析用“观察具体个案”的方法启发分析思路,辅以统计归纳。

实际上,个案分析过程非常类似机器学习中规则学习的方法:“sparate and conquer”,两者的学习框架是一致的,只不过从样本集合中提取规则,是靠人工观察还是机器统计而已。它不仅在数据分析领域很有用,在机器学习领域做“特征挖掘”时也经常用到。比如一个区分商品是正品还是次品的二分类模型,使用哪些特征做区分,刚开始并没有思路。运用个案分析,先挑一些典型的正品和次品,人工观察他们的主要区别,总结出一批特征维度。然后,将数据中可以用这些特征分开的商品的样本过滤掉,在剩余样本中再用个案分析进一步挖掘新特征,直到几乎所有样本都可以用总结的特征正确区分。

拆数据-2 异常分析

数据异常意味着有超越既有认知的情况出现。这些意外往往是启发新思路,推进产品改进的源泉,称为“异常分析”。

拆数据-3 分组分析

分组分析是将总样本集合按照某些维度拆分成几组,独立分析每组样本,并采取不同的产品策略。秉承“思考为什么”的学习模式,先回答“为何需要分组?”,再探讨“如何进行分组?”

为何需要分组?只有把样本按合适的维度拆分成更细致的分组,才能透彻理解数据的内涵。

下一个问题,如何进行分组?选哪些维度切分样本最合适?首先明确分组分析的目标:“分组内部的用户需求差异尽量小,分组之间的用户需求差异尽量大”,这也是选取切分特征的主要依据。

三个切分维度均基于一个目标:把不同需求的客户尽量分开,使得组内相近、组间相异。在实际项目中,可以根据业务理解来选择维度,也可以使用一些技术方法,如计算每个特征所带来的“信息增益”。

信息熵的计算公式如下:

H=-∑P(xi)log(2,P(xi)),i=1,2,…n其中,事件共有n种可能结果,P(xi)是结果xi发生的概率。

信息熵有如下特性:当每种可能的概率均等时,其值达到最大。如二元的信息墒计算结果如下图所示,当两种可能的概率p=0.5时,信息墒的结果是最大的;而当结果基本确定为某一种可能时,信息墒接近于0。

使用“信息增益”计算特征切分效率的过程如下。

步骤1:按照业务需要定义用户分类(如分成5类)。

步骤2:标记所有用户样本到所属分类(最贴近的类别即可)。

步骤3:以所有可能的特征为候选集,逐一使用每个特征切分样本,计算切分后的“信息增益”。“信息增益”代表使用该特征切分后,各分类纯度提升的程度。

步骤4:信息增益最大的特征即为当前最优的切分维度。

反复步骤3和步骤4,可以筛选出合适的特征列表。

除了用信息熵(information entropy)衡量纯度之外,少数类(minority class)和Gini系数(Gini index)也是常用的衡量方案。熟悉机器学习的朋友会发现,数据分析的很多技巧与数据建模是相通的。

最后,用一句话总结分组分析:寻找能将样本切分成组内相近、组间相异的分组维度,用这些维度拆分数据。独立分析每组数据的个性化特征,确定差异化的产品定位和商业策略。

不同分析方法的结合与创新

统计分析是通过某些维度去观察数据指标,思考原因并改进业务的过程。本章谈到的3种拆样本的方法(决定维度)和3种拆指标的方法(决定指标),是最基本的分析方法。在项目实践中,往往会结合多种分析方法,创造出最适用于业务场景的分析方法。下面以一个近两年在国外很火的数据分析方法Cohort Analysis,与大家说明下这种思考创新的过程。

Cohort Analysis是将“分组分析”和“趋势分析”相结合的方法,从一个时间跨度(生命周期)来观察不同用户分组的行为变化趋势。

Cohort Analysis分析方法

Cohort Analysis(有翻译成“断代分析”)是一种分析方法的框架,将用户依据某些特征进行分组,研究不同分组的用户在不同生命周期的表现情况。

实施这种方法,有以下三个核心步骤。

(1)如何定义分组(Create Cohort Identifiers)?维度1-决定用户分组的某种特征组合,通常用不同的趋势线标注。

(2)如何定义生命周期(Calculate Lifecycle Stages)?维度2-某种衡量用户生命周期的方法,通常转换为坐标系的横轴。

(3)如何定义观测量(Define Measurement)?观察指标,通常转换为坐标系的纵轴。

,