统计学从概念到数据分析（数据分析必备的统计学知识）

01写在前面

数据分析师的必备技能栈里，除了熟悉业务、掌握业务分析思维和工具外，还有一个特别重要的知识点，就是统计学，无论在简历的技能描述中还是实际的面试过程中，统计学都是必备的基础知识。

为什么对于数据分析师来说统计学那么重要？其实答案显而易见，数据分析的价值就是通过数据去洞察业务背后的信息，避免之前的“一拍脑袋决定，二拍胸脯保证，三拍屁股走人”的主观误判，一切用数据说话！数据怎么能说话呢，算出一个数据，怎么知道这个数据是好还是坏？有多好有多坏？两组数据呈现在你面前，怎么判断这两组数据是否有明显差异？要回答这些问题，就必须要用到统计学知识，而不是相信自己的眼睛，因为眼睛有时候也会说谎，你看到的“好”不一定是好，你看到的“没有差异”不代表没有差异。

但是很多刚入门的数据分析师在学习统计学知识时都很头疼（也包括我哈哈哈），因为统计学的书籍里都是写晦涩难懂的公式，真不是一般人能看懂的。其实，对于大部分数据分析师来说，我们并不需要掌握的那么全面和深入，我们只需要掌握部分知识点，理论看不懂，但是知道在什么场景下用就行，用起来你才会慢慢地搞懂！

所以为了让大家更容易学习掌握统计学的基础知识，这里整理了数据分析工作中最常见的一些统计学基础知识，尽量用简单白话的形式去解释，这样无论是在面试中还是以后的工作中，都能把统计学的知识用起来！

统计学从概念到数据分析（数据分析必备的统计学知识）(1)

统计学从概念到数据分析（数据分析必备的统计学知识）(2)

02数据分析中的统计学

Q1、如何理解假设检验中的P值和显著性水平α?

讲显著性水平α我们就得提到前面文章中提到的第一类错误和第二类错误，可以翻看系列文章：【数分面试宝典】数据分析必备的统计学知识（一）

我们还是举之前谈恋爱的栗子，面前有一个男生，我们有2个假设:

H0:一个真心爱你的男生H1:一个不是真心爱你的男生

如果H0实际上成立，而你凭经验拒绝了H0，也就是说，你拒绝了一个你认为不爱你而实际上真心爱你的男生，那么你就犯了第一类“弃真”错误，也称为α风险，错杀了好人；

如果H0实际上不成立，而你接受了H0，同样的道理，你接受了一个你感觉爱你而实际上并不爱你的男生，那么你就犯了第二类“纳伪”错误，也称为β风险，放走了坏人。

第一类错误和第二类错误这两个错误概率互相制约，你大我就会变小，你小我就会变大，基于保护零假设的原则，我们一般把一类错误概率固定住，让第一类错误概率不超过某个阀值（也就是α值），也就是我们常说的“显著性水平α”，即代表好人被冤枉的概率。通常情况下，我们不希望好人被冤枉，所以显著性水平α通常比较小。

显著性水平α是你冤枉好人的可能性，然而，每个人在这一点上是有分歧的，有的人希望α大一点儿，有的人希望α小一点儿（α越大，意味着检验越严格，我们冤枉好人的概率就越大）。

在这种情况下，我们就期望回答一个问题：对于面前的这个男生，我们不会冤枉他的最严格的检验水平，即最大的α是多少呢？得到了这个问题的答案，我们就可以轻松完成在任意严格程度上的检验了，即如果α大于这个值，那么我们就认为该男生不喜欢你，反之亦可。

而这个最大的α，就是我们的P值。只是这2个概念是有明显的区别的。显著性水平α是在每次统计检验之前人为规定的，通常取α＝0.05或α＝0.01。这表明，当做出拒绝原假设的决定时，其犯错误的可能性为α＝0.05或α＝0.01，而P值是根据实验结果计算得出的。如果计算出来的概率（P值）小于这个标准（显著性水平α），就说明拒绝原假设错误的可能性很小，那就可以放心地拒绝原假设，认为这个男生确实是不爱你的；反之，大于这个标准则说明拒绝原假设错误的可能性较大，那还是接受原假设，也就是没有充足的证据，认为这个男生还是爱你的。

Q2、如何理解置信度与置信区间？

置信区间是我们所计算出的变量存在的范围，置信水平就是我们对于这个数值存在于我们计算出的这个范围的可信程度。

举例来讲，如果我们有95%的把握，让真正的数值在我们所计算的范围里，那么在这里，95%是置信水平，而计算出的范围，就是置信区间。

如果置信度为95%，则抽取100个样本来估计总体的均值，由100个样本所构造的100个区间中，约有95个区间包含总体均值。

Q3、如何理解极大似然估计？

利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。“似然”是“像这个样子”的意思。

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

假如有一个黑箱子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道箱子中白球和黑球的比例，但我们不能把箱子中的球全部拿出来数。现在我们可以每次任意从已经摇匀的箱子中拿一个球出来，记录球的颜色，然后把拿出来的球再放回箱中。这个过程可以重复，我们可以用记录的球的颜色来估计箱中黑白球的比例。假如在前面的一百次重复记录中，有70次是白球，请问箱子中白球所占的比例最有可能是多少？

很多人马上就有答案了：70%。而其后的理论支撑是什么呢？

我们假设罐中白球的比例是p，那么黑球的比例就是1-p。因为每抽一个球出来，在记录颜色之后，我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，70次是白球的,30次为黑球事件的概率是P(样本结果|Model)。

如果第一次抽象的结果记为x1,第二次抽样的结果记为x2....那么样本结果为(x1,x2.....,x100)。这样，我们可以得到如下表达式：

P(样本结果|Model)

　　= P(x1,x2,…,x100|Model)

　　= P(x1|Model)P(x2|Model)…P(x100|Model)

　　= p^70(1-p)^30.

好的，我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数，也就是求的式中的p。

那么我们怎么来求这个p呢？

不同的p，直接导致P（样本结果|Model）的不同。

好的，我们的p实际上是有无数多种分布的。如下：