0.0 神说,要有正态分布,于是就有了正态分布。*

0.1 神看正态分布是好的,就让随机误差都随了正态分布。

0.2 正态分布的奇妙之处,就是许多看似随机事件竟然服从一个表达式就能表达的分布,如同上帝之手特意为之。[1]

——《创世纪·数理统计·正态分布的前世今生》


一、神觉得抛硬币是好的,于是定义每个抛出硬币正面记 1分,反面记-1分。

创世纪从0分开始,神只抛1次硬币,有2种可能:一半的概率 1分,一半的概率-1分。

此时概率分布大概是这样的:

正态分布要记住的几个常用数值(怎样用通俗易懂的文字解释正态分布及其意义)(1)

一半的概率 1分,一半的概率-1分

画图大概是这样子:

正态分布要记住的几个常用数值(怎样用通俗易懂的文字解释正态分布及其意义)(2)

一半的概率 1分,一半的概率-1分

神决定扔10个硬币:

正态分布要记住的几个常用数值(怎样用通俗易懂的文字解释正态分布及其意义)(3)

一样的做出概率分布

当然,同样画个图感受一下:

正态分布要记住的几个常用数值(怎样用通俗易懂的文字解释正态分布及其意义)(4)

10个硬币的概率分布情况

如果是100个,甚至是无穷多个呢?平均分数分布情况大概是什么样呢?画个图感受一下:

正态分布要记住的几个常用数值(怎样用通俗易懂的文字解释正态分布及其意义)(5)

二、为什么正态分布这么常见呢?

因为通常情况下,一个事物的影响因素都是多个,比如每个人的身高,受到多个因素的影响,比如:

每一个因素,每天的行为,就像刚才抛硬币一样,这些因素要不对身高产生正面影响,要不对身高产生负面影响,最终让整体身高接近正态分布。


学过基础统计学的同学大都对正态分布非常熟悉,但是很难用通俗的语言解释什么是正态分布,主要原因是正态分布需要有一个前置知识【中心极限定理】。

如果误差可以看成许多微小量的叠加,则根据中心极限定理[1],随机误差理所当然是正态分布[2]。


正经的数学:正态分布又名高斯分布(Gaussian distribution)。

假设一随机变量X服从一个期望为 μ,方差为 σ2 的正态分布,概率密度函数为

正态分布要记住的几个常用数值(怎样用通俗易懂的文字解释正态分布及其意义)(6)

正态分布公式

则可记为:X∼N(μ,σ2),画图如下图:

正态分布要记住的几个常用数值(怎样用通俗易懂的文字解释正态分布及其意义)(7)

*神的名字是约翰·卡尔·弗里德里希·高斯,C.F.Gauss,1777年4月30日-1855年2月23日

[1]正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

[2]正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。PS:如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution)

,