概率统计教程(统计思维程序员数学之概率统计-累计分布函数)(1)

新生儿体重的PMF

前面我们说到了概率质量函数(PMF),对于PMF适用于变量值数量较少的情况,但是随着值得数量的增加,每个值对应的概率会变得越来越小,随机噪音就会变大。

概率统计教程(统计思维程序员数学之概率统计-累计分布函数)(2)

新生儿体重PMF

上图的分布大致接近正态分布的钟形,靠近均值的值较多,两端的值较少。但是我们很难对这个图形中的某些部分进行解释,图中有很多的"尖峰"和“低谷”,而且两个分布有明显差别。从图中我们很难分辨哪些特征是有意义的,而且也不容易看出整体模式。如那个均值分布的更高。

所以为了解决上面的问题,我们把数据进行分区,即将值的范围划分为互不重叠的区间,然后计算每个区间中值的数目。分区是很实用的方法,但选择区间大小并不容易。如果区间选择太大,在消除噪音的同时,也可能会把有用的信息消除。

所以为了避免上述的问题,我们提出了使用累积分布函数(cumulative distribution function,CDF)

为了了解CDF,首先先来理解什么叫做百分位数,比如说你如果参加标准化考试,得到的成绩可能是原始成绩和百分位秩(percentile rank),在标准化考试中,百分位秩是比你成绩低(或相同)的人的比例,如果你位于90%,那么意味着你的成绩高于或等于90%参加考试的人。

概率统计教程(统计思维程序员数学之概率统计-累计分布函数)(3)

百分位秩的python描述

从一个值计算其百分位秩很容易计算,单反过来就很难,如果给定一个百分位秩,要找其对应的值,可以先对值进行排序,然后进行查找。

概率统计教程(统计思维程序员数学之概率统计-累计分布函数)(4)

百分位数python描述

理解了百分位秩和百分位数后,接下来就可以进一步讨论累计分布函数,累积分布函数是将一个值映射到百分位秩。CDF是x的函数,其中x是可能出现在分布中的任意值,要获得某个特定值x的CDF(x),我们要计算出小于或等于x的值在此分布中所占的比例。

概率统计教程(统计思维程序员数学之概率统计-累计分布函数)(5)

CDF的python描述

这个函数和百分位秩的定义几乎一模一样,但是这个值得结果是0到1的概率,而百分位秩的结果是0到100的百分位秩,看下图:。

概率统计教程(统计思维程序员数学之概率统计-累计分布函数)(6)

我们可以计算任意值x的累积分布函数,而不仅限于样本中出现的值。如果x小于样本中的值,那么CDF(x)为0,如果x大于样本中的最大值,那么CDF(x)=1, 累积分布函数是一个阶梯函数。

接下来,我们来看一下怎么表示CDF,下面这个图纸全国家庭增长调查中妊娠期时间分布的CDF。

概率统计教程(统计思维程序员数学之概率统计-累计分布函数)(7)

妊娠周期

其实对于CDF的解读,从寻找百分位开始,例如,从图中我们可以看出,大约10%的妊娠期不超过35周,大约90%不超过41周。CDF还展示了分布的情况,分布中经常出现的值在CDF中显示为陡峭或竖直的折线,我们可以明显看出位于39周的众数。小于30周的很少,所以30周左侧较为平缓。

我们再看一组例子,关于CDF曲线的比较:

概率统计教程(统计思维程序员数学之概率统计-累计分布函数)(8)

第一胎和其他情况下新生儿体重的CDF

上图清晰的展示了分布的形状和分布之间的差异,从图中可以看出,第一胎新生儿普遍体重较轻,而且大于均值是差异更为明显。

下面介绍一些百分位数相关的统计量,

以上是今天的全部内容,请多多支持!!!

,