数据分布

数据分布是—种形象的数据描述方式,用各种统计图形将数据的分布形态形象地展现在图形上,指的是数据分概率分布或频数分布,即单个值在整个数据集中的分布。

基本概念1、随机变量:

随机变量是随机事件在数量上的表现,按取值分类分为离散型随机变量和连续型随机变量。例如随机在两男两女中抽取两个人,要求一男一女,有可能出现 (男1 , 女1) 、(男1, 女2) 、(男2, 女1) 、(男2, 女

2) I 我们关心的是—个男—个女, 而并不关心是哪个男的配对哪个女的。

离散型随机变量:

在一定区间内变星的取值为无数个或可数个,例如商品个数,人口总数等,主要包括:柏怒利随机变量、二项随机变量、几何随机变晕、泊松随机变星。

连续型随机变量

在一定区间内变量的取值为无数个 ,数值无 法进行一一列举,如血红 蛋白的测定值等, 主要包括: 均 匀随机变量、指数随机变量、伽马随机变量、正态随机变量。

2、古典概率:

指事件中结果种类是确定的,且结果发生概率都相同,这种事件发生的概率被称古典概率,例如抛硬币和掷骰子等。

3、条件概率:

指时间 A在时间B已经发生的条件下所发生的的概率,例如掷骰子时第一次掷到1第二次掷到2的概率就是条件 概率。

4、离散变量:

指变量值可以按照—定顺序进行列举,通常以整数位取值的变量,例如:人口数、商品数等。

5、连续变量:

指在一定区间中可以任意取值的变量,数值连续不断,可无限分隔,例如:生产零件的规格,身高体重等。

6、期望值:

指在一个离散型随机变量试验中,每次可能出现的结果的概率乘以其结果的总和,不同于常识中的期望值,统计学中的期望值,也许和每—个结果都不相同

离散变量分布1、二项分布:

指在每次试验中只有两种可能的结果,例如:市场调研员询问消费者对某种洗发用品是否满意,其结果也只有两个,即满意与不满意;拨打朋友手机的结果,即接通与没接通。如果某个事件或活动的结果多千两个,但只关心其中一个,也可以视为只有两个结果。例如,中国的传统奥运会优势项目乒乓球,中国队可能获得金牌、银牌或铜牌,但是鉴于乒乓球在中国的国球地位,在国人心中,结果只有是金牌和不是金牌。

2、伯努利分布:

在现实生活中,许多事件的结果往往只有两个。例如:抛硬币,正面朝上的结果只有两个:国徽或面值;检查 某个产品的质量,其结果只 有 两个: 合格或不合格; 购买,开奖后 ,这张 的结果只有两个: 中奖或没

中 奖;拨打女 朋友电话: 接通或没接通。。。以上这些事件都可被称为伯努利试验。

伯努利试验是单次随机试验, 只 有 '成功(值为1 ) II 或'失败(值为O) II 这两种结果 ,是由瑞士科学家 雅各布伯努利(1654 - 1705)提出来的。其概率分布称为伯努利分布(Bernoulli distribution), 也称为两点分布或者0-1分布,是最简单的离散型概率分布。我 们记成功概率为p(0:5p:51 ), 则失败概率为q=1-p。

3、泊松分布:

多组数据怎样对比正态分布,常用数据分布二项分布(1)

泊松概率分布考虑的是在连续时间或空间单位上发生随机事件次数的概率。通俗的解释为:基于过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率。泊松分布经常被用于销量较低的商品库存控制,特别是价格昂贵、需求量不大的商品。例如,某家海鲜酒楼在过去—年的时间里,每月 平均卖出7只龙虾,如果该餐厅 希望今后能有95%的把握满足顾客的龙虾需求,需要存储多少只龙虾呢?像这一类问题就能用泊松概率分布来解决。

连续变量分布1、均匀分布:

多组数据怎样对比正态分布,常用数据分布二项分布(2)

若 连续型随机变星X XX具有概率密度为

则,称 X XX在区间(a,b) (a,b)(a,b)上服从均匀分布, 记为X~ U(a,b) X\sim U(a,b)X~U(a,b).

2、正态分布:

多组数据怎样对比正态分布,常用数据分布二项分布(3)

正态概率分布是所有概率分布中最重要的形式,因为它表明被测事物处在稳定的状态下,测量数据的波动是由偶然因素引起的,所以在实践中有着广泛的应用。自然环境和人类社会的很多事物都会自发形成稳定的系统, 因此,在这些环境下,许多事物和现象的分布都服从正态分布。例如,人的身高、体重和智商;各种商品的尺寸和质量;自然环境的 温度、湿度和降雨量;高 考成绩等。正态分布的重要性还体现在样本数据推断总体时 , 当样本的数量足够大,可以利用样本的某些特征数据服从正态分布,从而能够完成推断过程,得到准确的推断结果。因此,正态分布在抽样理论中占有重要地位。

3、指数分布:

多组数据怎样对比正态分布,常用数据分布二项分布(4)

若 连续型随机变量X XX的概率密度为

其中0>0 \theta>00>0, 则称X XX服从参数为0 \theta0的指数分布。 性质(无记忆性): 对千任意s,t>O

s,t>Os,t>O, 有

多组数据怎样对比正态分布,常用数据分布二项分布(5)

4、伽马分布:

多组数据怎样对比正态分布,常用数据分布二项分布(6)

假设随机 变量X为等到第a件事发生所需之等候时间, 密度函数 为

多组数据怎样对比正态分布,常用数据分布二项分布(7)

5、偏态分布:

频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的—侧,称为负偏态分布。

6、贝塔分布:

是一个作为伯努利分布和二项式分布的共扼先验分布的密度函数,在机器学习和数理统计学中有霆要应用。在 概率论中,贝 塔分布,也称 B分布,是指—组定 义在(0,1) 区间的连续概率分布。

7、威布尔分布:

多组数据怎样对比正态分布,常用数据分布二项分布(8)

连续性的概率分布,其概率密度为:

其中, x是随机变量 ,入 >O是比 例参数 (scale parameter) , k>O是形 状参数 (shape parameter) 。显然, 它的累积分布函数是扩展的指数分布函数,而且 , Weibull distribution与很多分布都有关系。如,当 k=1, 它是指数分布; k=2且时,是 Rayleigh distribution (瑞利分布)。

8、卡方分布:

若 n个相互独立的随机变量1 , 2, …, n , 均服从标准正态分布(也称独立同分布于标准正态分布) ,则这 n个服从标准正态分布的随机变量的平方和构成—新的随机变,量其分布规 律称为卡方分布 (chi-square

distribution) 。

9、F分布:

多组数据怎样对比正态分布,常用数据分布二项分布(9)

若总体 , 与 为来自X的两个独立样本 ,设统计 量

多组数据怎样对比正态分布,常用数据分布二项分布(10)

,