对于能够掌握全部数据的总体,只需要简单计算即可得到总体特征。例如,技术团队全体工程师的平均工资,某公司全体研发人员所占比例,公司全体职员的学历分布等。

如果总体范围很广,比如饮料公司的所有客户口味是难以一 一测定的,这时就需要从总体中抽样,用样本提供的信息来估计总体特征。可以用样本的均值估计总体均值,用样本的比例估计总体的比例,用样本方差估计总体方差等。在统计学中,描述总体的特征(总体均值、总体方差等)称为参数,描述样本的特征(样本均值、样本方差等)称为统计量,用样本统计量去估计总体参数的过程称为参数估计,如图 8-5 所示。

样本值估算(样本参数估计)(1)

图 8-5 总体参数和样本统计量的关系

如果想知道一个人对知识的掌握程度,常见的办法就是考试。考试需要把这个人学过的所有知识点都进行考察吗?肯定不是。所有学校的做法是相同的:出一套试题,这套试题可以涵盖重要知识点,以此来考察学生。学生学过的所有知识点是总体,学生对所有知识点的掌握程度是总体参数,对学生进行考察选取的知识点是样本,学生的考试成绩是样本统计量,最后通过成绩去估计学生的掌握程度,也就是用样本统计量估计总体参数。

中国学生临近高考时每天都会做模拟试题,但是每次得分都不尽相同,这是因为试题不同,也就是每次抽样不同。假设某学生的数理化生的多次模拟考试的平均成绩都在 95 分左右(百分制),而且最低分高于 90,说明理科成绩优异,无论怎么抽样都能稳定获得高分。但是,该学生的语文的模拟分数起伏较大,少数几次能到 80 分以上,大部分是 70 多分,也有 60 多分的时候,平均分是 70 多分,说明该学生对语文科目知识的掌握有待提升。

注意:中国高考一直以来被大众戏称“一考定终身”,这是因为只用一次抽样去推断一个人的整体学习成果。当然,为了让高考试题这个样本能足够与总体近似,出题组用尽所有的智慧,尽可能做到考题足够公平。可是对每个考生来讲,依然充满了太多的偶然性。

在美国,申请大学要考察学生在中学时期的所有成绩,加上入学考试(美国高考)成绩之后得到总成绩,等于进行了 n 次抽样后得到的成绩,这样不会因为学生一次考试失误而影响了一生。但是也有其弊端,如果学生在中学的初期成绩不好,在最后一两年奋起直追,无论后来的成绩多高,也会受到早期成绩不好的影响,因为所学的全部知识这个总体在变,总体中的参数也在变。从统计学角度看,这些早期的成绩是针对某阶段一个子集的抽样,可能引入较大的抽样误差。因此,美国学生的各年成绩中,通常最后一年成绩的权重最高。

假设饮料公司计划生产一款低糖饮料,但是不知道喜欢低糖的人占所有饮料消费者群体的比例,饮料公司派出调研人员,对目标人群进行抽样调查。调查人员随机抽查了 10 000个人,其中有 1100 人喜欢低糖。所有的目标客户中喜欢低糖饮料的人所占的比例被称为总体参数 p,将样本中喜欢低糖饮料的人所占比例称为样本统计量 ˆp。

样本值估算(样本参数估计)(2)

从以上例子可以看出,因为样本统计量是 11%,所以低糖口味的人群比例“大概”是11%。只能用“大概”这个词,因为样本不一定和总体相同,真实的情况是样本和总体总是存在着偏差。

,