由于人力、物力、财力等主客观因素的限制,在高中知识范围内,现实生活往往采用简单/分层随机抽样的方式,从拥有大量甚至无限个个体数量的总体中抽取最具代表性的样本,通过样本来估计总体,所以研究有限容量的样本尤为重要,对于样本数据的集中趋势有三个常见、常用的数字特征:平均数(均值)、中位数(中值)和众数。

对于这三个数字特征的联系与区别,新教材已有说明,不过没有进行详细的归纳,在此进行简单的总结,水平有限,不正确的地方还请批评指正。

一、数据排列位置影响:

学生们都知道,对数据进行统计第一步要排序,一般按升序排列,拍完序发现中位数和平均数、众数都不受排列顺序的影响。假定不排序,不影响平均数的计算,会影响众数的确定,最受影响的就是中位数:因为排列位置的差异导致中位数马上会改变这是中位数的缺点,而平均数、众数并不受此影响,因此位置特征是中位数的主要特点,它又叫第50百分位数。

二、数字特征值个数:

平均数只有一个,中位数也只有一个,而众数可以有多个或没有,这是众数的缺点!日常生活中诸如“最佳”、“最受欢迎”、“最满意”等,都与众数有关系,它反映了一种最普遍的倾向。

例1数据:

1 1 1 2 2 3 3 3

这一组数据有8个数字,其中平均数为2,中位数是(2 2)/2=2,众数是1和3,因为1和3出现的频次并列最多,都是3次。

例2数据:

1 2 3 4 5 6 7 8

这8个数据没有重复的,每个数据出现的次数都只有1次,那就不存在众数,俗话说“没有突出的那个数字”,“都是将军拔不出矮子”。

三、数据代表的可靠性和稳定性:

平均数比中位数、众数相比最具代表性。

从平均数的计算公式来看,它与样本中每一个数据都有关系,从而反映出来的信息最为充分。平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。因此,它在生活中应用最广泛,比如我们经常所说的平均成绩、平均身高、平均体重等等。

不同的一组数据中,三个数值可以相等,也可以不相等。由于各个统计量有各自的特征,所以需要我们根据实际问题来选择合适的统计量。

四、数据极端值的影响:

如果数据中存在极端的偏大数和偏小数,马上就会影响到平均数的水平,这也是平均数的缺点。而中位数和众数这两个统计量的特点都是能够避免极端数据,但缺点是没有完全利用数据所反映出来的信息。

举个例子,如果一组数据中个别数据有很大的变化,且某个数据出现的次数较多,此时用众数表示这组数据的集中趋势比较合适。

五、数据分布形态:

下图不言自明,频数较多、频率较高极端值会导致均值左偏和右偏,数据分布图形因此呈现出三种不一样的图象。

均值中位数众数该如何选择(平均数均值)(1)

只有在数据分布偏态(不对称)的情况下,才会出现均值、中位数和众数的区别。如果是正态的话,用哪个统计量都行。另外,如果偏态的情况特别严重的话,可以用中位数。

其实,我们处理的数据,大部分是对称的数据,数据符合或者近似符合正态分布。此时均值(平均数)、中位数和众数的误差只要在可以接受范围之内即可。

六、数据作用与地位:

从高一和高二所学知识点和所考题型来看,平均数or平均值(均值)显然比众数、中位数的出现频率要高得多,为什么呢?因为在数学上,平均数是使误差平方和达到最小的统计量,也就是说利用平均数代表数据,可以使二次损失最小。【这个在下次有关方差的教学文章中给与简单的解释,专业的解答还需要向大学教授请教,我实在不会哈】

七、适合的求和法数据类型:

众数只是频数,求法是计数,适合属性或分类变量;值得注意的是:当一组数据的那个众数出现的次数不具明显优势时,用它来反映一组数据的典型水平是不大可靠的。

中位数和平均数(均值)的单位和原始数据是一致的,中位数求法是排序,平均数求法需要计算,比较适合数值变量。以平均数为例,如果权数fi都一样,直接求和再除以样本容量即可;如果权数或权重不一样,则使用加权平均公式来计算。

大致翻了一下大学用的书,里面知识丰富远超过高中教材,正所谓“学然后知不足”,感兴趣的朋友们可以再深入了解了解。

,