统计学是关于数据的科学,但如何理解这一命题仍需仔细的讨论这是因为,首先,实验数据和调查数据存在本质的区别实验数据产生时,人们根据研究目的已经控制了实验条件而调查数据属于回顾性数据,在其发生的时候,人们并未控制什么条件其次,在利用数据研究某一现象的变动时,除应关注该现象的影响因素之外,人们尚需将该现象的其他影响因素控制不变由于调查数据在其发生时,人们并未对任何条件加以控制,于是该现象的应被控制而未被控制的那些影响因素就成了遗漏在模型外的“遗漏变量”(或称“混杂变量”)因此,在应用社会经济数据时(它们都是调查数据),必须设法将模型中的变量“孤立化”,使之与“遗漏变量”相隔离否则,由模型得到的分析结论就会失真,接下来我们就来聊聊关于统计学四种变量的区别?以下内容大家不妨参考一二希望能帮到您!

统计学四种变量的区别(总体及样本)

统计学四种变量的区别

统计学是关于数据的科学,但如何理解这一命题仍需仔细的讨论。这是因为,首先,实验数据和调查数据存在本质的区别。实验数据产生时,人们根据研究目的已经控制了实验条件。而调查数据属于回顾性数据,在其发生的时候,人们并未控制什么条件。其次,在利用数据研究某一现象的变动时,除应关注该现象的影响因素之外,人们尚需将该现象的其他影响因素控制不变。由于调查数据在其发生时,人们并未对任何条件加以控制,于是该现象的应被控制而未被控制的那些影响因素就成了遗漏在模型外的“遗漏变量”(或称“混杂变量”)。因此,在应用社会经济数据时(它们都是调查数据),必须设法将模型中的变量“孤立化”,使之与“遗漏变量”相隔离。否则,由模型得到的分析结论就会失真。

更进一步,我们应该把统计学中的两个关键性的概念“总体(母体)”及“样本(子样)”,用简单明确的语言向学生讲述清楚。这对于正确理解“统计学是关于数据的科学”至关重要。

关于“总体”,中文统计学教科书上常见的定义是“总体是包含所研究的全部个体的集合”;欧美教材则把“总体”定义成“Population is the set of all objects or individuals of interest or the measurements obtained from all objects or individuals of interest”。这两种定义都强调的其中的“总”字,即认为所谓“总体”必须是一些元素的集合(英文定义涵义宽泛些)。这实际上是传统的社会经济统计学(或“政治算术”意义上的统计学)关于总体的认识。换句话说,总体即进行社会经济统计调查时的调查对象,是现实生活中的“总体”,它们是有限的。只有在这种总体中,利用适当的统计学方法,个体之间的偶然性差异才能被抵消掉,从而揭示出现象的内在统计规律。换言之,传统的社会经济统计学认为统计学是关于(有限)总体的科学。

然而,数理统计学关于统计学的定义是“统计学是数据的科学”,即“从人们所不了解或不完全了解的事务中获取数据(抽取样本),从数据中(从样本中)提取信息,从而帮助人们对该事物做出推断”。比较之,可见数理统计学认为统计学是关于(怎样应用)样本的科学。所谓“总体”(母体)即为数据(样本、子样)的“母亲”,数据(样本、子样)的来源就是总体。数据(样本、子样)的来源,可能是许多(有限个)性质相同的单位的集合,可能是无限多个元素的集合,也可能仅仅是一个不可重复的随机试验或是一个确定的事件。换言之,现实生活中的“总体”和作为数据产生来源的“统计总体”不是一回事。在统计学看来,数据就是样本,统计学就是利用数据(样本)去认识总体(母体)的科学。

这就带来一个问题,即应当怎样向经济管理类的学生讲述“统计总体”这个概念。我们认为,下述观点值得参考:即首先要淡化这个概念,就是说不用这个概念去定义统计学,也不讨论统计学的研究对象,在讨论社会经济调查的问题时,用“调查对象”、“调查单位”代替“总体”和“总体单位”;其次,“总体”这个术语应和“样本(子样)”一起出现,并同时给出“总体”的同义语“母体”而将“总体”定义成“数据(样本、子样)的来源”;最后,在讲述调查对象的概率抽样时提出“有限总体”,因为这时作为样本的母体的“总体”是有限的。在谈论这个有限总体又可以被视为随机样本的时候,把产生这个随机样本的总体称作“无限的超总体”。

,