统计学基础和数据分析(学点统计学让工作起飞)(1)

一、什么是统计学

综合来讲,统计学就是收集、处理、分析、解释数据并从数据中得出结论的科学。

比如说,我们想知道中国男性和女性谁的收入更高。全中国人民那么多,即使是官方机构想要进行一个总体的统计都不太现实,更别提我们了。因此我们需要进行抽样,并统计我们抽中的样本的数据情况,对数据进行一些必要的处理(比如处理缺失值、异常值、重复数据等),然后对数据进行分析,并对分析结果进行解释。最后,给出一个可靠的结论。

以上就是一项统计学任务的流程。其中,数据分析所使用的方法可以分为描述统计方法和推断统计方法。

之后我们会详细讨论两者的更多细节。

二、统计数据的类型

我们有必要先了解下数据的类型。

1. 按照计量尺度

2. 按照统计数据的收集方法

3. 按照被描述对象与时间的关系

统计学基础和数据分析(学点统计学让工作起飞)(2)

三、统计中的一些基本概念

1. 总体和样本

总体:population,包含所研究的全部个体的集合。比如当我们想要研究中国人民的人均身高时,全中国人民就是总体。总体分为有限总体无限总体,对于有限总体来说,元素的数目是可数的,而无限总体中的元素则是无限、不可数的。在无限总体中,每次抽取一个单位,并不影响下一次的抽样结果,这是因为无限总体去除上一次抽取的样本后,剩下的仍然是一个无限总体。因此无限总体中的每次抽样总可以看做是独立的。反之,在有限总体中,多次无放回的抽样之间并不是相互独立的

样本:sample,从总体中抽取的一部分元素的集合,构成样本的元素的数目成为样本量。抽样的目的是根据样本提供的信息推断总体的特征。比如我们统计中国人民的人均身高时,抽取了10000人的样本来作为代表。那么全中国人民是我们的总体,这10000人就是我们的样本,样本量是10000。

2. 参数和统计量

由于样本已知,因此统计量可以轻松求得。抽样的目的是根据样本统计量来估计总体参数。比如用样本标准差s估计总体标准差σ等。

一言以蔽之,参数相当于总体中的统计量,统计量相当于样本中的参数,它们的含义一致,只是分别应用于总体和统计量,且样本统计量可以直接通过描述统计得到,而总体参数往往是未知的,需要通过推断统计来估计。

3. 变量

变量:variable,相信我们对变量都比较熟悉,我们最常使用的名称有自变量和因变量,其中后者跟随前者的变化而变化。不过今天我们会从其他的角度对变量进行分类。

按照变量数据类型分类:

其他分类角度

这部分后续我们会接触到。

以上内容是统计学的基础,不难,但是必须要记清楚,避免以后在某些问题上产生混淆。

统计学基础和数据分析(学点统计学让工作起飞)(3)

,