一、什么是统计学
综合来讲,统计学就是收集、处理、分析、解释数据并从数据中得出结论的科学。
比如说,我们想知道中国男性和女性谁的收入更高。全中国人民那么多,即使是官方机构想要进行一个总体的统计都不太现实,更别提我们了。因此我们需要进行抽样,并统计我们抽中的样本的数据情况,对数据进行一些必要的处理(比如处理缺失值、异常值、重复数据等),然后对数据进行分析,并对分析结果进行解释。最后,给出一个可靠的结论。
以上就是一项统计学任务的流程。其中,数据分析所使用的方法可以分为描述统计方法和推断统计方法。
- 描述统计:Descriptive Statistics,研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
- 推断统计:Inferential Statistics,研究如何利用样本数据来推断总体特征的统计方法。
之后我们会详细讨论两者的更多细节。
二、统计数据的类型我们有必要先了解下数据的类型。
1. 按照计量尺度
- 分类数据:categorical data,能归于某一类别的非数字型数据,它是对食物进行分类的结果,数据表现为类别,一般用文字来表述。比如人口分为男、女两类等。为方便处理,我们经常会用数字代码来代替文字。
- 顺序数据:rank data,能归于某一有序类别的非数字型数据。比如考试成绩可以分为优、良、中、及格、不及格,一个人的受教育程度可以分为小学、初中、高中、本科、硕士、博士等。
- 数值型数据:metric data,按数字尺度测量的观察值,其结果表现为具体的数值。数值型数据具体又可以分为等距数据和等比数据。在等距数据中,数据间的单位尺度是固定的,比如我们走路的步数,可以是1步、2步、……、100步,但是不会是1.1步,因此等距数据属于离散数据;等比数据则是一种连续数据,它的加减乘除均有意义。
2. 按照统计数据的收集方法
- 观测数据:observational data,通过调查或观测而收集到的数据,这类数据是在没有人为操控的情况下得到的。
- 实验数据:experimental data,实验中控制实验对象而收集到的数据,这类数据是在人为操控的环境下得到的。
3. 按照被描述对象与时间的关系
- 截面数据:cross-sectional data,在相同或近似相同的时间点上收集的数据。我们常常提到的横向对比,事实上就是对同一时期收集到的截面数据进行对比。
- 时间序列数据:time series data,在不同时间收集到的数据,这类数据是按照时间顺序收集到的,用于描述现象随时间变化的情况。我们常常提到的纵向对比,就是指同一事物在不同时期的时间序列数据间的对比。时间序列分析可以单独拆分为一门大学问,我们后续可能会单独拆出一个系列来讲解。
三、统计中的一些基本概念
1. 总体和样本
总体:population,包含所研究的全部个体的集合。比如当我们想要研究中国人民的人均身高时,全中国人民就是总体。总体分为有限总体和无限总体,对于有限总体来说,元素的数目是可数的,而无限总体中的元素则是无限、不可数的。在无限总体中,每次抽取一个单位,并不影响下一次的抽样结果,这是因为无限总体去除上一次抽取的样本后,剩下的仍然是一个无限总体。因此无限总体中的每次抽样总可以看做是独立的。反之,在有限总体中,多次无放回的抽样之间并不是相互独立的。
样本:sample,从总体中抽取的一部分元素的集合,构成样本的元素的数目成为样本量。抽样的目的是根据样本提供的信息推断总体的特征。比如我们统计中国人民的人均身高时,抽取了10000人的样本来作为代表。那么全中国人民是我们的总体,这10000人就是我们的样本,样本量是10000。
2. 参数和统计量
- 参数:parameter,用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。比如总体均值、总体标准差等。在统计中,总体参数通常用希腊字母表示,比如总体均值用μ表示,总体标准差用σ表示,总体比例用π表示等。
- 统计量:statistic,用来描述样本特征的概括性数字度量。样本统计量常用英文字母来表示。
由于样本已知,因此统计量可以轻松求得。抽样的目的是根据样本统计量来估计总体参数。比如用样本标准差s估计总体标准差σ等。
一言以蔽之,参数相当于总体中的统计量,统计量相当于样本中的参数,它们的含义一致,只是分别应用于总体和统计量,且样本统计量可以直接通过描述统计得到,而总体参数往往是未知的,需要通过推断统计来估计。
3. 变量
变量:variable,相信我们对变量都比较熟悉,我们最常使用的名称有自变量和因变量,其中后者跟随前者的变化而变化。不过今天我们会从其他的角度对变量进行分类。
按照变量数据类型分类:
- 分类变量:categorical variable,对应分类数据。
- 顺序变量:rank variable,对应顺序数据。
- 数值型变量:metric variable,对应数值型数据。可以进一步分为离散型变量(discrete variable)和连续性变量(continuous variable)。
其他分类角度
- 随机变量和非随机变量
- 经验变量和理论变量
这部分后续我们会接触到。
以上内容是统计学的基础,不难,但是必须要记清楚,避免以后在某些问题上产生混淆。
,