数据统计学和数据分析（数据分析必备统计学入门基础知识）

上期我们已经了解描述性统计学，今天我们来看看推断性统计。

二、推断性统计

定义：根据样本数据推断总体的数据特征。

1、基本步骤

产品质检的时候用的几乎都是抽样方法的推断性统计，推断性的过程就是一种假设检验，在做推断性统计的时候我们需要明确几点：

1)问题是什么？——

2)需要明确的证据是什么？

3)判断标准是什么？

明确后可以对应我们假设检验的几个步骤了：

1)提出原假设（H0）和备选假设（H1），确定显著性水平（原假设为正确时，人们把它拒绝了的概率）

2)选择检验方法，确定检验统计量

3)确定P值，作出统计推理

假设对于某一个器件，国家标准要求：平均值要低于20。

某公司制造出10个器件，相关数值如下：15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

运用假设检验判断该公司器件是否符合国家标准：

1）设假设：

原假设：器件平均值>=20；

备择假设：器件平均值<20；

2）总体为正态分布，方差未知，样本为小样本，因此采用T检验。

3）计算检验统计量：样本平均值17.17，样本标准差2.98，检验统计量为（17.17-20）/（2.98/√10）=-3.0031

4）当置信度选择97.5%，自由度为9，此时为单尾检验，临界值为2.262。

5）由于-3.0031<-2.262，拒绝原假设，因此接受备择假设，该器件满足国家标准。

2、假设检验类型

•单样本检验：检验单个样本的平均值是否等于目标值

•相关配对检验：检验相关或配对观测之差的平均值是否等于目标值

•独立双样本检验：检验两个独立样本的平均值之差是否等于目标值

3、统计检验方法

Z检验：一般用于大样本（即样本容量大于30）平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数>平均数的差异是否显著。

T检验：用于样本含量较小（例如n<30），总体标准差σ未知的正态分布样本。

F检验：F检验又叫方差齐性检验。在两样本t检验中要用到F检验。检验两个样本的方差是否有显著性差异这是选择何种T检验（等方差双样本检验，异方差双样本检验）的前提条件。

（T检验用来检测数据的准确度，检测系统误差；F检验用来检测数据的精密度，检测偶然误差）

卡方检验：主要用于检验两个或两个以上样本率或构成比之间差别的显著性，也可检验两类事物之间是否存在一定的关系。

4、双尾检测和单尾检测

这个和我们提出的原假设相关，例如我们检测的原假设：器件平均值>=20；我们需要拒绝的假设就是器件平均值<20,此时就是单尾检验；如果我们的原假设是器件平均值>20，则我们需要拒绝的假设就是器件平均值<20和器件平均值=20，此时就是双尾检测；

5、置信区间和置信水平

在统计学中，几乎都是依据样本来推断总体的情况的，但在推断的过程中，我们会遇到各种各样的阻碍和干扰，所以我们推断出的结果不是一个切确的数字，而是在某个合理的区间内，这个范围就是置信区间。

但整体中所有的数据都在这个范围也不现实，我们只需要绝大多数出现在置信区间就可以了，这里的绝大多数就是置信水平的概念，通常情况我们的置信水平是95%。

置信区间[a,b]的计算方法为：（z分数：由置信水平决定，查表得）

a = 样本均值 - z*标准误差，b = 样本均值 z*标准误差

总结：就数据分析而言，我们通过统计学可以用更富有信息驱动力和针对性的方式对数据进行操作。更深入、更细致地观察数据是如何进行精确组织的，并且基于这种组织结构确定数据分析的方法，来获取更多的信息。