当我们使用DOE研究因子对响应变量的影响时,根据实验数据我们怎么分辨哪些因子的影响是显著的,哪些因子的影响不显著呢?答案就是方差分析(ANOVA),我今天就先简单来谈谈方差分析。

首先,我们看一下来自百度百科的方差分析定义:

方差分析条件及标准(方差分析-DOE漫谈06)(1)

我们可以从定义中看到,造成波动的原因分为两类,一是不可控的随机因素,另一个是实验中的可控因素。所以方差分析的本质将可控因子变化造成的波动(组间波动)与随机因素造成的波动(组内波动)来比较,如果可控因子变化造成的波动远大于随机因素造成的波动,那么就表示可控因子的变化对响应变量有显著影响。在实际的数据处理之中,我们用方差来表示数据的波动大小,所以我们就叫方差分析。

下面我们来看一个方差分析的例子。

在生产过程中,我们想知道不同产线和不同温度对断裂强度的影响。于是在4条产线,5个不同温度下进行实验研究,获得每个实验数据,通过minitab进行方差分析,结果如下:

方差分析条件及标准(方差分析-DOE漫谈06)(2)

先说结果判断,生产线P=0.028<0.05,温度P=0.124>0.05。所以基本上可以说在a=0.05水平上,生产线对断裂强度有显著影响,温度对断裂强度没有显著影响。

看完结果,有兴趣的同学再接着看看图中的几个概念:

1、自由度:自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。对于可控因子自由度通常为水平数-1(如生产线的自由度为4-1=3),总的自由度为实验次数-1(例子中,4*5-1=19),误差的自由度就是19-3-4=12。

2、Adj SS:偏差平方和。我们可以理解为对每个数据和平均值的差的平方求和。这个可以在一定程度上表明数据波动的大小。但是,平方和与数据个数有关,通常数据个数越多,平方和会大一些,所以呢,我们要结合数据个数,也就是上面的自由度来看。

3、Adj MS:均方和。它就是对平方和与数据个数的修正。Adj MS= Adj SS/自由度。

所以,我们说了那么多,实际上方差分析就是比较Adj MS的大小。那么如何比较大小呢,就是将可控因子的Adj MS除以误差的Adj MS,我们就能得到这个比值,比如图中,生产线的F=32.711/7.552=4.33,看这个F值是否落在F分布的拒绝域。这就是方差分析的内在逻辑。但是,我们实际操作中不用那么麻烦,直接看P值就差不多了。

,