在现实中的科学实验和生产实践中影响结果的因素往往有很多,要找到原因结果之间的关系就需要用到数理统计中的方差分析。为什么是方差分析呢,我们需要通过变化来寻求原因和结果之间的关联,而方差正体现了变化信息,所以从方差出发找到用于表达相关性的统计量。

例如:最简单的单因素方差分析中,样本的总体方差St可以表达为两部分之和,Se和Sa,即:St = Se Sa。而Se和Sa与总体方差之比满足各自自由度的卡方分布(n-s)和(s-1),n为总体样本数,s为因素的水平也就是因素的不同取值。假设原因与结果之间没有关联,则样本均值与总体期望值之间应没有偏差,而这个假设可以转化为Sa(n-s)/Se(s-1)来表达,如果假设不成立上述比值有偏大的趋势,并且满足F(s-1,n-s)分布。所以Se(s-1)/Sa(n-s) > F(s-1,n-s),就拒绝假设。

对多因素的方差分析也是类似的,只不过通过方差的分解多了几项目,比如:双因素分析中St=Se Sa Sb Sab,直观的看就是总的方差包括了因素A的贡献,因素B的贡献以及AB因素的联合贡献,Se可以理解为随机误差。超过三个因素的分析就非常麻烦了,交叉项太多,所以常用的是单因素和双因素分析。

最后,方差分析的结论是用因素方差与Se之比来表达的,这个比服从F分布。可以进一步简单理解为,如果某因素与随机误差相比不可以忽略,则认为该因素对最后的结果有显著影响。

统计学单因素方差分析的步骤(统计中的方差分析的理解)(1)

,