多年来,这个概念一直没弄清楚,以至于在课堂教学上,也没有讨论这个问题。但不讨论不代表没问题。数据拿到手第一时间对Y做分布检验的时候理所当然地会去探讨Y是否服从正态分布。而其实这一切一开始关于Y的分布检验并没有意义。
今天终于找到这篇博客把这个问题讲得很透彻,收藏起来,以后在这个问题上再也不会纠结了:科学网正态性——数据分析中的第一误区 - 张霜的博文
简单总结该博文的要点:正态性假设的科学表达应该是条件正态性假设,即Y~Normal(βX,),意思是Y在X取具体的任一个值时服从正态分布,所以也就是残差服从正态分布,而并不是要求Y服从正态分布。
另外,不同教材对OLS回归基本假设的叫法都不一样,伍德里奇的教材里就叫MLR,而在有的教材也叫LINE假设,分别对应,L:线性假设,I:样本独立假设,N:正态性假设,和E:同方差假设。其中,这里的N和E都应该是指的残差。其中,LNE的检验分别按顺序通过下面三个图来呈现:
L(Linearity)检验,只有平行的且在0附近的线表明了没有明显的pattern了(增长或下降)
N(Normality)检验,所有点应该大致都落在直线附近
E(equal deviation)检验,也不应该有增长或下降的趋势才说明方差不会逐渐增加或减少
首先,我强烈建议就用这几个图示检验方法作为OLS回归假设检验的标准方法,其他方法或多或少会受到样本量或其他因素的影响。另外,我们发现所有四个假设LINE中,上面只列出了针对LNE假设的图示检验方法,唯独没有列出I(independence)的检验方法,因为独立性假设的检验本质上取决于研究设计和数据搜集的方法(是否随机)。
,