假设检验依据的基本原理（漫谈假设检验中的效应量）

前几天有客户咨询了我这样一个问题：他们负责整个公司的员工满意度评价，但是在比较部门差异的时候出了问题。总部就有几千人，全国每个大区都是几万人，这样所有的满意度指标随便两个区域之间相比都是有统计学意义的，假设检验完全失去了实际价值，该怎么办呢？

我怎么给他的咨询建议这件事情先抛开，这个和我们今天要讨论的话题无关，这里我想说的是，客户所碰到的问题就是很典型的在样本量过大的情况下假设检验失效的问题。简单的说，样本量过大，导致样本信息过于充足，抽样的标准误太小，从而非常细微的样本差异都会变得有统计学意义。

那么，有没有什么办法来弥补这种情况下假设检验过于敏感的缺陷呢？为此有统计学家提出来了”效应量“这样一个指标。

什么是效应量

效应量（Effect Size）其实就是完全抛开假设检验那一套东西，直接用以衡量总体均值间差异大小（或者影响因素作用强度）的指标。由于完全不睬假设检验，因此他不受样本量大小的影响，从而可以在不同研究间进行比较。

严格地说，这个东东的兴起实际上是和Meta分析有关的，因为Mata分析要整合的不同研究样本量显然有可能非常悬殊，一定要找一个能够整合其效应大小的指标才行。只不过随着Meta分析用得越来越广，弄得现在单研究也跑来报告效应量了（吐槽一下，单研究直接估算好样本量难道不是更香的解决方案么。。。）。

有了效应量的设定以后，现在对于研究结果，我们可以是这样来看的：

差异/影响无统计学意义：收工走人，直接洗洗睡吧，没戏唱了。
差异/影响有统计学意义，但计算出的效应量很小：多半是因为样本量过大，武德过于充沛所致，差异存在，但无专业价值。
差异/影响有统计学意义，而且效应量足够大：差异存在，且有专业价值。

继续吐槽一下，其实效应量的大小并不能够真正说明上面写的有没有专业价值，这东西难道不是应该从专业的角度来判断吗。。。？

对效应量的使用有两点需要特别指出，首先，效应量的计算不一定和统计模型有关，而且其界值也是人为确定的，相对比较武断，因此对它的使用最好仅适用于简单的分析方法；其次，效应量指标有标化和未标化两种，Meta分析中一般需要使用标化的效应量（从而好进行效应合并），单纯衡量一个研究中的效应大小则使用未标化效应量即可。

效应量的指标家族

根据效应量所反应的效应的不同，它大概可以分为三大类。

首先是d-family（difference family），用于反映各组平均水平间的差异，常见的指标有如Cohen's d、Hedges' g等，一般说起效应量，我们往往也就是指的这些指标。

第二类，r-family（correlation family），显然反映的是各指标之间的关联性的强弱，如Pearson r、R²、η²、ω²、f等。

最后一类，OR-family（categorical family），看名字就知道了，反映的是分类指标之间的关联性的强弱，最常见的有odds ratio (OR)、risk ratio (RR)。

常见的效应量指标

经过统计学家们的不懈努力，目前已经提出了四十多种效应量估算指标（残念中。。。）。

这段就只列最常见的几个吧，不多解释了，简单的列一下公式，能理解就行。

Cohen’s d：最常见的用于t检验的效应量指标，表明两个均数标准化之后的差异大小。