论文实证分析需要多少样本（论文中若需要做实证分析）

论文实证分析需要多少样本（论文中若需要做实证分析）(1)

这些诀窍讲的是“如何进行实证研究”，而不仅仅是“如何写实证论文”；但总的来看，“做”和“写”的差别并不大。

实证研究中最重要的三点是什么？是因果识别（identification）、因果识别、因果识别。务必阐明因果识别的策略（当然，首先要理解因果识别的策略是什么）。许多实证研究可归结为“A 导致了B”，通常用某种回归估计进行佐证。你要解释你所看到的数据中的因果关系是如何被识别的。

1.要描述哪些经济机制导致了自变量（右边变量）的差异。不过，上天赐给我们的真正的自然实验是少之又少的。

2.要描述清楚残差中包含了哪些经济机制。除右边变量（自变量）外，导致左边变量（因变量）变动的因素还有哪些？

3.因此，需要从经济学的角度说明扰动项为何与右边变量不相关。除非你做好了前面两项，要不然你无法解释清楚这一关键假设。

4.从经济学的角度说明为何工具变量与右边变量相关，但与扰动项不相关。

5.工具变量和控制变量之间的差异是什么？将y 对x 回归，何时z 应作为自变量加到右边，何时z 应作为x 的工具变量？

6.对你所报告的每一个估计数字，要说明数据中哪些变量的差异导致了估计结果。例如，加入固定效应之后，相应的解释会截然不同。在回归方程中加入公司固定效应后，每个公司内部的时变因素会影响回归系数。若回归方程中没有加入公司固定效应，回归系数往往取决于在某一时刻上各个公司之间的差异。

7.你确信你看到的是需求曲线，而不是供给曲线吗？要想澄清这一问题，请自问“你在对谁的行为建模？”例如，你感兴趣的是利率如何影响住房需求，并用新增贷款量对利率作回归。但如果其他因素导致住房需求变得很大时，住房抵押贷款需求（以及与住房抵押贷款需求相关的其它贷款需求）也会抬高利率。你的暗含假设是需求曲线是不变的，价格的提高会降低需求量。但数据可能是因为供给曲线不变而产生的，从而增加的需求会抬高价格，或者需求与价格交互攀升。你是在对房屋购买者的行为建模，还是在对储蓄者的行为建模呢（储蓄会如何对利率变动做出反应）？

8.你能肯定不会是y 导致了x？或者z 同时导致了y 和x？看看下面反向因果关系的例子吧。例如：前一个例子也是一种因果关系：究竟是利率变动导致了住房需求的变动，还是住房需求的变动导致了利率的变动呢（或者是整体宏观经济状况同时导致了利率和住房需求的变动）？

9.仔细斟酌自变量中应包括哪些变量，不应包括哪些变量。大多数论文中引入的自变量过多。大可不必把决定y 的所有因素都作为自变量。

a.R2较高通常是坏事—这意味着回归方程是左脚的鞋子数量 = α β×右脚的鞋子数量 γ×价格扰动项。右脚的鞋子数量不应该作为控制变量。

b.不要做这样的回归：工资 = a b×教育程度 c ×行业扰动项。固然，加入行业变量是会提高R2，并且行业变量也是影响工资的重要因素(如果你做好了前述的第2 项，它应该在扰动项里)，但教育的主要目的是帮助人们进入更好的行业，而不是从助理汉堡师傅擢升为首席汉堡师傅。

只报告估计值和p 值是不够的，要说明数据中导致估计结果的事实或规律。Fama 和French1996 年的论文《多因子解释》(Multifactor explanations)便是一个很好的例子。按照过去的文献惯例，只需要报告一个数字：GRS 检验。Fama 和French 展示了每个投资组合的期望收益和β值，并说服读者相信期望收益的规律与β 值的规律相吻合。虽然GRS 检验糟糕透顶，但该文提出了近15 年来最成功的因子模型！他们之所以成功了，是因为他们揭示了数据背后的固有规律。

务必阐明结果的经济上的重要性。除了说明核心数字统计上的显著性外，还应阐明它们在经济上的重要性。特别是对大型面板数据集，即便是极小的经济效应，在统计上也会显著。（对于大型面板数据集，若t 统计量为2.10，估计出来的效应确实非常微小！）

当然，每个重要的估计值都要报告其标准误。

论文实证分析需要多少样本（论文中若需要做实证分析）

最新推荐

热门推荐