8月23日,由智谱AI支持,北京市科委、中关村管委会科普专项经费资助的系列栏目“科普大佬说”第七期于AI TIME 开讲,本次讲座邀请了中国人民大学农业与农村发展学院的刘晓鸥教授,下面我们就来说一说关于ai和数据分析哪一块用处大?我们一起去了解并探讨一下这个问题吧!

ai和数据分析哪一块用处大(干货科普大佬说)

ai和数据分析哪一块用处大

8月23日,由智谱AI支持,北京市科委、中关村管委会科普专项经费资助的系列栏目“科普大佬说”第七期于AI TIME 开讲,本次讲座邀请了中国人民大学农业与农村发展学院的刘晓鸥教授。

刘晓鸥:

中国人民大学农业与农村发展学院教授,美国康涅狄格大学农业与资源经济学博士。主要研究领域应用计量经济学,产业计量分析,食品安全。

2021年诺贝尔经济学奖颁发给了因果推断领域学者。本报告主要探讨以下问题:经济学做为一门致力于研究因果关系的学科,如何与机器学习算法产生联系与共鸣?传统的计量经济学估计方法在大数据时代会产生什么样的问题?机器学习会对经济学研究产生突破性的影响吗?以及经济学研究与机器学习在实践领域紧密结合的研究案例。


什么是经济学?

什么是经济学?经济学其实是社会科学的一种,但是和其他社会科学的基本区别还是很明显的,比如说我们发现美国人比较喜欢开大车,欧洲人比较喜欢开小车。从经济学的角度该如何解释这个现象?

在个体层面,经济学通常认为是无法直接观察到某个人的偏好是什么(观察某个人的特定偏好可能是心理学家需要做的工作),但是我们可以假定这个人的偏好是固定的。那么在某个人偏好固定的情况下,这个人面临了一个什么样的约束条件导致他/她做出某个选择?比如当分析美国人为什么开大车还是开小车的时候,我们会假设对大车和小车的偏好都是稳定的,导致最终美国人和欧洲人选择大车和小车的部分原因是因为他们面临了不同的约束条件,比如说美国人的停车位很大,而欧洲人的停车位却很小,这就是约束条件。所以,微观经济学其实是研究个体或者组织在社会中面临约束条件的变换而导致人们选择发生变化的学科。

这时,如果我们把刚才说的例子转化成数学模型的话,就变成了一个典型的微观经济学模型—在某种约束条件下,如何实现效用最大化。这个问题也是经济学最基本的一个优化问题,即美国人和欧洲人面对停车位有大有小的约束条件,他们选择自己最喜欢的车型。所以即便我们看到欧洲人开小车,也不代表欧洲人就是偏好开小车,很有可能是因为欧洲人的停车位非常小。

那么在宏观层面,经济学研究的又是什么呢?这里的宏观层面是指包含了众多的个体和组织互动的场景。它其实是通过某种方式将个体或者组织的行为加总起来,在有限资源约束的条件下,试图最有效率地分配资源。

其实,经济学研究的问题和其他社会科学是有重叠的。但是经济学有一套自己的研究范式,正是这个研究范式界定了经济学的边界。运用经济学的研究范式研究某些现象得出的结论被称之为理论。例如,一个最通俗的经济学理论就是需求定律,其简化版本是当价格上升时,需求就会下降。这一规律是我们基于对社会现象的诸多观察和分析后总结出来的。但是大家可能会感觉,价格上升、需求下降这个规律很符合我们的基本直觉,经济学存在的意义难道就是为了总结出一些符合直觉的东西吗?

当然不是。直接是指我们大家形成的对一些社会现象之间所具备的因果关系的朴素判断。这个判断可能符合逻辑,也可能不符合逻辑。而经济学的作用就在于将在直觉的基础上,运用一定的研究方法,将直觉总结出来,抽象成理论。例如,需求定律就是通过求解预算约束下的效用最大化问题后总结出来的。从直觉抽象出理论之后,这个理论可以应用于解释一系列的现象。

经济学又分为理论经济学和实证经济学。实证经济学采用的是计量经济学方法来分析数据之间的关系。那么,经济学理论和数据之间有什么关联呢?在实证研究里面,我们有一种估计方法叫做结构估计。结构估计就是指,从数据里面检验我们理论产生的规律是否正确。比如需求定律在理论上说的就是价格上升,需求下降。那我们在实证研究中需要做的工作就是在数据里面观察价格上升是否真的会导致需求下降。

例如,我们在理论经济学中,求解一个在有约束条件下的最大化问题,如果我们不考虑不确定性的话,我们解出来的是一个x和y的确定性关系,如y=f(x)。但是当我们在实际生活中收集了很多的数据,我们会发现价格和购买量之间其实并不是严格的线性关系,是沿着一定的线性趋势在上下波动。那么,实证研究的任务就是要找出这个线性趋势。所以,在我们比较传统的计量经济学领域,回答价格和需求量之间是正向还是负向关系,是我们需要重点解决的问题。这类研究在经济学中可以被称为政策效果评估。以刚才讲的需求问题为例,这个政策效果评估的就是价格上涨这个政策对于消费者和社会的影响。但是,如果想知道影响的具体程度,比如价格上升1元钱,导致社会福利具体损失了多少钱,我们就可以将其看作是一个预测问题。所以,在政策评估领域,我们并没有发现机器学习具有较大的用武之地,因为目前为止,在政策评估领域,机器学习里面的自然语言处理算法仅仅被用来创造某些x或者y变量,并没有从算法本身提升计量经济学模型的估计效率。

在经济学的某些领域,大家会非常关心预测问题。比如经济学中的实证产业组织领域,需要回答很多关于预测性的问题。事实也证明,正是这个领域恰恰是正在探索机器学习 经济学最多的领域。我们在这里举个例子,比如液态奶市场有伊利、蒙牛等大公司,这些公司下面也同时也会有很多品牌。我们想知道不同品牌之间的替代关系是怎样的?比如说伊利的某个品牌价格上涨了,会导致蒙牛的品牌B的销量发生多大的变动?这些问题不仅学者们感兴趣,也是产业界非常感兴趣的领域。因此,在这个领域的预测问题确实比较多而且都很有价值。那么如何将传统的计量经济学模型和机器学习模型相结合以增强经济学模型的预测能力、同时为机器学习算法赋予因果推断的能力?

我们来给大家介绍一下传统计量经济学模型和机器学习算法模型的一些区别。首先,计量经济学在实证领域是一个数据模型,即我们有一个非常明确的优化目标,例如,对于线性模型来说,就是需要最小化它的残差平方和,这是一个非常明确的优化目标。接下来,我们要寻求这条拟合直线的某个参数,这个参数可以使残差平方和最小。再比如说,极大似然估计,就是要求我们要最大化整体样本出现概率。当我们把所有数据都扔到模型之中,其实我们需要寻求的模型参数就是要解决残差平方和最小、最大化似然值这类问题。而机器学习模型很多都是算法模型,和数据模型相比,并没有一个特别明确的优化目标。例如,机器学习模型会把数据集分成两部分:训练集和测试集。目标就是把训练集训练出来的结果和测试集尽可能地匹配,以求达到最优的拟合效果。这其实和传统计量经济学中的优化目标是完全不同的。这就导致了机器学习模型所追求的最优效果和计量经济学不同。

机器学习算法的优势(1)

我们认为较之于计量经济学模型,机器学习模型具有几点比较重要的优势:

第一,机器学习算法可以根据数据特征创造新变量。这是我们传统计量经济学方法不可能实现的。比如说我们要研究到底是什么原因影响了学者们的创新能力。那么,我们就可以比较学者们前后发表的论文相似度来衡量创新能力,如果没有自然语言处理的工具、仅凭人工分析是很难获取这个变量的。在自然语言处理技术能为我们创造出这些变量之前,传统经济学方法是没有办法对此类问题进行实证分析的。

第二,机器学习模型具有更加出色的预测和拟合能力。这对我们回答很多预测性问题是非常有帮助的。如在很多经济学论文中,R2—预测出来的数值除以真实值,可以近似评估预测出来的数值解释真实值的能力—已经被大家普遍忽略了。很有可能传统的计量经济学模型所获得的R2只有20%左右甚至更低,这是机器学习模型绝对不能接受的结果。

第三,机器学习模型通过将训练集的预测效果与测试集相比较来评估模型的优劣,这种以结果为导向的模型调整方式,可以避免模型设置的主观性。因为之前提到的政策评估类问题往往只需要得到趋势,并不需要做预测。但是线性模型对真实世界的预测效果是非常差的。机器学习模型将这个世界看成是是非线性的,在提升了预测效果的同时,也更加符合现实情况的要求。

机器学习算法的优势(2)

无监督学习算法可以对数据进行分类,从而创造出实证研究中所需要的变量,这是传统计量经济学方法难以做到的:聚类算法,比如Athey(2021)在研究Google新闻停业会对读者阅读新闻的类型造成何种影响时,采用了一种非监督算法:社区检测(community detection),对样本中的新闻进行了分类,从而创造出了研究所需要的因变量。

机器学习算法的优势(3)

相比于常见的计量经济学方法,机器学习是一个更为灵活而强大的预测工具,尤其是在大样本的条件下(Sendhil,2017)。如果仅用拟合优度作为衡量估计效果的标准,机器学习的算法总是能有出色的表现(Athey,2018)。当实证中研究的主要问题涉及到预测,机器学习算法会是更好的选择。

Jean(2016)采用神经网络(neural net)算法,使用卫星观测数据,预测了五个非洲国家的经济增长。Athey(2019)将Bengi(2003,2006)提出的神经概率语言模型(neural probabilistic language model)结合到离散选择模型中,构建了一个包含潜向量的消费者超市购物行为预测模型,并基于超市零售数据,利用变分推断算法(Varaitional Inference)估计了这个模型中参数的分布形式。

我们课题组通过数值实验,发现Athey(2019)的模型预测效果非常好。但是目前这个模型仍存在着一个问题,也是机器学习和经济学结合的难点,即我们如何把前面某一个变量参数的影响进行准确的预测?而不仅仅是把模型整体都预测准确。

机器学习算法存在的问题

虽然机器学习存在很多优势,但是它在当前经济学实证研究中的应用范围仍然非常有限,究其原因,还是在于机器学习与传统计量经济学的范式存在较大的差异。在计量经济学的实证研究中,机器学习存在两点明显的不足:

第一,机器学习算法模型本身并不能进行反事实预测,因此,机器学习模型本身仅适合讨论相关性而非因果性。所以,要提升机器学习算法在经济学中的应用范围,我们必须要增加机器学习算法本身因果推断能力。

第二,目前的机器学习模型难以进行假设检验并建立参数估计值的置信区间。这个问题的产生主要是因为上述问题所导致的。

机器学习在计量经济学中的应用

综上所述,将机器学习运用到经济学的实证研究中,需要发挥它在数据分类、模型调试以及预测能力上的优势。同时也要尽量避免机器学习在因果推断上的不足。当前许多实证研究采取的策略就是将机器学习算法嵌入到因果推断的框架中,并把预测和拟合的工作尽量交给其完成。当前,已经有一些研究,将机器学习与经济学常用的PSM、DID、工具变量等因果推断框架相结合。

机器学习在计量经济学中的应用(PSM)

倾向得分匹配(PSM)是一种伪随机实验的方法,常常用来解决自选择带来的内生性。因为我们很难在现实的观测数据中正确的估计出实验组和对照组,所以需要通过算法本身完成分类任务。机器学习在完成这些任务时具有很好的效果,也能够分类很好。当人们可以自行选择是否参与某一政策的时候,评估该政策的效果要考虑人群本身的异质性,即主动参与这个项目的人群与不参与的人群本身就有区别。譬如职业技能培训对就业的影响。主动参与职业技能培训的人群可能本身就业的积极性就高,这会使得回归对技能培训的效果估计过高。

,