北大经院两会笔谈︱张延、王琪:发展经济学的新思路——评估“精准扶贫”政策效果的科学量化分析方法

当今时代,尽管世界经济发展取得了巨大进步,但全球仍有7亿多人生活在极度贫困中,每年有大约500万五岁以下儿童死于一些可以通过廉价治疗来预防或治愈的疾病,有一半的儿童仍然没有掌握基本的识字和计算能力就离开了学校(Committee for the Prize in Economic Sciences in Memory of Alfred Nobel, 下文简称the Prize in Economic Sciences, 2019)。

美国著名发展经济学家迈克尔·克雷默(Michael Kremer),哈佛大学经济学教授、2019年诺贝尔经济学奖得主,从微观角度切入全球贫困问题研究,通过引入随机对照实验的方法设计科学的实地实验,评估不同措施的影响效果,试图寻找有效的干预措施来帮助贫困人口改善生活。他的实验研究成果可被广泛用于发展中国家进行教育补贴、教师管理、疾病预防、医疗定价、技术推广等现实问题中。克雷默开创并推广的实验方法本身也对经济学多个分支具有重大意义,不仅重塑了发展经济学研究,也为整个实证经济学领域提供了更为丰富可信的经验证据和科学有效的研究方法。

一、随机对照实验:开启经济学研究的新方法

克雷默将全球贫困问题分解为与个体或群组相关的更为精确的问题,如提高入学率、提高疫苗接种比例等,试图在改善穷人生活状态的微观视角上给出解决办法,其采用一系列巧妙设计的随机对照实验,并寻求与发展中国家部分机构的合作以在真实环境中评估减贫项目的效果。这种新的实验设计方法不仅在全球减贫问题上具有重大的实践意义,也重塑了发展经济学的研究范式。

评估干预影响的研究都试图回答这样一个问题:参与了某一项目的个体,在没有这一项目影响下将会如何?没有参与某一项目的个体,若在这一项目中将表现何种特征?而在任一给定时间,被观测的个体只存在参与或者未参与中的一种状态,因此难以获得项目对个体影响的估计(the Prize in Economic Sciences, 2019)。若要通过对照实验评估项目影响,克雷默和迪弗洛(Duflo & Kremer, 2003)认为,关键的一步是建立可信的对比。

以实验组代表受项目影响的个体组,对照组代表不受项目影响的个体组,则可信的对比是指,若实验组未参与该项目,将与对照组具有相似的结果。在此基础上,对照组可以预测出实验组个体在没有该项目影响下将是何种特征,通过这样的设计可以给出上述问题在群组层面的答案,即项目的平均影响。

但在现实中,克雷默和迪弗洛(Duflo & Kremer, 2003)研究发现,通常参与了某一项目的个体与未参与的个体本身就有所不同,有些项目也仅允许符合某类特质的人群参与(例如扶贫政策仅针对贫困人口实施)。另外,是否参与该项目的决策在很多情况下也是自愿的。这导致两组人群的差异不仅反映了项目的影响,还包含了预先存在的差异,即选择性偏误。因此,参与人群与未参与人群不能形成可信的对比,实验组和对照组不能简单等同于参与者和未参与者。

消除选择性偏误的一个方法是在潜在参与人群中随机选择实验组和对照组。这种方法使得两组人群平均而言没有显著差别,两者的不同可被归因为参与项目状况所致。

基于对照和随机这两个基础思想,克雷默及其合作者(Vermeersch & Kremer, 2005; Kremer, Moulin & Namunyu, 2003; Glewwe, Kremer & Moulin, 2009)设计了一系列的实地实验,并开展于多个发展中国家,通过与当地机构合作设计干预项目,在实施后评估干预效果。他们与当地具有在现实中实施项目的权力并对如何改善项目感兴趣的机构(如政府、非政府组织、私人企业等)合作,这保证了实验在真实环境中实施。

研究者和机构均从这一合作中获益(Duflo, Glennerster & Kremer, 2006)。一方面,研究者基于经济理论帮助其合作者设计可解决实际问题的项目或政策,同时也可检验理论的现实适用性。另一方面,政府部门通过与研究者合作,可以推出多个改革实验措施用于随机选取的区域或群体,并选出较好的政策加以推广;非政府组织也希望检测新项目的效果或评估现有项目的作用;私人企业出于更好地理解其商业活动及服务客户、提高利润的目的,同样需要与研究者合作进行随机实验。

克雷默及其合作者的创新不仅在于将随机对照实验引入发展经济学,而且还在实地实验的具体情境中提出了很多方便研究者在现实中实现随机化的方法。如克雷默等(Duflo, Glennerster & Kremer, 2006)所述,经典的临床实验中只需将实验样本随机分为实验组和对照组,其中前者接受某一新的项目干预。实地实验也可以沿用这一思想,但现实条件常使得随机分组不易实现。例如,存在资源、行政约束或需评估的项目是现存而非新引入的,因此研究者发展出过度订阅(Oversubscription)、随机引入(Randomized Order of Phase-In)等多种方法。

过度订阅是指当资源或实施能力有限且对项目的需求超过供应时,在合格的候选人中随机选择获得该计划的人,这既是一种公平的分配资源的方法,也自然地引入了随机化。克雷默及其合作者(Angrist, Bettinger, Bloom, King & Kremer, 2002)在哥伦比亚进行的一项学校票券项目便采用此种方法决定票券的分配。另一种方式是将引入项目的顺序随机化,当存在金融或行政限制时,一些项目不得不以阶段性引入的方式进行,最公平的方式是随机决定引入顺序,这允许了参与项目和未参与项目的个体或群体同时存在且是随机选出的,而且这种分期引入的承诺可以促使被随机选为对照组的个体或群体保持与研究者的合作。因为对未来收益的期望为受试者提供了合作动机,克雷默等(Miguel & Kremer, 2004)进行驱虫实验时便分为三个阶段,随机选择学校并向其提供驱虫药治疗,以评估驱虫治疗对学生健康和学校出勤率的影响。

总之,克雷默等人将随机对照实验引入经济学研究用来检验经济理论预测的结论,并通过评估不同项目的因果影响提出明确的政策建议。这一实验方法也发现了许多现有模型未能预测到的机制和事实,并促进实施部门设计出更有效的政策或项目。

二、对发展经济学扶贫减困工作的贡献

迪弗洛(Duflo, 2006)在总结实地实验在发展经济学中的地位时提到,最初的发展经济学常依赖于搜集原始数据来检验特定假设或研究某一特定问题,因而在很大程度上是由研究的问题决定所需数据,而非由数据决定可以做的研究。但20世纪后期出现了众多高质量、大规模的数据集,如普查数据和不同领域的调查数据,丰富的数据来源和自然实验为发展经济学开拓了广阔的研究可能性,也促使更为专业的计量方法被引入,发展经济学采用实证证据的标准被大大提高,而基于原始观测数据的研究不再像之前容易被接受。

在此背景下,克雷默等(Vermeersch & Kremer, 2005; Kremer, Moulin & Namunyu, 2003)在肯尼亚发起了一系列与教育相关的实地实验,在现实环境中引入随机对照的思想,通过对比随机分配至实验组和对照组的个体来评估干预影响。这种科学严谨的实地实验既传承了发展经济学从调查中搜集原始数据的方法,又重塑了原始数据调查的权威性和科学性,使得实地调查的结果得以被学术界认可,延续了发展经济学先提出问题后寻找相应数据来回答的传统,再次奠定了实地调查在发展经济学中的地位。一旦建立了这一方法的可行性,其在不同项目、国家、时期等情境下的多样性和可实践性便突显出来,相对于回溯性计量研究的优势也得以被承认。

在方法论上,随机对照的实地实验最大的优势是可以构造任何调查数据或自然实验均无法观测的反事实结果,这得益于其灵活的实验设计和干预选择(Duflo, Glennerster & Kremer, 2006)。观测研究只能评估现实世界中已经存在的事实结果,而实地实验可以通过实施干预创造出自然中无法观测到的事件,从而研究这一干预的影响。这使得研究者在政策尚未实施时即可检验其是否如先验知识或理论预测的那样有效,也可以在检验理论预测时通过设计不同的干预引入随机变化。

在所研究的问题上,随机对照实验在发展经济学理论与政策适用性之间建立起直接桥梁,将贫困背后的主要机制与对于不同政策干预的行为反应融合起来探讨(Duflo, 2006)。实验中干预的设计是由发展经济理论指导的,收集的观测数据是基于微观个体选择的,因此实验结果可以指明理论所发现的机制及政策方向在现实中的有效力,定量地测算某一因果关系,为理论预测提供更有说服力的实证检验。

三、检验理论和评估政策效果的强有力工具

为控制选择性偏误实现反事实推断,基于非实验数据发展出了倾向得分匹配、双重差分法、断点回归法等政策评估方法,但克雷默(Duflo & Kremer, 2003)指出这些非实验方法均有各自的局限性。倾向得分匹配法是根据可观测的个体特征预测其参与概率,以此为依据为受干预影响的实验组匹配参与倾向相似的对照组,但这一方法依赖于对受干预和未受干预两个群组自身差异的准确识别,这导致当基于某一难以观测的特征实施干预时,估计可能存在偏误。双重差分法通过比较受政策影响的某一区域和未实行该政策的区域的增长差异来探究该政策的影响,但结果的可靠性所依据的假设前提是:若没有该政策,两地发展趋势相同。而研究者无法检验这一假设,另外还要保证同一阶段两地没有实施其他可能影响结果的政策,以及未受到任何外来持续性冲击,这在现实中均难以实现(Glewwe, Kremer, Moulin & Zitzewitz, 2004)。断点回归所比较的是某一临界值附近参与项目和未参与项目的个体,认为两类群体其他特征相似,结果的差异仅来源于是否参与了项目,但这只适用于可产生此类断点(临界值)的项目,而在具体实施中断点常常是不存在的,尤其在政策实施不严格的发展中国家。而即便存在断点,这一方法也很有可能面临错误估计标准误差的风险(Bertrand, Duflo & Mullainathan, 2004)。

随机对照实验则弥补了非实验的干预效应研究方法的缺陷,使得实证分析在更为广阔的领域和问题上具有可信的结果(Duflo, Glennerster & Kremer, 2006)。实验中干预的实施可供研究者设计并操作,随机化的处理可以控制选择性偏误,实验组和对照组的差异也可以被精准记录。整个干预影响及观测过程均可保证科学透明,研究者可以直接获得高质量的对比数据,而无需对样本自身或计量方法做出过高的要求。克雷默等(Glewwe, Kremer, Moulin & Zitzewitz, 2004; Glewwe, Kremer & Moulin, 2009)比较非实验方法和随机对照实验的评估结果发现,两者会有很大差异,其中非实验方法更容易面临选择性偏误、遗漏变量等识别问题。随机对照实验的引入发展出了一套更为可信的实验设计过程,极大降低了实证中常面临的选择性偏误的风险,使得实验成为经济学研究在检验理论和评估政策时的一种新的强有力的工具。

另外,克雷默等人创建了一套可迭代的实验研究过程(the Prize in Economic Sciences, 2019),所谓可迭代即研究者可以在相同环境下使用相同的结果变量和相同的测量技术进行后续研究,可以在已有的实验基础上研究引申问题。实证研究中经常会遇到需要进行后续研究的问题,尤其是基于观测数据的研究通常难以作为其他研究的基础被进一步推进,因为初始政策改变时所产生的数据有限,研究引申问题时需要的数据可能并不在这一观测集中,也无法保证其他条件相同来观测在初始政策基础上施加新的干预将产生何种新的影响。而实验具有可以控制干预发生的特点,使得研究者可以进行多步骤的序贯实验(Sequential Experentments),其中每个新的步骤都可以利用较早步骤中的结果,克雷默等(Duflo, Kremer & Robinson, 2008, 2011)关于肯尼亚农民化肥使用情况的发现便基于一系列长期序贯的实地实验。

总之,克雷默将随机对照实验引入经济学研究,形成了一种新的实地研究方法,以可信的方法实施大规模的实验,大大增强了经济学者研究现实问题的能力,增加了严格而系统地评估政策效果的科学方法。

作者简介:

张延,北京大学经济学院教授,博生生导师。主要从事微观经济理论与实践、宏观经济理论、政策与实践等方面的研究。在国内外核心学术刊物上,独立发表学术论文30多篇,并出版学术专、译著十余部。留校至今获教学科研奖多项,承担多项国家社科基金项目和省部级课题。

王琪,北京大学经济学院2016级西方经济学博士研究生,主要研究方向为收入分配、公平认知和行为经济。

专题链接:聚焦两会2020

转载本网文章请注明出处