连享会 · 2025 寒假班
Update:
2024.11.22
,PDF 课纲
课程概览
A. 课程概要
班次
初级班:2025.1.13-15 (3 天),连玉君老师 高级班:2025.1.17-19 (3 天),连玉君老师 前沿班:2025.1.21-24 (4 天),杨海生老师
安排
时间:2025 年 1 月 13-24 日 方式:网络直播 + 回放 授课教师:连玉君 (初级+高级) || 杨海生 (前沿班) PDF 课纲:https://file.lianxh.cn/KC/lianxh_PX.pdf,参考文献和预读资料 课程主页:https://www.lianxh.cn/PX.html (往期答疑和板书) Note: 预习资料、常见问题解答等都将通过该主页发布。 报名链接:https://www.wjx.top/vm/Ot5g7G4.aspx# 助教招聘:https://www.wjx.top/vm/eSAFEBa.aspx#
回放安排:每班 30 天回放
初级班:1.16-1.27 (12 天);2.5-2.22(18 天) 高级班:1.20-1.27(8 天);2.5-2.26(22 天) 前沿班:1.25-1.27(3 天);2.5-3.3 (27 天) 多班组合: 初级+高级:1.20-1.27(8 天);2.5-3.28(52 天),共计 60 天; 初级+前沿:1.16-1.20(5 天);1.25-1.27(3 天);2.5-3.28(52 天),共计 60 天; 高级+前沿:1.25-1.27(3 天);2.5-4.2(57 天),共计 60 天; 全程班:1.25-1.27(3 天);2.5-5.2(87 天),共计 90 天。
B. 授课教师简介
连玉君,西安交通大学经济学博士,中山大学岭南学院副教授,博士生导师。已在 China Economic Review、Energy Economics、Stata Journal、Pacific-Basin Finance Journal、经济研究、管理世界、经济学(季刊)、金融研究、统计研究等期刊发表论文 70 余篇。目前已完成 Panel VAR、Panel Threshold、Two-tier Stochastic Frontier 等计量模型的 Stata 实现程序,并编写过几十个小程序,如 lianxh
, ihelp
, sftt
, winsor2
, xtbalance
, bdiff
, getiref
等。连玉君老师团队一直积极分享 Stata 应用中的经验,开设了 连享会-博客,连享会-知乎 等专栏,已在微信公众号 (连享会,ID: lianxh_cn) 分享推文 1000 余篇,各平台阅读量逾 3000 万人次。
杨海生,中山大学岭南学院经济学系副教授,主要研究领域为政策评估、AI 与资产定价、大数据与经济预测、系统性金融风险。在 ACM Computing Surveys, Expert Systems With Applications, Economic Geography, Pacific-Basin Finance Journal, Ecological Economics, Journal of International Financial Markets, Institutions & Money, Emerging Markets Review, Economic Modelling, Journal of Asian Economics, 《经济研究》, 《管理世界》, 《经济学(季刊)》, 《管理科学学报》, 《金融研究》, 《会计研究》, 《世界经济》, 《系统工程理论与实践》等国内外权威学术刊物上发表论文 40 余篇,主持和参与多项国家自然科学基金、广东省自然科学基金等课题研究。
C. 课程特色
本次寒假班特色:
前沿班由中山大学杨海生老师讲授。本期课程为期 4 天,引入了多个政策评价的新方法和工具,如因果路径分析、调节变量自动筛选、政策强化学习和非参数因果推断等。这些方法不仅能够有效估计和检验政策效果,还能深入其作用机制,评估政策的公平性,及其在不同情境中的可迁移性。这些分析手段能够大幅扩展政策评价类研究的分析视角和研究深度。
✨ 1. 初级班
时间:2025 年 1 月 13-15 日 (三天) 方式:网络直播 + 30 天回放 授课嘉宾:连玉君 (中山大学) 授课安排 授课方式:幻灯片+Stata17 实操演示,全程电子板书+Stata 演示截图,课后以 PDF 形式分享给学员 授课时间:上午 9:00-12:00,下午 14:30-17:30 (17:30-18:00 答疑)。 全程答疑:由 10 位经验丰富的同学组成的助教团队会在课程群中全程答疑,并对答疑接龙文档进行详细的记录和分类,公布于 课程主页。 课程详情:https://www.lianxh.cn/PX.html 板书和答疑:https://gitee.com/arlionn/PX/wikis PDF 课纲:https://file.lianxh.cn/KC/lianxh_PX.pdf 预读资料:-点击下载参考文献- | Text Books 报名链接:https://www.wjx.top/vm/Ot5g7G4.aspx#
1.1 课程导引
实证分析中,最伤神和耗时的事情莫过于研究设计和数据处理。在以往的授课中,有不少学员在听完了高级班后,又返回头来参加初级班。大家的感触是:若没有扎实的基础,以及对计量和 Stata 整体架构的认识,后续的学习进度总感觉力不从心,进展缓慢。
在初级班中,我力求将三天的课程设置成一个比较完整的体系,目的有二:
其一,希望大家经过几天的学习(尚需另外花费 1-2 个月演练吸收),能掌握基本的统计和计量分析方法,能理解多数期刊论文中使用的分析方法;
其二,希望诸位能建立起 Stata 的基本架构,熟知 Stata 能做什么、如何做?以便为后续学习打下宽厚扎实的基础。
翻阅 Top 期刊上的论文,文中的方法我们似乎都会。细细想来,原因在于这些论文的想法或视角通常都比较独特,并使用了恰当的方法来论证。这里的关键在于研究设计,而这在目前的计量教科书中却鲜有涉及。为此,本次研讨班突出两个特点:一方面,我会努力把基础知识讲解透彻,进度上不求快;另一方面,我在每个专题中都会提供了 2-3 篇比较经典的论文,展示这些方法的合理应用。
在内容安排上,基本上遵循了由浅入深,循序渐进的原则。
A0-A1 讲 依序介绍 Stata 的基本用法、数据处理、程序编写和可视化分析,学习这些内容无需太多的计量经济学基础,但对于提高实证分析能力和分析效率,大有裨益。本讲中,我会以一篇文章为实例,说明 Stata 的基本语法结构,并对数据处理过程中的关键问题进行介绍,如离群值的处理、文字变量的处理等。就我个人的经验而言,数据处理能力的高低直接决定实证分析的效率,而对于离群值等问题的处理是否妥善会直接影响全文结果的稳健性,是多数人不够重视但却至关重要的问题。此前有不少学完了高级班的同学又回炉初级班,便是感悟到了这一点。
但凡提及写程序,很多人都会产生恐惧心理,其实,一旦掌握了最基本的原理和语法格式,Stata 中的程序设定并没有想象的那么困难。更为重要的是,对于多数人而言,由于并不需要写完整的 ado 文档,因此只需要学会最基本的条件语句和循环语句即可,难度又会进一步降低。一旦掌握了基本的编程知识和理念,你的实证分析便开始进入「快车道」了。
A2 讲介绍实证分析中的各种可视化呈现方法。学习本讲的目的有二:其一,在实证研究过程中,借助各种密度函数图、散点图、柱状图,可以让我们对变量的分布、关系有更为直观地理解,有助于加深对隐藏在数据背后的规律,长期积累下来会逐渐形成直觉;其二,目前主流期刊越来越强调结果呈现的可读性和直观性,各种可视化工具也应运而生,最为典型的是,多期 DID、RDD、Bunching、合成控制法等因果推断方法,以及稳健性检验、敏感性分析、安慰剂检验等都会借助图形来直观呈现高密度信息。
A3-A4 介绍文献中使用频率最高的线性回归模型,包括 OLS 的原理、结果的解释,以及虚拟变量和交乘项的使用等。对于这些内容的深刻理解和熟练掌握,构成了后续,多种主流实证模型的基础,例如,目前文献中广泛使用的固定效应模型 (FE),倍分法 (DID),断点回归设计 (RDD) 等方法,本质上就是在传统的线性模型基础上,增加一些虚拟变量或交乘项,配合巧妙的研究设计,来实现对不可观测的个体效应的控制,以及对政策效应的估计。
很多人会觉得 OLS 很简单,但 Top 期刊中使用最多的仍然是 OLS,如何合理的构建模型、解释结果便成为实证分析中必须掌握的。我精选了大家经常面临的几个专题并结合论文进行讲解,包括:虚拟变量的使用、交乘项的使用和解释、分组回归的合理设定和假设检验。我会重点强调对条件期望函数和 FWL 定理的解读,这构成了理解因果模型、面板模型以及机器学习中多种方法的基础。首经贸的一个博士生发信息给我:「连老师,我发现只要把你初级里面的虚拟变量相关的知识完全掌握,很多复杂的方法就都好理解了,甚至可以自己解决问题。」,我的回复是:「那看来你是把相关的东西基本搞明白了,我每次上初级班的时候会花很多时间讲虚拟变量和交乘项,这构成了双重差分、断点回归、时间中断分析、面板数据模型等一系列模型的重要基础。」
A5 介绍固定效应模型 (FE),涉及基本的 FE,TWFE 模型和进阶的高维固定效应模型、交互固定效应,以及长差分模型。在讲解这些模型的基本思想和估计方法的过程中,我会将重点放在模型含义、使用场景和条件上来。例如,对于同一笔数据而言,何时采用 OLS 进行估计,何时采用 FE 估计?不同的方法之间有何差异和关联?结果背后的经济含义如何解读?掌握这些方法有助于大家合理控制内生性问题,以便得到更为可信的结论。更为重要的是,本讲介绍的高维固定效应、交互固定效应是理解各类面板因果推断模型 (如 DID,回归控制法等) 的基础,也是进一步学习动态面板、面板 VAR 等模型的基础。
A6 会拆解一篇发表于 QJE 的论文。该文基本上涵盖了前几讲中的主要内容。我们可以尝试用新的方法来研究文中涉及的问题。在此过程中,既能巩固对现有模型和方法的理解,也能够对比后续文献来确定新的研究主题。
1.2 专题介绍(初级班)
A0. Stata 简介和数据处理
实证分析的基本流程和编程习惯 数据的导入/导出、转换及合并 离群值、文字变量的处理 基本统计分析 do文档、帮助文件和外部命令 一篇范例文档
A1. Stata 程序
Stata 程序的基本架构和调用 局域暂元和全局暂元(local, global) 控制语句(条件语句、循环语句) 返回值 Stata 中的各类函数 Matrix 和 Mata
A2. 实证分析可视化
为什么要可视化? Stata 绘图命令的架构 直方图与密度函数图: histogram
,kdensity
,biplot
分仓散点图: binscatter
,binscatter2
系数及系数差异的可视化呈现: coefplot
调节效应、倒 U 型关系及边际效应的可视化 面板数据、多个控制变量、高维固定效应模型的可视化 长期与短期关系的可视化 范文:2 篇
A3. 线性回归分析
条件期望函数:OLS, MLE 与 MM 的关系 线性概率模型 OLS 估计和系数含义 FWL 定理 (Frisch-Waugh-Lovell) 假设检验和统计推断 稳健性标准误:Bootstrap、Jackknife、聚类调整 结果输出与呈现
A4. 模型设定和解释
控制变量:选取、含义、可视化 变量缩放 取对数:弹性与半弹性 虚拟变量与固定效应 交乘项、平方项、高阶项与调节效应 因子变量与边际效应分析 DID, RDD 与 RKD
A5. 静态面板数据模型
何谓个体效应?FE v.s. RE 高维固定效应模型 长差分 (long difference) 异方差和序列相关(Bootstrap、Cluster 调整标准误) 面板模型中的非时变变量和宏观变量如何分析? 实证分析中的常见问题 参考文献 Cameron, C. A., D. L. Miller, 2015, A practitioner’s guide to cluster-robust inference, Journal of Human Resources, 50 (2): 317-372. -Link-, -PDF- Correia, S. 2016. reghdfe
, Linear Models with High-Dimensional Fixed Effects: An Efficient and Feasible Estimator. Working Paper. -PDF-, Examples
A6. 一篇 Top 期刊论文重现
Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication- 简介:文章研究了美国公司税和个人税对创新的影响。作者将发明人数据库、公司税率数据库,以及州级个人所得税和其他经济数据关联起来,从宏观和微观两个层面估计了税收对创新 (数量、质量、发生地等) 的影响。文中采用了多种识别策略,得到了非常一致的结论:(1) 高税率对创新的数量和发生地具有负面影响,但不会影响平均创新质量;(2) 州级层面的「税收-创新产出」弹性很大;(3) 公司税主要影响受雇发明者 (相对于自由职业者) 的创新产出和跨州流动性;而个人所得税则会对整体创新数量和发明人的流动性产生影响。 方法: 高维固定效应、长差分、交互固定效应 实证结果可视化:分仓散点图、长期效应 交乘项 Note: 我只挑选一些与 A1-A5 相关的内容来讲解。
A7. 自行研读-提供复现数据和代码
Sherman M G, Tookes H E. Female representation in the academic finance profession. Journal of Finance, 2022, 77(1): 317-365. -Link-, -cited-, -PDF-, -Replication- 该文研究了金融学术圈中的性别失衡现象。2009-2017 年,美国排名前 100 的商学院中的金融教师中,女性仅占 16.0%。性别失衡表现在几个方面:其一,在控制了研究能力后,更多的女性在排名较低的机构中任职,晋升为正教授的可行性相对较低,伴以薪酬较低。其二,女性发表的论文数量较少,但质量上不存在差异。其三,女性多与同性合作,表明她们的社会关系网较小。时间序列数据表明,上述性别差距正在缩小。 该文没有使用任何复杂的回归方法,仅使用了固定效应模型。但在统计分析和结果可视化方面做了很多工作,是 Stata 入门学习的绝佳范本。 方法: 各种统计分析,列表和图形呈现: egen
,foreach
OLS, 高维固定效应模型, 交乘项, 因子变量: reghdfe
结果可视化: coefplot
结果输出: estadd
,estout
,esttab
,
✨ 2. 高级班
时间:2025 年 1 月 17-19 日 (三天) 方式:网络直播 + 30 天回放 授课嘉宾:连玉君 (中山大学) 授课安排 授课方式:幻灯片+Stata17 实操演示,全程电子板书+Stata 演示截图,课后以 PDF 形式分享给学员 授课时间:上午 9:00-12:00,下午 14:30-17:30 (17:30-18:00 答疑)。 全程答疑:由 10 位经验丰富的同学组成的助教团队会在课程群中全程答疑,并对答疑接龙文档进行详细的记录和分类,公布于 课程主页。 课程详情:https://www.lianxh.cn/PX.html 板书和答疑:https://gitee.com/arlionn/PX/wikis PDF 课纲:https://file.lianxh.cn/KC/lianxh_PX.pdf 预读资料:-点击下载参考文献- | Text Books 报名链接:https://www.wjx.top/vm/Ot5g7G4.aspx#
主题
B1. 假设检验方法(组间差异、稳健性检验、安慰剂检验等) B2. IV 和 GMM B3. 交互固定效应和因子模型 B4. 非参数估计方法及应用:RDD、分仓回归 B5. Lasso 及其在因果推断中的应用
2.1 课程导引
高级班 是初级班的深入,涵盖目前主流分析方法和研究设计框架。高级班采用「庖丁解牛」的方式讲解目前 Top 期刊中使用的计量方法和模型,突出「研究设计」和方法的「应用背景和条件」。
在过去的十年中,实证研究的方法发生了很大的变化。一方面,以「因果推断」为导向,涌现了多种估计方法,如 DID,RDD,匹配,合成控制法,回归控制法,聚束分析法 (bunching) 等;另一方面,得益于大数据和机器学习/统计学习的快速发展,各个领域之间的交叉和融合不断加速。有些人可以快速适应,而有些人则颇感迷茫,甚至担忧自己是否正在被时代抛弃。然而,稍加分析和比对就会发现,上述两个趋势背后并未新增太多令人望尘莫及的高深理论:OLS 仍旧是核心技术,「反事实」和「识别策略」则是灵魂,新闯入的好像只有稀疏性、降维,以及如何控制混淆因素的影响而已。大家会发现,有一些核心的概念和方法频繁地交错出现在各个领域。只要掌握了这些公共的、基础性的方法和理论就能做到「以不变应万变」。
例如,读文献时大家会频繁地见到「交叉验证 (CV)」、「自抽样 (Bootstrap)」、「去一法 (Leave one out, LOO)」这些名词,但论文中往往不会深入解释这些名词的含义和具体的操作方法。因为,作者通常会把这些方法作为「常识」。然而,对于此前未曾接触过这些方法的读者而言,自我怀疑和困惑的心情会始终如影随形,导致对整篇论文的理解大打折扣,甚至不少人会选择中途放弃。事实上,这些方法的原理都很简单,核心思想都是通过「再抽样 (resampling)」来构造经验样本或经验分布,从而完成统计推断。相比于传统的在大样本下才成立的统计推断方法,这些「因地适宜」的推断方法所需的假设条件更为宽松,也更具稳健性。
高级班共包括五讲。B1 介绍各类假设检验方法,以便让我们的实证结果经得起「拷问」;B2 介绍 IV 和 GMM 估计方法,而这是应对内生性问题的主流方法;B3 为面板交互固定效应模型,主要用于反事实估计和长面板分析;B4 介绍非参数估计的核心思想,以及其在 RD,分仓回归和变系数模型中应用;B5 介绍 Lasso 及其在因果推断中应用,它们是应对高维数据和遗漏变量偏误主要工具。
2.2 专题介绍(高级班)
B1. 实证分析中假设检验方法 (3 小时)
近期的 Top 期刊越来越强调模型不确定性,比如:控制变量也有好坏之分、是否存在非线性特征、不同模型的优劣对比等。这就需要进行各类检验,以便排除各种「混杂因素」和「似是而非」的论述,让论文的研究结论具有排他性,经济含义也更为清晰明确。本专题包括假设检验的基本原理、模型筛选和对比检验,以及「不容易做好」的稳健性检验等内容。在介绍检验方法和命令的同时,重点在于如何解释它们的经济含义,如何选择合适的检验方法并采用合适的方式加以呈现和分析。在后续的专题中,会结合具体模型设定来讲解这些检验方法的变种的灵活运用。
系数的联合检验:Wald,LR,LM 检验 test
,testparm
,lincom
,nlcom
,testnl
结果的汇集与呈现 模型比较:嵌套模型比较、非嵌套模型比较 R2 分解和贡献度分析 系数差异检验:Chow 检验,SUR,Bootstrap,排序检验 内生性检验、稳健性检验、安慰剂检验 参考文献: Hansen B E . 2021. Econometrics. Princeton University Press. Data and Contents, PDF. Chap 9. Yan, G., & Chen, Q. (2023). synth2: Synthetic control method with placebo tests, robustness test, and visualization. The Stata Journal, 23(3), 597–624. Link, PDF, Google. 复现论文 Ye, D., Y. K. Ng, Y. Lian, 2015, Culture and happiness, Social Indicators Research, 123 (2): 519-547. -Link-, -PDF-, -cited-,-Replication- Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication- Lee, C.-C., Feng, Y., & Peng, D. (2022). A green path towards sustainable development: The impact of low-carbon city pilot on energy transition. Energy Economics, 115, 106343. Link (rep), PDF, Google. -Replication-
B2. IV 和 GMM (3 小时)
IV 的思想并不复杂,但想找到一个能说服审稿人的 IV 却往往是可遇不可求的事情。在横截面分析中确实如此。随着面板数据模型的快速发展,IV 的构造思路已经发生了很大的变化,「就地取材」、「差别反应」都是非常有用的构造思路。GMM 是估计动态面板的标准方法,它在投资方程、DSGE 等领域也是重要的估计方法。本讲以因果图为基础,介绍 IV,2SLS 和 GMM 的基本思想,辅以几篇经典论文的 Stata 实操。
IV 和 2SLS 估计的原理 GMM 估计的原理 假设检验:内生性、排他性 应用 1:动态面板数据模型 应用 2:Lasso-IV 参考文献: Hansen B E . 2021. Econometrics. Princeton University Press. Data and Contents, PDF. Chap 12-13. Lal, A., Lockhart, M., Xu, Y., & Zu, Z. (2024). How Much Should We Trust Instrumental Variable Estimates in Political Science? Practical Advice Based on 67 Replicated Studies. Political Analysis, 1–20. Link, PDF, -Appendix-, -Replication-, PDF+附录-260页, 复现文档 Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication- Acemoglu, D., & Restrepo, P. (2017). Secular Stagnation? The Effect of Aging on Economic Growth in the Age of Automation. American Economic Review, 107(5), 174–179. Link, PDF, -PDF2-, Google.
B3. 交互固定效应和因子模型 (3 小时)
交互固定效应模型和因子模型在高维数据分析和因果推断中扮演着尤为重要的角色。以面板数据 (二维数据) 为例,归属于同一个省份或行业的公司会受到一些共同因素 (common factors) 的影响,致使它们的行为表现出一定的相关性。在模型设定和统计推断中,若不考虑这些共同因素的影响,会导致遗漏变量偏误,或有偏的标准误。在因果推断中,「反事实」的构造和估计本质上是一个预测问题。除了随机森林、人工神经网络等方法外,因子模型和交互固定效应模型 (IFE) 虽然简单,但却具有很好的预测和外推能力,使其广泛应用于合成控制法、DID、RDD、回归控制法等模型。提出的「合成 DID, SDID」,以及 Arkhangelsky and Samkov (2024) 新近提出的「次序 SDID, Seq-SDID) 都是以 IFE 为基础的。
本讲从因子模型入手,介绍交互效应模型的设定、估计和检验方法,以及他们在因果推断中的典型应用。
共同因子和因子载荷 面板交互固定效应模型 (IFE) 的设定和估计方法 IV-IFE:工具变量估计法 因子个数的确定和分析 应用 1:回归控制法 应用 2:广义合成控制法 参考文献: Bai, J. 2009. Panel Data Models With Interactive Fixed Effects. (2009). Econometrica, 77(4), 1229–1279. Link (rep), PDF, Google. Bai, J., Liao, Y., & Yang, J. (2015). Unbalanced Panel Data Models with Interactive Effects. In The Oxford Handbook of Panel Data, ed. B. H. Baltagi, 149–170. Oxford:Oxford University Press, 149–170. Link, PDF, Google. Norkutė, M., Sarafidis, V., Yamagata, T., & Cui, G. (2021). Instrumental variable estimation of dynamic linear panel data models with defactored regressors and a multifactor error structure. Journal of Econometrics, 220(2), 416–446. Link, PDF, Google. Cui, G., Norkutė, M., Sarafidis, V., & Yamagata, T. (2021). Two-stage instrumental variable estimation of linear panel data models with interactive effects. The Econometrics Journal, 25(2), 340–361. Link, PDF, Google. -Replication- Kripfganz, S., & Sarafidis, V. (2021). Instrumental-variable estimation of large-T panel-data models with common factors. The Stata Journal, 21(3), 659–686. Link, PDF, Google. -cited- Arkhangelsky D, Athey S, Hirshberg D A, et al. Synthetic difference-in-differences[J]. American Economic Review, 2021, 111(12): 4088-4118. Link, -PDF- -Replicate- -Github- Ditzen, J., & Reese, S. (2023). xtnumfac: A battery of estimators for the number of common factors in time series and panel-data models. The Stata Journal , 23(2), 438–454. Link, PDF, Google. github Sul, D. Panel data econometrics: Common factor analysis for empirical researchers[M]. 2019. -Link-, -PDF-, Book-review, Codes-Stata/Gauss/Matlab, R-codes-readme Huang, W., Wang, Y., & Zhou, L. (2024). Identify latent group structures in panel data: The classifylasso command. The Stata Journal, 24(1), 46–71. Link, PDF, Google. Yan, G., & Chen, Q. (2022). rcm: A command for the regression control method. The Stata Journal, 22(4), 842–883. Link, PDF, Google.
B4. 非参数和半参数估计 (NP-SNP) (3 小时)
我们经常看到「非参数 (NP)」这个名词,他经常与各种因果推断方法结伴而行,如 NP-SCM (合成控制法), NP-IFE (交互固定效应) ……。然而,当自己痛下决心准备学习 NP 的时候,发现由于受传统参数模型 (主要是线性回归) 的「毒害」太深,往往难以理解核函数、带宽等概念,也常常困惑于这样的问题:“没有参数?那我们要估计什么?”。
事实上,你只需稍稍转变一下思路即可理解 NP 的精髓。很多情况下我们需要估计的是「条件期望值 」,而不是「 与 的关系」。在因果推断中, 往往就是 的反事实结果。我们可以采用算术平均、加权平均、匹配等多种方式获取 ,而无需预先设定 的具体函数形式,也就不再需要估计参数 。
这种方式大幅降低了模型误设的风险,更能体现「让数据说话」的理念,在变系数模型、断点回归 (RDD)、聚束估计 (Bunching)、合成控制法 (SCM)、双重纠偏机器学习 (DDML) 等诸多因果推断方法中得到了广泛的应用。
分布函数和密度函数 核函数 局部线性回归 局部多项式回归 部分线性模型 (PLS) 应用 1:断点回归分析 (RDD) 应用 2:分仓散点图 ( binscatter
),分仓回归 (binsreg
)应用 3:面板函数系数模型 (系数平滑渐变) 参考文献: Cattaneo, M. D., Crump, R. K., Farrell, M. H., & Feng, Y. (2024). On Binscatter. American Economic Review, 114(5), 1488–1514. Link, PDF, Appendix, Google, -Replication-, github, Slides Cattaneo, Crump, Farrell and Feng (2024): Binscatter Regressions. Stata Journal, Forthcoming. Du, K., Zhang, Y., & Zhou, Q. (2020). Fitting partially linear functional-coefficient panel-data models with Stata. The Stata Journal, 20(4), 976–998. Link, PDF, Google. -cited-, -Github- 复现文档 Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication- Chen Yu, S. Shi, Y. Tang. 2019, Valuing the urban hukou in China: Evidence from a regression discontinuity design for housing prices. The Journal of Development Economics, 141 (2019) 102381. -Link-,-PDF- Du, K., Cheng, Y., & Yao, X. (2021). Environmental regulation, green technology innovation, and industrial structure upgrading: The road to the green transformation of Chinese cities. Energy Economics, 98, 105247. Link (rep), PDF, -Replication-, Google. Du, C., Cao, Y., Ling, Y., Jin, Z., Wang, S., & Wang, D. (2024). Does manufacturing agglomeration promote green productivity growth in China? Fresh evidence from partially linear functional-coefficient models. Energy Economics, 131, 107352. Link (rep), PDF, Google. -Replication-
B5. Lasso 和基于机器学习的因果推断 (6 小时)
提及机器学习,市面上流行的教科书都会依序讲解十几种常用的方法,诸如判别分析、随机森林、神经网络、支持向量机等,但对于经济、金融领域而言,最为常用的是以 Lasso 为核心的惩罚回归,因为它具有变量筛选的功能,在因果推断中主要用于应对遗漏变量问题。同时,由于其估计过程中已经考虑到了样本外预测效果,因此也可以作为构造「反事实」的有效工具,在政策学习、政策优化中也得到了广泛应用。为此,很多因果推断方法都会纳入 Lasso,如 Lasso-SCM (合成控制法),Lasso-IV,double maching learning (DML) 等。虽然 Lasso 在技术上有一定的复杂度,但其基本思想却容易接受,Stata 中的实操也非常方便。
高维数据/大数据的挑战 偏差-方差权衡 岭回归、Lasso、弹性网、自适应 Lasso 扩展 Lasso 模型 adaptive Lasso IV - Lasso Post - Lasso Double robust regression (DR) Double/Debiased Machine Learning (DDML) 交叉验证 应用: Lasso-IV 估计:弱工具变量问题 DDML: 解决遗漏变量偏误 参考文献: Chernozhukov, Victor, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, and Whitney Newey. 2017. "Double/Debiased/Neyman Machine Learning of Treatment Effects." American Economic Review, 107 (5): 261-265. -Link-, -PDF-, -Replication-R, -2- Chernozhukov, V., D. Chetverikov, M. Demirer, E. Duflo, C. Hansen, W. Newey,J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters, The Econometrics Journal, 21 (1): C1-C68. -Link-, -PDF-, Replication Ahrens, A., Hansen, C. B., Schaffer, M. E., & Wiemann, T. (2024). ddml: Double/debiased machine learning in Stata. The Stata Journal, 24(1), 3–45. Link, PDF, Google. Ahrens, A., Hansen, C. B., & Schaffer, M. E. (2023). pystacked: Stacking generalization and machine learning in Stata. The Stata Journal, 23(4), 909–931. Link, PDF, Google. Ahrens, A., Hansen, C. B., & Schaffer, M. E. (2020). lassopack: Model selection and prediction with regularized regression in Stata. The Stata Journal, 20(1), 176–235. Link, PDF, Google. -PDF-, 程序更新到了 2024.2, ssc des lassopack
Ahrens, A., Hansen, C. B., Schaffer, M. E., & Wiemann, T. (2024). Model averaging and double machine learning. arXiv Working Paper. Link, PDF Dallakyan, A. (2022). graphiclasso
: Graphical lasso for learning sparse inverse-covariance matrices. The Stata Journal, 22(3), 625–642. Link, PDF, Google.Chiang, H. D., Kato, K., Ma, Y., & Sasaki, Y. (2022). Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), 1046–1056. Link, PDF, Google. 推文 Dhar, D., Jain, T., & Jayachandran, S. (2022). Reshaping Adolescents’ Gender Attitudes: Evidence from a School-Based Experiment in India. American Economic Review, 112(3), 899–927. Link (rep), PDF, Appendix, Google. -Replication-Stata, -cited-
✨ 3. 前沿班
时间:2025 年 1 月 21-24 日 (四天) 方式:网络直播 + 30 天回放 授课嘉宾:杨海生 (中山大学) 授课安排 授课方式:提供全套 R + Stata 程序、数据和核心论文复现资料 (开课前一周发送)。 授课时间:上午 9:00-12:00,下午 14:30-17:30 (17:30-18:00 答疑)。 全程答疑:由 10 位经验丰富的同学组成的助教团队会在课程群中全程答疑,并对答疑接龙文档进行详细的记录和分类,公布于 课程主页。 课程详情:https://www.lianxh.cn/PX.html 往期板书和答疑:https://gitee.com/arlionn/PX/wikis PDF 课纲:https://file.lianxh.cn/KC/lianxh_PX.pdf 预读资料:-点击下载参考文献- | Text Books 报名链接:https://www.wjx.top/vm/Ot5g7G4.aspx#
主讲嘉宾
杨海生,中山大学岭南学院经济学系副教授,主要研究领域为政策评估、AI 与资产定价、大数据与经济预测、系统性金融风险。在 ACM Computing Surveys, Expert Systems With Applications, Economic Geography, Pacific-Basin Finance Journal, Ecological Economics, Journal of International Financial Markets, Institutions & Money, Emerging Markets Review, Economic Modelling, Journal of Asian Economics, 《经济研究》, 《管理世界》, 《经济学(季刊)》, 《管理科学学报》, 《金融研究》, 《会计研究》, 《世界经济》, 《系统工程理论与实践》等国内外权威学术刊物上发表论文 40 余篇,主持和参与多项国家自然科学基金、广东省自然科学基金等课题研究。
3.1 课程提要
本期课程引入了多个政策评价的新方法和工具。这些方法不仅能够有效估计和检验政策效果,还能深入其作用机制,评估政策的公平性,及其在不同情境中的可迁移性。这些分析手段能够大幅扩展政策评价类研究的分析视角和研究深度。核心内容如下:
解锁政策影响的定量密码
遗漏变量检验 | 排他性检验 安慰剂检验 | 平行趋势检验 纽曼正交框架下的 DID | 匹配框架下的 DID | 多期 DID 揭示政策作用的内在机制
调节变量选择 | 调节效应检验 | 双重纠偏拉索估计 有效中介识别 | 逐步检验法 | 两阶段工具变量法 因果路径分析 | 连续型中介变量 | 多重中介检验 政策优化的智能革命
考虑时点与个体的政策学习:政策强化学习 考虑网络的政策学习:溢出效应和同伴效应 考虑市场均衡的政策优化 | 兼顾效率与公平的政策优化 多臂 Qini 曲线 | 非参数因果推断 课程安排
Day 1: 遗漏变量检验 | 排他性检验 | 安慰剂检验 | 平行趋势检验 Day 2: 纽曼正交框架下的 DID | 匹配框架下的 DID | 多期 DID Day 3: 影响机制检验 | 多重中介检验 | 因果路径分析 Day 4: 政策绩效评估 | 政策学习 | 政策优化
3.2 课程导引
近年来,政策评估领域的研究重心已发生深刻转变:研究者不再满足于回答「政策是否有效?」,而是更加关注「政策为何有效?」以及「如何进一步优化?」、「如何兼顾政策的公平性?」。然而,现有研究工具在应对复杂调节效应、解析政策作用机制,以及优化政策设计时,往往显得力不从心。本课程立足于最新的定量分析工具,旨在帮助学员突破传统研究的局限,深入剖析政策的影响机制,实现智能化的政策优化,为提升诸位的学术研究水平、发表高质量论文提供有力支持。
本课程将系统深入地讲解政策影响的定量分析、政策作用机制的剖析,以及政策学习与优化的前沿方法和工具。通过学习,学员可以更好地理解政策的深层次作用机理,并将这些方法运用到实际研究中,进一步推动政策设计和优化。
我们将重点探讨以下 4 个关键问题:
Q1. 如何避免在政策评估中遗漏关键变量,确保评估的准确性?
在政策评估中,尤其是「多期政策干预」或「多个处理变量并存」的场景中,我们经常面临遗漏关键变量问题。例如,多期 DID 模型中,不同阶段的政策可能相互影响,而遗漏关键变量会导致政策效果估计存在严重偏误。此时,借助「遗漏变量检验」,我们可以识别那些未被观察到但可能对结果产生重要影响的因素;而「排他性检验」则能够有效避免多个处理变量之间的“污染效应”(如补贴和税收政策的交叉影响),确保每个变量的独立影响被准确估计,如在多阶段政策干预时分离各阶段的政策效应。
Q2. 平行趋势检验与安慰剂检验到底有多关键?如果忽视这些检验,会带来哪些隐患?
平行趋势和安慰剂检验是确保 DID 估计有效的核心。然而,现有的平行趋势检验在应对复杂场景时存在诸多局限,尤其是在面对时间趋势变化(如经济周期)、引入控制变量(如个体特征和环境因素)以及多期政策干预(如分阶段实施的政策)时,容易失效。原因在于,现有方法多以只能事后验证,无法在事前判断是否满足平性趋势假设,这可能导致政策效果估计出现偏误。本课程将引入一些新进提出的平行趋势和安慰剂检验方法,以便在复杂样本(如多群体异质性)和多维数据场景(如多个调节变量和交互效应)中,更精准地识别政策效应,实现更稳健的政策评估。
Q3. 在复杂政策环境下,如何识别有效渠道变量并评估其相对重要性?
在目前的多数研究中都只有一个调节变量,然而,在有些复杂的政策环境中,我们需要对比分析多个渠道变量(如收入水平、营商环境)对政策效果的调节作用。通过调节效应分析和调节项选择工具,我们可以在高维数据和异质性情境中(如多期政策或多群体差异)自动识别和筛选出显著的调节变量,并通过效应纠偏方法确保估计的准确性。
另一个重要的分析工具是:多重中介检验。它可以分析处理变量通过多个中介机制影响结果的过程和路径。可以借助 Sequential G-estimation 方法估计不同中介变量对结果变量的直接和间接效应,以揭示不同机制之间的关联性 (协同效应) 及其相对重要性。例如,我们可以借此评估「环境保护法」通过污染物减排、绿色创新、产业结构转型、排污权交易等多种机制对环境质量等影响,而重点在于分析这些机制的协同作用和相对重要性。
Q4. 如何利用政策学习在多变的政策环境中实现动态优化?
随着政策复杂度和环境动态性的增加,传统的静态优化方法已难以满足政策的实时调整需求。本课程将通过引入「政策强化学习」,掌握如何在政策实施过程中,利用数据反馈进行动态优化,这在应对 个体异质性、时间异质性 和 网络效应 等复杂情境中非常有用。这一方法能够最大化长期回报,并为我们提供一套在变化中作出最优决策的分析工具。此外,课程还将探索市场均衡状态下的政策效应及其优化策略,借助「多臂 Qini 曲线」和「非参数因果推断」来评估和比较不同政策的效果,从而设计出既能确保市场稳定性,又能最大化经济和社会效益的政策。
本次课程内容的设置以回答上述问题为目标,紧贴政策研究中的现实挑战。我期望大家能学会利用这些最新的工具来提升自己的研究,解决在政策评估、机制分析和政策优化方面的困惑。课程中会使用一些顶刊的案例,通过复现和实操,帮助大家理解原理,并真正「用起来」!
3.3 课程详情
T1:政策效果的定量识别与评估(Day 1 + Day2)
遗漏变量检验 传统遗漏变量检验(Oyster,2019) 不变因果预测(Invariant causal prediction)(Kook et al., 2024) 双重有效/双重尖锐(Doubly-Valid/Doubly-Sharp)、敏感性分析(Dorn et al.,2024) 基于模型辅助的敏感性分析(Tan,2024) 排他性检验(Goldsmith et al.,2022) 平行趋势检验 传统平行趋势检验 Event Study(Freyaldenhoven et al.,2021;Roth,2022) Treeffuser(Beltran-Velezet al.,2024) 安慰剂检验 DID的新范式 TWFE与标准DID(Wooldridge, 2021) 纽曼正交框架下的DID(包括TWFE,DRDID,DML,GRF, Npcausal)(Sant & Zhao,2020;Kennedy et al.,2023) 匹配框架下的DID(包括:PSM-DID,SDID,WGAN)(Athey et al.,2021) 多期DID(包括:CSDID,动态IPW,RIPW)(Arkhangelsky et al.,2021;Callaway & Sant,2021;Goodman-Bacon,2021;van den Berg & Gerard,2022)
参考文献:
以下是处理后的完整引文信息:
Boileau, P., Leng, N., Hejazi, N. S., Van Der Laan, M., & Dudoit, S. (2024). A nonparametric framework for treatment effect modifier discovery in high dimensions. Journal of the Royal Statistical Society Series B: Statistical Methodology. Link, PDF, Google.
Beltran-Velez, N., Grande, A. A., Nazaret, A., Kucukelbir, A., & Blei, D. (2024). Treeffuser: Probabilistic Predictions via Conditional Diffusions with Gradient-Boosted Trees (Version 2). arXiv. Link (rep), PDF, Google.
Chang, H., Middleton, J. A., & Aronow, P. M. (2024). Exact Bias Correction for Linear Adjustment of Randomized Controlled Trials. Econometrica, 92(5), 1503–1519. Link (rep), PDF, Google.
Di Giuli, A., & Laux, P. A. (2022). The effect of media-linked directors on financing and external governance. Journal of Financial Economics, 145(2), 103–131. Link (rep), PDF, Google.
Dorn, J., Guo, K., & Kallus, N. (2024). Doubly-Valid/Doubly-Sharp Sensitivity Analysis for Causal Inference with Unmeasured Confounding. Journal of the American Statistical Association, 1–12. Link, PDF, Google.
Guo, X., Li, R., Liu, J., & Zeng, M., 2022. High-Dimensional Mediation Analysis for Selecting DNA Methylation Loci Mediating Childhood Trauma and Cortisol Stress Reactivity. Journal of the American Statistical Association, 117(539), 1110-1121. Link, PDF, Google.
Guo, Z., Ćevid, D., & Bühlmann, P.,2022. Doubly debiased lasso: High-dimensional inference under hidden confounding. Annals of Statistics, 50(3), 1320.Link, PDF, Google.
Imai, K., Keele, L., & Yamamoto, T. (2010). Identification, inference and sensitivity analysis for causal mediation effects. Statistical Science, 25(1), 51-71. Link, PDF, Google.
Kook, L., Saengkyongam, S., Lundborg, A. R., Hothorn, T., & Peters, J. (2024). Model-Based Causal Feature Selection for General Response Types. Journal of the American Statistical Association, 1–12. Link, PDF, -PDF2-, Google.
Lin, Y., Windmeijer, F., Song, X., & Fan, Q. (2024). On the instrumental variable estimation with many weak and invalid instruments. Journal of the Royal Statistical Society Series B: Statistical Methodology, qkae025. Link, PDF, Google.
Ouyang, J., Tan, K. M., & Xu, G. (2023). High-dimensional inference for generalized linear models with hidden confounding. The Journal of Machine Learning Research, 24(1), 14030-14090. Link, PDF, Google.
Zhou, X. (2022). Semiparametric Estimation for Causal Mediation Analysis with Multiple Causally Ordered Mediators. Journal of the Royal Statistical Society Series B: Statistical Methodology, 84(3), 794–821. Link, PDF, Google.
Zhou, X., & Yamamoto, T., 2023. Tracing causal paths from experimental and observational data. The Journal of Politics, 85(1), 250-265.Link (rep), PDF, Appendix, Google.
遗漏变量是因果推断中的常见问题,若未能有效识别,可能会导致政策效果的偏差估计。本专题将介绍几种前沿的遗漏变量检验方法,帮助研究者解决这一难题,并确保政策效果估计的准确性。
首先,我们将讨论传统遗漏变量检验(Oyster, 2019)以及它在处理因果关系复杂场景中的局限性。Q1.在复杂的政策环境中,如何识别未观测的关键变量?(如教育政策在不同社会经济背景下的差异)。为应对这一挑战,不变因果预测(Invariant Causal Prediction)(Kook et al., 2024)通过在多个环境下寻找因果关系的稳定性,帮助识别可能被忽略的关键变量,特别适用于跨区域政策分析(如跨城市的住房政策)。接着,双重有效/双重尖锐(Doubly-Valid/Doubly-Sharp)敏感性分析模型(Dorn et al., 2024)通过构建双重稳健估计,即使部分模型假设失效,依然能准确估计政策效果。Q2.在模型设定偏差或高维数据中,如何确保估计结果的稳健性?(如公共卫生政策在多个变量干扰下的效果评估)。同时,基于模型辅助的敏感性分析(Tan, 2024)结合了倾向评分和结果均值回归模型,解决了未观测混杂因素带来的偏差问题,适合高维数据和复杂模型的因果推断
此外,针对处理多个政策干预的情境,本专题还将介绍排他性检验(Goldsmith et al., 2022),Q3.在存在多个政策干预时,如何避免变量间的相互污染?(如同时进行的经济刺激政策和税收政策对经济增长的影响)。排他性检验确保多个处理变量独立,从而防止政策效果估计中的交叉干扰,特别适用于多期、多政策场景下的政策分析。
通过本专题的第一天学习,学员将能够回答以下关键问题:如何应对高维数据中的遗漏变量问题?如何在复杂环境下提高因果推断的稳健性?如何确保多期政策干预的独立性?这些工具将帮助学员更好地理解和应用遗漏变量检验与排他性检验,为政策评估提供更为精准和全面的分析。
双重差分(DID)方法是政策分析中的重要工具,但它的准确应用依赖于若干基本假设,特别是平行趋势假设。为了确保政策评估的准确性,我们需要提前判断研究对象和样本是否满足这些假设,尤其是平行趋势检验和安慰剂检验的应用条件。本专题将探讨各种前沿方法,帮助学员在复杂数据情境下提高政策评估的准确度和稳健性。
首先,平行趋势假设要求处理组和对照组在政策实施前必须有相同的趋势。Q1.如何做「事后的」平行趋势检验,并确保政策实施前的平行趋势假定成立? 在传统的平行趋势检验中,这一假设通常只做事前检验,但在现实场景中,政策实施前的时间趋势可能具有复杂的动态结构。事件研究法(Event Study)(Freyaldenhoven et al., 2021;Roth, 2022)通过多个时间窗口捕捉政策前后的动态趋势,能够灵活处理多期数据和复杂时间趋势问题。Q2.在存在时间趋势的情况下,平行趋势检验满足时是否就能得到ATT? 事件研究法不仅可以检测不同时间窗口中的政策影响,还可以避免因非线性趋势或数据异质性导致的偏差,提供更精细的政策效果估计。
进一步提升平行趋势检验能力的工具是Treeffuser模型(Beltran-Velez et al., 2024),它通过决策树框架对政策前后的非线性趋势进行建模,特别适用于多维数据和复杂因果关系的场景。Treeffuser在处理多个政策变量时,能够捕捉到变量之间的交互效应并提供更灵活的检验方式,适用于复杂环境下的平行趋势检验。
随后,我们将介绍安慰剂检验,用于评估政策效果的真实性。Q3.如何通过安慰剂检验验证政策效果不是由外部因素导致?(如社会福利政策的效果验证)。安慰剂检验通过引入虚拟干预来验证结果的鲁棒性,确保外部冲击未对政策效果产生干扰。
接下来,我们将深入介绍DID的新范式,并厘清TWFE与标准DID的关系(Wooldridge, 2021),特别是当数据结构复杂或模型形式未知时,如何应用更先进的技术准确估计政策效应。纽曼正交框架下的双重稳健DID(DRDID)、双重机器学习(DML)、广义随机森林(GRF)和非参数因果推断(Npcausal)(Sant & Zhao, 2020;Kennedy et al., 2023)将通过先进的机器学习技术处理高维数据与复杂模型的因果推断问题。帮助我们解决Q4当处理组和对照组存在异质性时,如何提高DID的稳健性?(如不同地区的经济政策对就业率的影响)。
针对匹配框架下的DID,我们将介绍PSM-DID、SDID和WGAN(Athey et al., 2021)。这些方法通过更加精确的匹配或合成控制组,有助于减少控制组中的偏差,从而提升政策效果估计的精确度。Q5.如何通过合成控制组和匹配框架提高DID的估计精度?(如医疗政策对不同病患群体的影响)
最后,我们将讨论多期DID(包括CSDID、动态IPW、RIPW)在长期政策实施中的应用(Arkhangelsky et al., 2021;Callaway & Sant, 2021)。多期政策效果的估计常常面临处理组非随机分配和时间不一致性的问题,Q6.当政策实施时间彼此相关时,如何进行多期DID估计,并处理政策效应的异质性?(如教育改革对不同年级学生的长期影响)。这些方法能够帮助研究者在处理多期数据和复杂政策效果时进行更加灵活和稳健的估计。
通过第二天的学习,学员将深入掌握如何在不同情境下应用平行趋势检验、安慰剂检验和DID的新范式,确保政策效果的稳健评估与准确估计。
T2. 政策机制的深层解析与因果路径分析(Day3)
调节效应检验
调节变量筛选(Boileau et al.,2024) 调节效应估计(Chang et al.,2024) 中介效应检验
传统检验方法的可行性分析:逐步检验法、敏感性分析(Imai et al.,2010)、两阶段工具变量法(Di Giuli & Laux,2022) 双重纠偏拉索估计:线性模型(Guo et al.,2022AoS),广义线性模型(Ouyang et al.,2023) 多重中介检验
有效中介识别检验(Guo et al.,2022JASA) 因果路径分析(Zhou,2022;Zhou & Yamamoto,2023) 连续型处理变量下的中介效应分析(Lin et al.,2024)
参考文献:
Boileau, P., Leng, N., Hejazi,N. S., van der Laan, M., & Dudoit, S. 2024. A nonparametric framework fortreatment effect modifier discovery in high dimensions. Journal of the RoyalStatistical Society Series B: Statistical Methodology, qkae084.
Chang, H., Middleton, J. A.,& Aronow, P. M. 2024. Exact bias correction for linear adjustment ofrandomized controlled trials. Econometrica, 92(5), 1503-1519.
Di Giuli, A., & Laux, P. A., 2022. The effect of media-linked directors on financing and external governance. Journal of Financial Economics, 145(2), 103-131.Link (rep), PDF, Google
Guo, X., Li, R., Liu, J., & Zeng, M., 2022. High-Dimensional Mediation Analysis for Selecting DNA Methylation Loci Mediating Childhood Trauma and Cortisol Stress Reactivity. Journal of the American Statistical Association, 117(539), 1110-1121. Link, PDF, Google.
Guo, Z., Ćevid, D., & Bühlmann, P.,2022. Doubly debiased lasso: High-dimensional inference under hidden confounding. Annals of Statistics, 50(3), 1320.Link, PDF, Google.
Imai, K., Keele, L., & Yamamoto, T. (2010). Identification, inference and sensitivity analysis for causal mediation effects. Statistical Science, 25(1), 51-71. Link, PDF, Google.
Lin, Y., Windmeijer, F., Song, X., & Fan, Q. (2024). On the instrumental variable estimation with many weak and invalid instruments. Journal of the Royal Statistical Society Series B: Statistical Methodology, qkae025. Link, PDF, Google.
Ouyang, J., Tan, K. M., & Xu, G. (2023). High-dimensional inference for generalized linear models with hidden confounding. The Journal of Machine Learning Research, 24(1), 14030-14090. Link, PDF, Google.
Zhou, X. (2022). Semiparametric Estimation for Causal Mediation Analysis with Multiple Causally Ordered Mediators. Journal of the Royal Statistical Society Series B: Statistical Methodology, 84(3), 794–821. Link, PDF, Google.
Zhou, X., & Yamamoto, T., 2023. Tracing causal paths from experimental and observational data. The Journal of Politics, 85(1), 250-265.Link (rep), PDF, Appendix, Google.
在政策效果评估中,准确识别政策的传导机制及其调节因素,是揭示政策效果的核心挑战之一。本专题将围绕调节效应分析和中介效应检验,为学员提供系统的工具,帮助理解政策作用的复杂路径,并提供相应的实证方法。
首先,我们将聚焦于调节效应检验。政策效果往往受到不同群体或环境的调节,理解这些调节因素对于准确评估政策效应至关重要。Q1.如何在复杂的高维数据中自动识别出关键的调节变量? 如借鉴Boileau et al.(2024),筛选合适调节变量,进而评估环境政策在不同污染水平下的效果。Q2.在不同调节因素存在时,如何估计其对政策效果的相对重要性? (Chang et al., 2024)比如用于衡量教育政策在不同收入群体中的影响。这些工具将帮助学员在多期政策或多群体异质性背景下,精准评估政策效果的差异性与敏感性。
其次,我们将深入探讨中介效应检验,即分析政策通过哪些中介渠道发挥作用。学员将学习逐步检验法、敏感性分析(Imai et al., 2010)及两阶段工具变量法(Di Giuli & Laux, 2022)等传统方法的优劣,并思考:Q3.如何应对中介变量内生性带来的估计偏差? (如就业政策如何通过培训项目提升就业率,但受限于参与意愿的内生性问题)。为此,我们引入双重纠偏拉索(DDL)估计(Guoet al., 2022AoS),该方法适用于线性模型和广义线性模型(Ouyanget al., 2023),并有效解决内生性问题。
在应对多重中介检验方面,学员将学习如何识别和评估多个中介变量之间的相互作用?Guoet al., 2022JASA)。通过因果路径分析(Zhou, 2022;Zhou & Yamamoto, 2023),我们将追踪不同机制对政策效果的影响,回答Q4.不同中介路径之间的关联性和相对重要性如何量化?(如最低工资政策通过收入和工作满意度对就业的共同影响)。此外,连续型处理变量下的中介效应分析*Linet al., 2024)将拓展学员处理政策强度具有连续变化的情景(如税率变化对消费行为的渐进影响)的能力,进一步丰富中介效应的应用场景。
通过本专题,学员将掌握如何在多维数据和复杂机制下,精确分析政策的调节与中介效应,全面理解政策的作用路径与影响深度,进而为优化和调整政策设计提供强有力的支持。
T3. 政策优化的智能化策略与动态决策方法(Day4)
政策学习 考虑个体异质性的政策学习(Athey & Wager,2021) 考虑时点和个体异质性:强化学习(Bian et al.,2024) 考虑网络下的溢出效应的政策学习(Viviano,2024) 市场均衡状态政策效应(Munro et al.,2021) 政策公平性评价(Fair Policy)(Viviano & Bradic,2023) 多臂Qini曲线(Multi-Armed QiniCurve)(Sverdrup et al.,2023) 连续Treatment(Kennedy et al., 2017;Colangelo & Lee,2023;Xu & Tan,2024)
参考文献:
Athey, S., & Wager, S., 2021. Policy learning with observational data. Econometrica, 89(1), 133-161.Link, PDF, Google. Bian, Z., Shi, C., Qi, Z., & Wang, L. (2024). Off-Policy Evaluation in Doubly Inhomogeneous Environments. Journal of the American Statistical Association, 1–27. Link, PDF, -PDF2-, Google. Munro, E., Wager, S., & Xu, K., 2021. Treatment effects in market equilibrium. Working Paper, arXiv preprint arXiv:2109.11647.Link, PDF, Google. Sverdrup, E., Wu, H., Athey, S., & Wager, S., 2023. Qini Curves for Multi-Armed Treatment Rules. Working Paper, arXiv preprint arXiv:2306.11979.Link, PDF, Google. Viviano, D., & Bradic, J., 2023. Fair policy targeting. Journal of the American Statistical Association, 1-14.Link, PDF, Google. Viviano, D. (2024). Policy Targeting under Network Interference. Review of Economic Studies. Link (rep), PDF, Google. Kyle Colangelo & Ying-Ying Lee,2023. Double Debiased Machine Learning Nonparametric Inference with Continuous Treatments. Econometrics,Link, PDF, Google. Xu, W., & Tan, Z. (2024). High-dimensional model-assisted inference for treatment effects with multi-valued treatments. Journal of Econometrics, 244(1), 105852. Link, PDF, Google.
在复杂、多变的政策环境下,如何实现动态和精准的政策优化,是当今研究者面临的关键挑战。传统的静态政策优化方法无法应对个体异质性、时间变化和网络溢出效应等现实问题。本专题将聚焦于政策学习技术,帮助研究者通过动态调整政策决策实现最优效果。
首先,Athey & Wager (2021)提出的基于个体异质性的政策学习为我们提供了应对不同群体差异的工具。Q1.如何在政策影响不均的情况下找到最优的政策决策? (例如,医疗补贴政策在不同收入群体中的效果差异)。通过政策学习,研究者能够根据不同个体的特征和反应,设计出更为精准的干预措施,确保资源的有效利用。
接下来,Bian et al. (2024)的强化学习方法是本专题的核心内容之一。强化学习通过不断的反馈和数据更新,帮助研究者在复杂的政策环境中做出动态优化决策Q2.如何通过实时数据反馈动态优化政策? (例如,医保政策随着病人健康状况变化而进行的自动调整)。与传统方法不同,强化学习不仅能够适应政策环境中的复杂性(如个体异质性和时间波动),还能够通过学习过程逐步改善政策效果,最大化长期收益。特别是在面对长期实施的政策(如养老金政策)时,强化学习能够根据历史数据实时优化决策,确保政策效果的持续改善。
此外,Viviano (2024)的研究重点在于考虑网络溢出效应的政策学习,解决了个体之间相互影响的问题。Q3.如何在存在溢出效应时准确评估政策效果? (如住房政策对邻近区域房价的溢出效应)。通过网络政策学习,研究者可以更精准地识别和控制这些溢出效应,避免政策影响被高估或低估。
市场均衡状态下的政策效应评估(Munro et al., 2021)将探讨在存在溢出效应的复杂市场环境中,如何评估政策对个体和整体市场的影响。传统因果推断依赖SUTVA假设,但在现实场景中(如企业投资或地方政府政策)个体之间存在相互影响,无法满足这一假设。Q4.如何在政策影响下估计市场中的直接和间接效应? (如环保政策对企业生产和市场价格的双重影响)。Munro et al. (2023) 提出的模型通过区分直接处理效应(ADE)和间接处理效应(AIE),评估政策对个体自身和其他个体的传导效应,并提出了最优政策目标规则,帮助研究者在保持市场均衡的前提下实现政策优化。本专题将通过实例展示如何在R中实现这一模型。
同时,政策的公平是优化中的另一关键问题。Viviano & Bradic (2023)提出的政策公平性评价模型,帮助研究者在优化政策效果的同时兼顾公平性。Q5.如何确保政策在不同群体间的公平分配? (如税收政策在不同收入群体中的公平性问题)。此外,本专题还将介绍多臂Qini曲线(Sverdrup et al., 2023),为评估和比较不同政策措施的边际效益提供了一种直观有效的工具。通过多臂Qini曲线,研究者可以识别出在特定时间节点或周期内表现最优的政策措施,最大化资源分配效益。
最后,针对连续处理变量(Kennedy et al., 2017;Colangelo & Lee, 2023;Xu & Tan, 2024)的政策优化,本专题将展示如何通过非参数因果推断方法,细化政策效果评估,尤其是在处理变量为连续变量的场景下(如碳税税率或补贴金额)。这些方法将帮助学者在更复杂的政策情境下实现灵活、精准的政策决策。
通过本专题的学习,学员将掌握如何利用强化学习等政策学习以及其他前沿工具,在面对复杂、多变的政策环境时,实现动态决策,最大化政策效果,并确保决策的公平性与资源的高效利用。
最后的话
需要特别强调的是,自我提升从来都不是件轻松的事情。因此,在开课之前,大家务必认真研读每一篇论文,了解其研究背景、研究思路、计量方法和主要结论,带着问题听课。同时,也建议大家在开课前务必掌握文献的检索方法,学会使用文献管理和笔记工具,以便追踪每篇论文的后续进展,发掘新的研究主题。
4. 报名和缴费信息
主办方:太原君泉教育咨询有限公司
标准费用
初级班:2900 元/人 高级班:3600 元/人 前沿班:4600 元/人 单班报名优惠方案:
专题课老学员单班报名:9 折 学生(需提供学生证/卡照片):9 折 会员单班报名:85 折 组合报名优惠价:
初级+高级:5400 元/人 初级+前沿:6200 元/人 高级+前沿:6800 元/人 全程班报名:9000 元/人 温馨提示:以上各项优惠不能叠加使用。
联系方式:
邮箱:wjx004@sina.com 王老师:18903405450 (微信同号) 李老师:18636102467 (微信同号)
报名链接: https://www.wjx.top/vm/Ot5g7G4.aspx#
⏩ 长按/扫描二维码报名:
缴费方式
方式 1:对公转账
户名:太原君泉教育咨询有限公司 账号:35117530000023891 (山西省太原市晋商银行南中环支行) 温馨提示: 对公转账时,请务必提供「汇款人姓名-单位」信息,以便确认。
方式 2:扫码支付
温馨提示:
可以使用已经绑定公务卡的微信/支付宝/云闪付等扫码付款 微信转账时,请务必在「添加备注」栏填写「汇款人姓名-单位」信息。 扫码支付后,请将「付款记录」截屏发给王老师-18903405450(微信同号)
5. 听课指南
5.1 软件和课件
听课软件:支持手机,ipad ,平板以及 windows/Mac 系统的笔记本,但不支持台式机以及 Surface 平板式电脑
特别提示:
为保护讲师的知识产权和您的账户安全,系统会自动在您观看的视频中嵌入您的「用户名」信息。 一个账号绑定一个设备,且听课电脑不能外接显示屏,请大家提前准备好自己的听课设备。 本课程为虚拟产品,一经报名,不得退换。 为保护知识产权,课程不允许以任何形式录屏及传播。
5.2 实名制报名
本次课程实行实名参与,具体要求如下:
高校老师/同学报名时需要向连享会课程负责人 提供真实姓名,并附教师证/学生证图片; 研究所及其他单位报名需提供 能够证明姓名以及工作单位的证明; 报名即默认同意「」。
6. 助教招聘
说明和要求
名额: 30 名 (初级、高级和前沿班各 10 名)
A. 课前准备:协助完成 2 篇介绍 Stata 或 Python 或 R 语言 和计量经济学基础知识的文档,可以在 这里 查看推荐选题,风格类似于 lianxh.cn ; B. 开课前答疑:协助学员安装课件和软件,在微信群中回答一些常见问题; C. 上课期间答疑:针对前一天学习的内容,在微信群中答疑 (8:00-9:00,19:00-22:00); Note: 下午 5:30-6:00 的课后答疑由主讲教师负责。 要求: 热心、尽职,熟悉 Stata 或 R 语言 的基本语法和常用命令,能对常见问题进行解答和记录。 特别说明: 往期按期完成任务的助教可联系连老师直录。 截止时间: 2024 年 12 月 18 日 (将于 12 月 20 日公布遴选结果于 连享会主页 lianxh.cn)
申请链接: https://www.wjx.top/vm/eSAFEBa.aspx#
扫码填写助教申请资料:
课程详情: https://www.lianxh.cn/PX.html