👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:最新专题 | 计量专题 | 关于连享会
🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)
课程特色 · 2024机器学习与因果推断:
懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。
作者:钟经樊 (台湾中央研究院 经济研究所)
编者按:这篇文章是我的博士导师钟经樊研究员二十年前写的,今天整理文件时翻出来,细细读来,发现文中的诸多建议依然很有价值。
—— by 连玉君2022.12.23
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 前期规划
2. 计量方法的执行
3. 报告的写作
4. 一些注意事项
学习计量经济学的最后目的是为进行实证研究,但对初学计量经济学的人而言,要写一篇有实证研究的报告或论文时常有不知如何着手的感觉,这里我便对实证研究的规划以及论文的写作做一些粗浅的建议。
1. 前期规划
广泛收集参考文献,决定计划的目的和范畴: 决定所要解释的现象是什么? 决定所要检验的假设或理论是什么? 决定所要预测的趋势是什么? 决定所要评估的政策是什么? 建构实证计量模型; 除研读相关经济理论之外,应比较三至五篇有实证分析之文献中的实证计量模型: 确认计量模型中解释变量和应变量之间的因果关系(causality); 理清各模型的异同及优缺点,思考改进文献中现存模型的可能; 最后决定实证计量模型雏形; 初步调查是否有相关的资料,若无则实证模型设计的再好也无用。 收集相关资料; 对数据的精确性一定要严格查核,对错假漏数据要仔细修正; 使用电子表格软件对数据列表绘图,以验证数据的逻辑合理性,对不合理的数值要有所处理; 不论要用的是横断面数据或是时间数列,数据数目越多越好,面板数据(Panel Data)尤佳; 对资料数值作一些整理,表列各种基本统计量(样本平均值、变异数、变量间的样本相关系数等)、变量之间的两两交互列表、做一些初步图解分析。
2. 计量方法的执行
(1) 选取适当的方法。 计量方法不应太简单(例如只做到最简单的 OLS),但也不必过于复杂,应针对问题采用恰到好处的计量方法。若采用了比较复杂的计量方法,则要说明为什么简单的方法不适合。计量方法的好坏不在其复杂程度,而在于它是否能够帮我们得到正确的估计值,以了解数据中所包含的真正信息。 (2) 假设检验。 除了估计值以及对应的 t 检定外外,也可做一些 F 检定之对多个系数的假设检定。 (3) 模型设定。 回归模型的设定,尤其是解释变量的取舍,可在估计过程中不断的修正。对应变量和解释变量均可尝试诸如对数、指数、幂函数等不同的转换。这些转换方式的决定,以经济理论上的考虑最为重要,不能单只为了提高模型的配适,而盲目的做一些不合理的变量转换。 (4) 解释变量的选取。 选取解释变量时,应有如下的考虑: 解释变量和应变量之间的因果关系一定要正确,也就是说,解释变量是原因在先,应变量是结果在后,有一定的先后顺序。尤其要注意,有些变量数值的产生很可能是和应变量同时决定的,或是因果关系不很明确(也就是说,相对于应变量而言,这些变量是内生的),则在选取这些变量作为解释变量时,便要非常小心。解释变量的内生问题常常是研究被批评的主要原因; 要注意解释变量的同构型,不能不分青红皂白的将一大堆彼此相关性很高的变量(包括相同变量的不同转换、或是几个变数间的各种交乘项)放进回归式内,造成严重的共线性问题; 经济理论所牵涉到的变量常常是无法观察到的,因此在做实证研究时必须采用替代变量(Proxy),研究者要对所选用之替代变数的合理性详加说明。由于数据总有些缺失,常有人在束手无策之下,采用了很多匪夷所思的替代变数; 虚拟变量的定义要清楚而合理,使用要小心; 要探讨解释变量不足、观察值有误差等数据缺失所可能造成的计量问题。 (5) 异方差和序列相关。 横断面数据要注意异方差(Heteroscedasticity)的问题,时间数列的数据则要注意干扰项自我相关(Autocorrelation)的问题。要确定时间数列的稳定性(Stationarity),若有季节变动也要加以处理。 (6) 稳定性和结构变化。 模型的稳定性 (结构变化) 要注意,可能需要诸如 Chow Test 或 CumSum Test 的检验。 (7) MLE 和 GMM 的数值求解细节。 若用到 MLE 或 GMM 等非线性计算,则在撰写报告时要对数值方法的细节,诸如统计软件及数值方法的名称、起始值之选取、收敛速度、是否产生区域解(local solution)、收敛条件的设定等,均需有所说明。 (8) 多个被解释变量的情形。 若实证模型中有多个应变量(和对应之方程式)值得同时分析,则可考虑采用 Seeming unrelated regression 甚至联立回归模型等系统模型,以更有效的利用各回归式之间的相关性。
3. 报告的写作
(1) 首页:报告题目,作者名字,系所,学号,日期。 (2) 摘要:对全文宗旨作一简单描述,并简述文章的目的是对经济结构的分析,还是对未来趋势的预测,还是对政策的评估;然后简单介绍所使用的模型及变量,数据的种类及来源,所估计的模型,所采用的计量方法;最后以最主要的实证结果为终结。 (3) 绪论:说明研究的性质、范围和目的,并从不同角度或一个比较宽广的视野(历史、社会、文献、问题严重性等)来解释研究的重要性。 (4) 文献回顾:对和主题有直接和间接关系的文献做一个简单清楚有系统的回顾,和主题有直接关系但有不同结果的文献,更是要有比较完整的解释。 (5) 模型设定:模型有理论模型和实证模型两类。理论模型是从经济理论中直接导出,而实证模型则是从理论模型衍申出来,是要实际以资料来估计的。理论模型通常需以数学推导,因此文章中可列出一些关键的数式以帮助理论的阐述,但不应长篇累牍的堆积只有间接关系的数式。实证模型通常是以回归模型的形式表示,对模型中所涉及的变量均须给与明确的定义,对解释变量和应变量之间的关系要详尽的说明,也要解释对模型中主要系数(或由这些系数所导出之弹性、乘数等)可能数值的大小及符号有怎样的理论预期。 (6) 资料说明:对数据的种类,性质,来源出处,数据修订的方式,数据中可能有的错误和缺失,都要有详细的说明,最好也能将资料的基本统计量表列出来。 (7) 计量方法的描述:对所用到的每一个符号都要有清楚的定义。 (8) 实证结果的报告: 系数估计的主要结果均须以表列出,在表中每一系数对应之变量名称要写清楚,每一系数估计值旁均须伴随一标准差(s.e.)或 t 统计量,也可加列 p 值,对于显著的估计值也可附加诸如星号之特殊标记以提醒读者。显示模型整体表现的统计量,诸如 R2(线性回归模型), F 检定统计量, Durbin-Watson 检定统计量(对时间数列资料),也可选择性的列于表内。在表的脚注中,必须说明表中所有的特殊符号和简称,表中变量名称的选取,应尽量采用有意义的中文简称,少用无意义的英文字母组合。制表的基本原则就是要让读者便捷、完整而清楚的了解估计的结果; 对主要回归系数(或由回归系数所导出之弹性、乘数等)估计值的大小、符号及显著与否要详加讨论,对于显著的估计值更要和理论预期值比较,若有明显的矛盾,则要探讨原因; 若能在文献中找到类似模型的估计结果,则应择要报告,并做比较; 对重要回归系数若是得不到显著的估计值,则要探讨其中原因。也绝不能对不显著的估计值做出过度的解释,尤其不能宣称不显著的估计值支持或不支持某些特定结论。我们要知道估计值不显著,就是表示所使用的数据不能够提供足够的信息,若是没有足够的信息,当然不能够也不应该做出任何确切的结论; 为增加文章的清晰度,能够条列的结果应尽量条列(但要注意条列式的阐述易流于机械化而让读者失去兴趣),同样的,能够列表的结果应尽量列表,表格应尽可能的明确、独立自主而自成一体(多利用表格下端的附注详加解释表格的内容),尽可能让读者不用在文章中到处找相关说明。此外,图表也是一个非常精准有效之传达信息的方式,应多加利用; 所有具有政策意义的重要论点都要经过假设检定的严谨统计程序探讨其显著性; 若要根据估计模型对数据外的时期或状况进行预测,则态度必须保守谨慎,尽可能设想预测可能不准的原因; 所有列举的统计数字应尽量保持统一的小数点位数(小数点后三位数或四位数均可),如果有很小或很大的数字,则可以用科学表示法表示(例如 ),尽可能显示出三至五位有效数字。 (9) 结论:对所有重要结果做一个完整的总结,并经由理论或数据中不尽完美处的讨论,指明未来研究的方向。 (10) 列举参考文献。
4. 一些注意事项
其一,正确地进行研究很重要,但如何将研究结果有条有理、完整而正确的写成报告则更为重要。由于大学教育并不重视国文(英文)写作的训练,很多学期报告的问题都在于国文 (英文)的写作。所以对报告主体完成后的文字修饰工作,一定要给与很大的重视。 其二,写论文应该抱持着推销产品的心态,所以在包装产品(即写文章)之前要清楚的了解顾客(读者)的基本心理:顾客基本上是报着不太关心但走着瞧的心理,所以写文章时,便要时时设想如何能在非常短的时间内让顾客对产品发生兴趣,当然也要设想如何能让他们在将产品消化后能对产品赞不绝口。 其三,大家都知道文章中每一个章节都有一个主题(章节的标题就是用来点明该主题的),但很多人似乎是不知道,文章中的每一个段落也有各自的主题,也就是说每一个段落只是用来说明一件事情的。很多人常在该分段的时候不分,以致一个段落中常挤进两三个不太相关连的主题,而让读者不易掌握文章重点。 其四,相对的另一个问题是,同一个主题,也应该在同一个地方讲清楚,而不应该在文章中不同的地方重复出现(在序论及结论中对各主题之概论则例外),尤其是不应该在不同的地方出现互相矛盾的说法。但有时候在对一个主题的解释过程中,可能需要先了解一些其它的概念,因此有必要将一个主题的解释,分置于文章中两个不同的段落。若如此则在前一部份解释完成后,应预先告知往后还会有更多的说明。这种做法既让读者有一个全盘了然的感觉,也提醒自己在前后不同地方的说明要彼此呼应而不重复或矛盾。
🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)
尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。