推荐! codecon:为经济学研究者设计的机器学习魔术包, 经济学家有救了!

学术   2025-01-07 09:02   美国  

凡是搞计量经济的,都关注这个号了

邮箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

在这篇文章发布后,群友推荐了另一个经济研究机器学习包codecon。说是,具有完整的指导,一行命令实现大部分nlp任务,对其帮助很大。

这个codecon宗旨挺有意思,用开源的方式帮助经济学研究者轻松实践机器学习方法,推动AI for Economics 。

特点也非常符合AI for Economists,包括1.低代码:尽可能减少代码量与计算机知识要求,根据需求自动挑选模型、配置最优参数;2.为经济学而生:参考经济学最新研究成果,设计符合经济学研究需要的功能 ;3.清晰指南:从python安装,服务器租借与使用,到算法深度介绍;4.持续更新: codecon将追踪产业界、学术界最新动态持续更新。

这个确实是比较跟踪学术界最新动态,比如前面刚刚哈佛大学在JEL发表了Deep learning for economists (机器学习刚得诺奖, AEA迅速发了篇经济学家如何利用深度机器学习技术的综述!),在其最新version里就推出了经济学研究的文本分类任务实践流程。

关于机器学习:1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3.回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思,20.机器学习,可异于数理统计,21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!24.用合成控制法, 机器学习和面板数据模型开展政策评估的论文!25.更精确的因果效应识别: 基于机器学习的视角,26.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法,27.如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法!28.机器学习和经济学, 技术革命正在改变经济社会和学术研究,29.世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇”,30.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了!31.重磅! 汉森教授又修订了风靡世界的“计量经济学”教材, 为博士生们增加了DID, RDD, 机器学习等全新内容!32.几张有趣的图片, 各种类型的经济学, 机器学习, 科学论文像什么样子?33.机器学习已经用于微观数据调查和构建指标了, 比较前沿!34.两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法!35.前沿, 双重机器学习方法DML用于因果推断, 实现它的code是什么?

具体如下,可以看看:

codecon v1.1 特点(26 Oct 2024)

经济学研究中大多数与文本分析相关任务都属于归类(Classification)问题。例如,情感分析(正向情感VS负向情感)、前瞻性分析(前瞻VS非前瞻)、是否与数字化转型相关(与数字化转型有关VS与数字化转型无关)。

Prof. Melissa Dell(2024) 提供了一个非常实用的经济学研究的文本分类任务实践流程,本次更新对该流程进行了完整实现与补充。

简要来说,这张图重点讲了两个事情:

第一,文本分类的机器学习实现主要有两个途径

  • 有监督学习:标注少量数据后训练基于深度学习的文本分类器
  • 生成式AI标注:使用生成式AI,调整提示词,直接对文本进行标注
第二,在使用有监督学习方法之前,可以借助词向量(Embeddings)辅助启发、扩充标签
  • 标签启发:使用词向量对文本进行聚类,启发标签
  • 训练集扩充:通过计算词向量之间的相似度(语意相似度)辅助拓展训练集
本次更新提供实现这两种功能的魔法命令
  • 四行命令实现BERT文本分类器训练全流程(标签启发,训练集扩充、模型训练、模型预测)
  • 批量调取生成式AI API接口进行文本分类
经济学家非常喜欢 Prof. Melissa Dell 的工作,严谨、实用、有深度。
上手也非常容易,只要跟着它的指南手把手安装和使用就行。

安装

强烈建议新建一个虚拟环境以运行codecon库。如果你很熟悉虚拟环境或租借服务器的步骤,可以直接跳过;如果你是初学者,请一定仔细阅读以下使用-环境配置的说明后后再进行安装。

pip install codecon --upgrade -i https://pypi.org/simple

如果安装过于缓慢,可以打开全局梯子后重新pip,或者尝试

pip install codecon --upgrade -i https://pypi.tuna.tsinghua.edu.cn/simple

或者通过github clone此项目

git clone https://github.com/mickwzh/codecon.git

为了方便大家实践codecon, 准备了一个关于情感分类(二分类)的数据集供大家下载

百度网盘: https://pan.baidu.com/s/1dIrQQnOl6spZv6Jet48eQA?pwd=dvqm 

提取码: dvqm

使用

环境配置

所谓环境,是指一套符合当前所需功能的工具包。python的方便之处在于有大量封装好的工具包;但这些工具包往往依赖于其他的工具包。
  • 假设A和B两个python库分别使用的是C1C2,
  • C1C2C的两个不同版本,一个环境里通常只能安装一个C
  • 使用A必须使用C1,使用B必须使用C2
  • 所以如果先安装了A,就会导致安装B出错 (C的版本不兼容); 反之亦然。
如果你通过pip的方式安装codecon,其会自动配置好实现codecon的环境,但前提是你的旧环境中没有与codecon所依赖的工具包相冲突的工具包。
因此,建议在安装codecon前配置一个新环境。
这里提供了适合初学者上手的两种(无代码)创建新环境的方案:ANACONDA&Spyder(本地运行) 和 Featurize&JupyterNote(在线运行) 。点击可获取相应pdf版指南。

关于具体使用等,可以具体看看它所在界面:

关于Melissa Dell,1.2020年小诺奖得主Dell关于如何做研究, 对年轻经济学家的建议!3.Mita, 2020小诺奖RDD女王最具影响力的成名作, 附数据和计量程序,4.“RDD女王”获2020年小诺奖!她的RD数据, 程序, GIS和博士论文可下载!关于她学术研究过程的最全采访!,5.世界计量经济学会宣布2020年新当选院士和新主席, 国人当选情况在情理之中但意料之外!6.AER上用断点回归设计RDD的实证文章有哪些?含程序和code, 不看至少需要收藏一下!7.如何做量化研究的文献评述, 基于政权变更, 集体行动和经济发展,8.TOP5的JPE新任主编和编辑介绍, 提前了解其研究方法和擅长领域! 9.TOP5上天才般神作, 没有足够的洞察, 很难想出这样的实证策略10.她极度近视, 却凭该TOP5文掌控着关于殖民制度长期影响研究的话语权!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

8年,计量经济圈近2500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


计量经济圈
凡是搞计量经济的,都关注这个号了。
 最新文章