学在江财,金融伴你成才!
金融学院第二届
“面向实证研究的大数据计算”
深度研习班
在当前科学技术浪潮下,Alpha-GO、语音识别、自动驾驶、GhatGPT等技术的不断涌现,涉及机器学习的大数据革命正在极大的改变我们的生活,同时也深刻影响着我们的研究环境,提供了新的进行因果推断的视角和主题。
面对大数据革命,迫切需要掌握合适的软件工具,应对研究范式转变。江西财经大学金融学院于2024年7月14日-2024年7月20日举办第二届“面向实证研究的大数据计算”深度研习班,邀请北京第二外国语学院副教授汪建雄博士主讲,来自全国各地的22位学员参加研习班。在七天的学习之旅中,学员们齐聚江西省婺源县天舍庄园,在远离城市喧嚣的优美环境里,专注地进行学术交流与研讨,同时也享受大自然的宁静与美景。
第一天的课程里,汪教授就当前实证研究中的大数据处理与分析进行了介绍,详细讲解了当前主流的基础工具,包括共享文档工具Confluence、轻量级开源PG连接池PgBouncer、代码托管与协作平台Gitlab、远程交互式Python运行平台JupyterHub、开源关系型数据库PostgreSQL、图数据库Neo4j、键值型内存数据库redis、分布式对象存储系统MinIO、反向代理web服务器Nginx等。同时对Linux系统、Unix系统进行了系统的介绍。
第二天的课程主题是数值与文本大数据计算,通过详细讲解正则表达式,并引导学员参与基本数据表操作和向量化与聚合操作。在数值数据计算方面,让学员初步认识日期、时间数据的处理,并可以适当进行计量回归,与此同时,对机器学习的基础方法和高级方法有所认识。在文本数据处理分析方面,通过学习RE、Pandas、Jieba、LLM、Json等工具,对文本数据进行处理分析。
第三天的课程主要围绕地理与时空大数据计算开展,学员们通过相关的Python工具包,结合空间地理知识分析地理数据,涉及到的工具有QGIS、PostGIS等。从软件的安装到导入数据、地理数据计算,都进行了详细讲解和演示。
第四天所有学员在婺源集体活动,汪老师亲自带领学员们进行了山中美景的探索和古风村落的参观,前后探访了汪嵯、大秋岭、察关、理坑和卧龙谷等村落和景点。各处保存着许多传统建筑,石板路、木制房屋和古老的祠堂无不展示着历史的痕迹。在教授的介绍下,学员们对村落的历史和文化有了更深入的了解,并感受到古老文化的魅力。此外,每位学员在当晚还收获了一份由汪老师的朋友赞助的精美纪念品。
第五天学员们进行了社会网络大数据计算的实践,在图查询语言方面,通过Cypher语言操作Neo4j和LanceDB两种数据库,学员初步了解如何处理和分析社会网络数据。此外,还介绍了Apache Gremlin和nGQL两种图查询语言。在图数据库方面,除了Neo4j和LanceDB,还介绍了多个非开源商业库。在社会网络分析实例方面,介绍了基于PG及Python社会网络包、基于Gremlin和基于Neo4j及Cypher三种方法。
第六天汪老师将内容加以进一步扩展,从构成大规模代码系统基本框架的存储、计算、通信、前端四个方面,介绍了相关的思想和工具,并对谷歌SRE自动化运维体系作了介绍。此外,汪老师也以Confluence、JupyterHub、Gitlab、量化投资系统等为例,讲解了系统架构的构成。
第七天进行大数据团队协作工具集的介绍,包括MinIO、Gitlab、Overleaf、JupyterHub等, 学习如何安装、配置和使用这些工具进行数据存储和检索。并且,对Docker-Swarm-Mode集群,Kubernetes集群进行详细讲解,还有Registry的部署和使用。最后,汪老师从原则和实例两个角度,对编程理念做了详细讲解。
本次课程主要由汪教授进行讲解,同时安排助教老师何标、马鑫鑫进行实践环节演示和辅助答疑。在最后两天还邀请了两位机器学习业内大咖——pg4ml的开发者郭铁成老师和章晨曦老师,就pg4ml框架进行远程串讲和答疑。
通过本次学习,学员们初步建立了大数据计算的知识框架,了解如何管理和处理大规模数据。通过实战演练和案例分析,学员们对编程的基本原理、语言选择、代码编写流程和代码标准均有了更深刻的理解和认识,提高了应对复杂编程问题的能力。
与此同时,各位学员也对课程当中反复强调的“简单的东西应该简单,复杂的东西才能成为可能”这句来自图灵奖获得者Alan Kay的话更有感触。课程结束之际,各位学员皆热切期待以参加本次课程为起点,通过进一步的学习和研究,投身大数据实证研究的大潮,真正做到研习班招募公告中所言的“以身为器,时光为力,携手改变潮水的方向”。
▷
主讲人介绍
汪建雄,北京第二外国语学院经济学院金融系副教授,中央财经大学中国经济与管理研究院(CEMA)金融学博士。研究方向为资产定价、经济史、国家演化、应用计量等,目前正与清华大学五道口金融学院、中国人民大学财政金融学院、山东大学经济学院、厦门大学经济学院、澳门城市大学、华侨大学、中北大学等院校的多位合作者基于裁判文书、工商数据、股票论坛数据等100G以上的超大规模数据集展开分析与合作研究。
论文发表于《Technological Forecasting and Social Change》、《世界经济》、《制度经济学研究》、《投资研究》等期刊,主持完成国家自科基金项目、教育部人文社科项目各一项,译有《金融经济学原理》、《已经发生的未来》、《谁绑架了上市公司》、《蜘蛛战略》等译著。
正在撰写关于大数据计算的系列图书,其中的第一本书名暂定为《大数据计算基础:基于Docker、Python、PostgreSQL与MinIO》,预计于2025年初由机械工业出版社出版,配套视频课程已在网易云课堂(组织名称:山人一枚也)和B站(账号:山人一枚也)上线。
此外,也正与团队成员一起编写一个用于加速大型Python项目开发的代码库,该代码库预计将实现Python代码的自动化分析、调整、测试等功能,主要涉及代码风格、交互调用、执行性能、逻辑错误探测等主题,目前已实现部分功能,包括类似于Black包但更为完备的代码格式自动化调整。该代码库完成后将开源。
曾于2021年1月、2022年1月、2023年3月举行的第10、11、12届PostgreSQL中国技术大会进行分享;于2022年1月、2022年10月举行第14、15届中国系统架构师大会上进行分享;并曾于2021年7月举行的第四期香樟青苗计划及2022年8月举行的第二届香樟西部计划中做讲座;于2021、2022、2023年在中央财经大学中国经济与管理研究院(CEMA)讲授暑假小学期课程《Python金融大数据分析》。
图文/金融学院
编辑/胡力
学生审核人/胡力
单位审核人/王琪 廖春研 黄藩燚