第二届
“面向实证研究的大数据计算”深度研习班
学员招募公告
(课程免费,交通食宿自理)
因果推断与大数据的发展
工具变量、双重差分、断点回归、合成控制、事件研究、倾向得分匹配等因果推断技术的发展和扩散,让经济学和金融学实证研究在“相关-因果-机制”构成的因果识别上变得更为精准,推动了应用计量的一场范式转换。
与此同时,数据库、存储技术、高级编程语言、机器学习及其他算法、并行计算框架、容器及容器编排工具、CPU/GPU/NPU等多种芯片的发展,则使得对超大规模数据的存储和深度分析变为可能,促成了移动互联网和人工智能产业的蓬勃发展和广泛应用。
又一场范式转换:因果推断和大数据的融合
因果推断和大数据的融合,无疑是又一场正在发生的范式转换。如果说因果推断的应用极大提升了经济学和金融学实证研究的深度,那么大数据的应用则必将极大拓宽经济学和金融学实证研究的广度。许多原先因高昂人工成本、漫长项目周期、超高技术难度而触不可及的重要研究项目,借助大数据技术均可变为现实。
事实上,这场范式转换并不仅仅限于经济学和金融学领域,管理学、社会学、心理学、政治学、法学、历史学、医学、药学、生物学等学科同样面临着由因果推断和大数据融合所带来的冲击。
参与这场范式转换的正确姿势:躬身入局,亲力亲为
然而这一切的实现,并不是喊喊口号就行,而是以透彻掌握编程语言、数据库、并行计算框架等工具,具备写工程级代码的能力,将其用于处理和分析超大规模的数值、文本、空间地理、社会网络型数据,进而生成此前绝无可能获得、能以天眼般视角研究诸多重要主题的实证数据集为基础的。
即便不自己写代码,研究项目的主导者也必须自行掌握相关工具、具备工程级代码能力且懂得如何将其用于各类大数据分析,唯其如此,方能在基于大数据的研究中做到目标明确、执行到位、得心应手。
不然,在所知不深甚至一无所知的情况下外行指导内行,想让学生研究助理或者外包公司解决一切数据处理和分析工作,难免陷入预算惊人、周期漫长、数据质量堪忧、数据类型与研究目标不匹配等重重困境。
研习班目标:携手一道,改变潮水的方向
如你对因果推断和大数据的融合很感兴趣,主讲人愿将其在大数据处理和分析方面多年积累下的知识、技能和经验心得倾囊相授。
大风起于青萍之末,让我们相聚于风起之时,一起参与并推动这场范式转换,一同站在拓宽经济学和金融学实证研究广度的前沿。以身为器,时光为力,我们终将携手改变潮水的方向。
你的收获
通过本次研习,你将有以下收获:
(1)学会对数值、文本、空间地理、社会网络等多种常见类型超大规模数据的处理和分析,掌握大数据分析中的系统架构、编程理念和多种现代工具,获得主讲人历时八年在大数据领域所累积下的知识、技能和经验,进而真正具备主导、执行大数据分析项目的完整视野与能力;
(2)对于你正在或即将进行的大数据分析项目,获得主讲人和研习班学员的意见和建议,甚至通过互动交流找到理念一致、能力互补能推动项目更快、更好完成的合作者;
(3)获得结识诸多同道的机会,通过共同学习、深入探讨与继之而起的合作研究,建立一个紧密联系、协同进化的学术合作网络。
学员要求
本次共招募16名学员,其中8名为教师型学员,8名为学生型学员。
教师型学员的要求如下:
(1)博士专业为经济学、金融学,或者为管理学、社会学、心理学、政治学、法学、历史学、医学、药学、生物学、统计学等(将吸收30%以上的非经济学、金融学专业学员);
(2)博士毕业,已在高校获得教职,或在金融机构(政府研究部门)获得研究型(分析型)长期岗位,或在做博士后(特聘研究员、副研究员);
(3)对于断点回归、双重差分、工具变量、合成控制、事件研究、倾向得分匹配等因果推断工具,有着较好的掌握和丰富应用经验;
(4)对实证研究怀有热情,愿意花大量时间亲自学习并亲身践行大数据在实证研究中的应用;
(5)能接触或已经持有某种大规模数据,有前期探索经验或有初步研究计划(满足优先,不满足亦可);
(6)具有关于Python、PostgreSQL数据库以及基于二者的并行计算方面的基础知识,水平相当于学完主讲人在网易云课堂开设的《Python及其在数据分析中的应用》、《PostgreSQL及其Python应用》及《并行大数据处理:基于Python和PG》等三门在线课程后达到的知识水平(满足优先,不满足亦可)。
学生型学员的要求如下:
(1)在读本科生、硕士生或博士生。
(2)当前学习阶段的专业范围与教师型要求中的第(1)条相同;
(3)满足教师型成员要求中的第(3)-(6)条。
报名方式
请于2024年7月8日(含)前,将个人简历、研究计划、在线课程选修情况等信息发送至邮箱BigDataCourse@126.com,邮件标题设为“第二届大数据研习班报名+姓名+学员类别”。
筛选程序
(1)教师型学员通过简历和研究计划筛选;
(2) 学生型成员仅通过简历筛选。
(3)筛选程序将于2024年7月9日之前完成,2024年7月9日将以邮件形式告知入选人员,入选名单同时也将公告于微信公众号“山人闲读记”。
特别提醒
(1)请按要求将资料发送至指定邮箱,请不要直接或通过任何人打招呼;凡打招呼者,均不会入选;
(2)为避免出现“报了名不来、来了也只是露个面便神隐不见”等情况而浪费名额,已入选却无合理原因出现如上行为的学员,将以多种渠道予以公告。
(3)本次活动为学术活动,以学术交流为目标,请不要带娃前来,也不提供相关便利。
组织形式
本次活动为线下活动,与江西财经大学金融学院合作举办,由江西财经大学金融学院提供邀请函。
举办时间地点
(1)举办时间:2024年7月14-20日,上课时间6天,集体活动1天;
具体安排:
7月13日报到;
7月14-16日连续上课3天;
7月17日,全体学员在婺源集体活动;
7月18-20日连续上课3天;
(2)举办地点:江西省婺源县天舍庄园(位于婺源县乡间的一个民宿酒店,距离婺源县城1小时车程)。以下图片,为天舍山庄实景。
费用安排
(1)研习班不收取培训费;
(2)研习班将提前统一印刷课程资料,报到时需缴纳资料费,预计100-200元每人;
(3)交通、食宿自理;上课期间,食宿均在婺源县天舍庄园,住宿为两人住一个标间,食宿为170元每人每天。
课程安排
第1天:《预备课程》
第2天:《数值与文本大数据的计算》
第3天:《地理与时空大数据的计算》
第4天:《社会网络大数据的计算》
第5天:《大规模代码系统的基本框架》
第6天:《大数据团队协作工具集》
课程内容
具体时间安排
上午:助教讲解基础知识与工具、答疑;
下午:主讲人讲解当天的主题内容(每天讲解时间在4小时以上);
晚上:教师型学员分享自己的研究计划及遇到的困难,其他学员和主讲人共同欣赏并提供意见与建议。
(为确保主题内容讲解时间,可能会压缩助教讲解答疑与学员分享的时间与频次)
主讲人介绍
汪建雄,北京第二外国语学院经济学院金融系副教授,中央财经大学中国经济与管理研究院(CEMA)金融学博士。研究方向为资产定价、经济史、国家演化、应用计量等,目前正与清华大学五道口金融学院、中国人民大学财政金融学院、山东大学经济学院、厦门大学经济学院、澳门城市大学、华侨大学、中北大学等院校的多位合作者基于裁判文书、工商数据、股票论坛数据等100G以上的超大规模数据集展开分析与合作研究。
论文发表于《Technological Forecasting and Social Change》、《世界经济》、《制度经济学研究》、《投资研究》等期刊,主持完成国家自科基金项目、教育部人文社科项目各一项,译有《金融经济学原理》、《已经发生的未来》、《谁绑架了上市公司》、《蜘蛛战略》等译著。
正在撰写关于大数据计算的系列图书,其中的第一本书名暂定为《大数据计算基础:基于Docker、Python、PostgreSQL与MinIO》,预计于2024年初由机械工业出版社出版,配套视频课程已在网易云课堂(组织名称:山人一枚也)上线。
此外,也正与团队成员一起编写一个用于加速大型Python项目开发的代码库,该代码库预计将实现Python代码的自动化分析、调整、测试等功能,主要涉及代码风格、交互调用、执行性能、逻辑错误探测等主题,目前已实现部分功能,包括类似于Black包但更为完备的代码格式自动化调整。该代码库完成后将开源。
曾于2021年1月、2022年1月、2023年3月举行的第10、11、12届PostgreSQL中国技术大会进行分享;于2022年1月、2022年10月举行第14、15届中国系统架构师大会上进行分享;并曾于2021年7月举行的第四期香樟青苗计划及2022年8月举行的第二届香樟西部计划中做讲座;于2021、2022、2023年在中央财经大学中国经济与管理研究院(CEMA)讲授暑假小学期课程《Python金融大数据分析》。
***********「全 文 完」***********
往 期 内 容
(点击标题,可跳转至相应内容)
主题一: 课程
“大数据计算”研习班
第一届:
《并行大数据处理:基于Python、PostgreSQL及其他》:
1. 课程信息:
系列课程:《基于Python和PostgreSQL的并行大数据处理》
预备课程:《经济学和金融学实证研究中的大数据处理:基于Python和PostgreSQL》
2. 前期讲座:
2.1 《经济学及金融学实证研究中的大数据处理:基于Python和PostgreSQL》
2.1.1 香樟青苗版(录于2021年7月,约3小时):第1部分|第2部分|第3部分
2.1.2 架构师大会版(录于2022年1月,约2小时):讲座回放
2.2 《“大规模数据分析”项目开发中的编程理念——以Python为例》
2.3 《经济学及金融学中的大数据处理与分析:基于Python和PostgreSQL》(2022年8月“香樟西部计划”讲座)
3.免费课程视频:
3.1 《Python及其在数据分析中的应用》: 系列课程及本门课程安排 |Python编程环境介绍:Anaconda、Jupyter Notebook与Spyder |Python语法结构概述|Python中的代码、注释、保留字和对象层级
3.2《PostgreSQL及其Python应用》: PostgreSQL数据库的现状及优势|PostgreSQL的基本原理和整体架构
3.3《并行大数据处理:基于Python和PG》: 基于Python和PostgreSQL的分布式并行计算原理
4. 参考资料:《并行大数据处理:基于Python与PostgreSQL》在线课程参考资料
主题二: 讲座
量化投资:
第一讲:《量化投资的基本概念》 Part1 | Part2 | Part3
代码分析:
Quantaxis开源量化系统:QAData模块 |QAEngine模块
大数据分析中的基本工具:
PostgreSQL: PostgreSQL数据库的安装与启动 |
Citus: Citus简介、安装与基本应用|Citus中的基本概念 | Citus性能测试
TimescaleDB: TimescaleDB简介、安装与基本应用 | TimescaleDB中的超表与分块_第1部分|
主题三: 笔记
史景迁作品系列:《王氏之死》 |《曹寅与康熙》 |《康熙》 | 《雍正王朝之大义觉迷》 | 《前朝梦忆:张岱的浮华与苍凉》 |《利玛窦的记忆宫殿》 | 《胡若望的疑问》 | 《太平天国》 | 《改变中国》
历史: 闲谈读史 |《大宋之变,1063-1086》|《重铸大英帝国:从美国独立到第二次世界大战》|《宋史纪事本末》| 《西欧中世纪史》|《叫魂》与《中国现代国家的起源》|《万古江河》|《史记》的可信度高吗,怎么看待这本书?|
军事理论与军事史: 《战争指导》| 《海权对历史的影响》| 《坎尼的幽灵》|
传记:Alex Honnold | 齐白石 | 岳飞 | 莫奈 | 褚时健 | 特斯拉 | 李鸿章 | 张之洞 | Alfred Sloan | 爱因斯坦 | 亚历山大 | 达芬奇与富兰克林|赵佶|
社科泛海:《文明与缺憾》|《枪炮、病菌与钢铁》| 《世界秩序》 |
经济管理:从NOKIA到iPhone |《How Google Works》| 两个人的布雷顿森林 |《稻盛和夫:阿米巴经营》|
人工智能、机器学习与算法:《Swarm Intelligence》|
文艺生活:《皮囊》|《从你的全世界路过》| 何伟与他眼中的世界 | 木心与陈丹青 |
山人闲语:开号小记 | 进化之路 | 职业之外,还有意义 | 除却被毁灭,无法被击败 | 有时候,我们该离开已经不属于自己的战场 | 杂谈一则 |
主题四: 摄影
照片
家乡湖山:三眼桥 | 水库二座 | 晨雾 | 段莘水库 | 裔村源头的山 | 山居晨昏_1 | 山居晨昏_2 | 山间春夏_1 | 官坑的烟花 | 开花的树 | 大汜之夏 | 山中一日 | 山中又一日|
视频
主题五: 道友们的世界
道友们的爱:我在澳洲喝咖啡 | 在天河南喝咖啡 | JNU奶茶地图 |
道友们的生活:
道友们的思想:
长按下图,识别二维码,关注本号
声明: 1.本号所发图片,除非特别说明,皆作者亲拍,保留一切权利; 2.本号所发文章,保留一切权利,未经允许,不得转载。
择青山,筑别院,煮香茗,阅经卷,倚林泉,度流年,斯吾愿......