机器学习文章再登《中国工业经济》—— 看看顶刊如何用机器学习做因果推断!

学术   2024-11-24 19:01   浙江  
原文信息:
陈运森,周金泳,彭嘉续.中国上市公司分红的动因研究——基于机器学习的证据[JOL].中国工业经济,2024(05)155-173

1

引言

近年来,中国证券监督管理委员会(简称中国证监会)反复强调要“建设以投资者为本的资本市场”,而“活跃资本市场,提振投资者信心”也是2023年8月中共中央政治局会议对资本市场工作的重要部署。企业分红是向投资者返还利润的重要形式,有助于增强投资者信心。分红回报正是检验企业是否真正践行“以投资者为本”的试金石。优化和完善分红制度体系建设,也是响应2024年《政府工作报告》强调的“完善中国特色现代企业制度,打造更多世界一流企业”的重要一环。

2

数据来源与变量定义

1、数据来源

本文选择2006—2022年A股上市公司作为起始样本,在剔除ST及ST*企业、金融类企业、数据缺失的样本后,最终保留了31469个观测值。
2、变量定义
本文的所有变量见表1所示。    

3

实证结果与分析

1、不同机器学习方法下模型对分红行为的预测效果

表2第(1)列的结果显示,LASSO的样本内拟合优度与多元线性回归接近,决策树的模型表现远不如多元线性回归,支持向量机、渐进梯度回归树和随机森林的样本内拟合优度则明显高于多元线性回归。表2第(2)、(3)列的结果表明,随机森林具有最高的样本外拟合优度和可解释方差,渐进梯度回归树的模型表现也较好。表2第(4)列的结果显示,集成学习方法在进行样本外预测时的均方误差较低。第(5)列的平均绝对误差和第(6)列的绝对中位差也展现了类似的结果。    
2、不同类别公司特征对公司现金分红行为预测能力的表现差异
表3表明,以往研究中关注较少的生命周期特征和公司税率特征对公司现金分红行为的影响程度反而较大,而两类代理问题相关特征、融资需求特征和投资者情绪特征对股利支付行为的预测解释能力相对较弱。
3、不同特征变量对公司分红行为预测能力的差异
表4结果表明,尽管已有研究发现再融资动机(Refinancei,t)和控股股东股权质押比例(Pledgei,t)等指标对公司股利分配具有一定的解释力,但这些指标的相对重要性较低。    
4、重要特征对公司分红行为的预测模式
(1)留存收益资产比。图1可以看到,随着留存收益资产比的增加,公司股利支付水平呈现出先缓慢增加,然后迅速增加,再恢复缓慢增加的趋势。
(2)实际税率和纳税波动性。图2可以看到,中国上市公司的实际税率与股利支付水平之间呈现V型关系,意味着实际税负较低或较高的企业更倾向于支付股利。
图3则是纳税波动性的ALE图,可以看到,随着公司纳税波动性增加,公司的股利支付水平会迅速降低,然后呈现出缓慢增加的趋势。

(3)其他应收款资产比。图 4 的结果表明其他应 收款资产比越高,股利支付水平越低,这表明大股东可能通过资金占用等方式侵害中小股东利益,同时也导致了低派现股利政策。
(4)融资约束程度。图 5 的结果显示,融资约束程度与公司股利支付水平呈 现出 V 型关系。
(5)上一期股利支付水平。由图 6 可以看到,上一期股利支付水平越高,公司当期股利支付水平也越高。
(6)其余特征变量。结果显示,除虚拟特征变量以及部分连续变量外,其余特征与公司股利支付水平之间的关系呈现出非线性的特点。
5、进一步分析
(1)股利支付行为在分红政策变更前后的差异。结果还表明,随着自由现金流增加,公司的股利支付率呈现出先下降再上升的趋势。
(2)公司分红行为在不同现金流状况企业间的差异。结果显示,自由现金流这一指标本身在现金流状况好的企业中具有较高的相对重要性。    
(3)公司分红行为在不同股权性质企业间的差异。结果表明,相比于国有企业,非国有企业中其他应收款资产比对股利支付水平的预测效果更为显著。
(4)投资者股利情绪对分红行为的影响。结果显示,相比于现 金股利情绪低的年份,其他应收款资产比在现金股利情绪高的年份具有更高的相对重要性
(5)影响公司股利支付意愿的主要特征。相 较 主 检 验 ,本 文 发 现 经 营 活 动 现 金 流(Cashflowi,t )和 分 析 师 跟 踪 人 数 (Analyst_numi,t )对公司发放股利意愿的预测能力较强。
6、稳健性检验
(1)变更响应变量。结果表明,替换响应变量后的研究结论与主检验一致。
(2)变更样本划分方法。本文的研究结论保持不变。
(3)关于累计局部效应图的稳健性检验。结果显示,部分依赖图与累计局部效应图的图像模式基本一致,进一步增强了结果的稳健性。
(4)变更样本期间。变更样本期间后的结果依旧稳健。

4

结论与启示

1、结论

第一,渐进梯度回归树和随机森林对股利支付行为的预测效果最佳。
第二,生命周期特征和公司税率特征对公司分红行为的预测能力最强。
第三,不同股权性质和现金流状况企业之间也存在差异。
第四,影响公司股利支付意愿和股利支付水平的主要因素有所区别。
2、启示:   
第一,监管部门可以加强关注影响公司股利支付行为的重要特征,从而制
定更为精准的股利监管政策。
第二,监管部门还可以进一步加强对处于不同发展阶段企业的分级监管。   


【学术严选课程预告】


【Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程能帮你成功上手,从 零基础 掌握 Python 机器学习】





课程内容



第一模块 Python基础知识串讲(4课时)

1、Python编程环境搭建(Anaconda安装Python之Hello World;第三方模块的安装与使用)

2、Python基本语法(Python变量命名规则;Python基本数学运算;Python常用变量类型的定义与操作;Python程序注释)

3、Python流程控制(条件判断;for循环;while循环;break和continue关键字;嵌套循环与可变循环)

4、Python函数与对象(函数的定义与调用;函数的参数传递与返回值;变量作用域与全局变量;对象的创建与使用)

第二模块 Python科学计算(4课时)

1Matplotlib的安装与图形绘制(数据可视化设计美学、Matplotlib常用函数简介与使用、设置散点、线条、坐标轴、图例、注解等属性;绘制多图;图的嵌套)

2、科学计算模块库(Numpy常用函数简介与使用;Pandas常用函数简介与使用;Scipy常用函数简介与使用

3、实操练习

三模块Python统计分析与可视化4课时)

1、统计学基础知识概述(描述统计、统计推断、时空统计)

2、统计数据的描述与可视化(数据的描述性统计:均值、中位数、众数、方差、标准差、极差、四分位数间距等;条形图、直方图、散点图、箱线图等)

3、概率分布与统计推断(离散概率分布:二项分布、泊松分布;连续概率分布:正态分布、均匀分布、指数分布;点估计与区间估计;最大似然估计与贝叶斯估计;假设检验:t检验、卡方检验、F检验;P值与显著性水平等)

4、回归分析(多元线性回归模型;最小二乘法估计;变量选择与模型优化;多重共线性与解决方法;Ridge回归;LASSO回归;ElasticNet回归等)

5、实操练习

四模块Python树模型(4课时)

1、机器学习概述、数据预测与预测建模

2、决策树模型(认识树模型;什么是信息熵和信息增益?ID3算法和C4.5算法的区别与联系);决策树除了建模型之外,还可以帮我们做什么事情?

3、随机森林模型(为什么需要随机森林算法?广义与狭义意义下的“随机森林”分别指的是什么?“随机”体现在哪些地方?随机森林的本质是什么?怎样可视化、解读随机森林的结果?)

4、Bagging与Boosting的区别与联系

5AdaBoost vs. Gradient Boosting的工作原理

6、常用的GBDT算法框架(XGBoost、LightGBM)

7、SHAP法解释特征重要性与可视化(Shapley值的定义与计算方法、SHAP值的可视化与特征重要性解释)

8、部分依赖分析(部分依赖分析的原理、单变量影响分析、双变量交互分析)

9、实操练习

第五模块 因果推断与因果学习(4课时)

1、因果推断概述

2、因果推断范式(潜在因果推断、结构因果推断)

3、因果推断实现(传统方法、机器学习方法)

4、因果机制识别与发现(因果效应估计、非线性因果效应估计、因果作用未来预测)

5、时空因果推断(时空统计概述、时空因果推断、时空因果实现)

6、实操练习

第六模块 Python深度学习(6课时)

1、人工神经网络(人工神经网络概念、底层原理)

2、深度学习模型原理(人工神经网络基础、卷积神经网络、生成对抗神经网络、自编码技术、循环神经网络)

3、深度学习模型实现

4、案例演示与实操

第七模块 典型论文讲解与研究设计复现、答疑与交流(2课时)

1、树模型案例分析与实现

2、深度学习模型案例分析与实现

3、因果学习案例分析与实现

4、课程相关资料拷贝与分享

5、答疑与讨论(大家提前把问题整理好)




讲授/答疑老师:
李老师,985高校本硕,中科院博士,本科高校副教授,长期从事机器学习、贝叶斯统计、医学统计等科研和教学工作,具有丰富的科研和授课经验。某省高等学校优秀青年学术带头人、拔尖骨干人才、C刊学术编辑。主持国社科基金、教育部人文社科项目等课题多项,参与国社科重大、科技部973项目、国自然基金等项目多项,以第一或通讯作者在Lancet子刊、PloS Medidcine、Environment International、《统计研究》、《数理统计与管理》、《经济地理》等高质量期刊发表论文30多篇,担任多个SSCI\SCI期刊的审稿人。

目标受众:
零基础可学,适用于经济管理、医学、社会学以及公共卫生等领域的本科生、硕博研究生和青年教师,尤其是实证基础薄弱但是希望能够掌握Python机器学习与深度学习同学和老师。

上课时间(共三天):
11月23日  8:30-12:00    14:00-17:30
11月24日14:00-17:30    18:30-21:30
11月30日  8:30-12:00    14:00-17:30
【可长期回放+1年答疑】



课程特色:

提供ppt讲义+案例+数据+python代码 




课程价格:1299

学术严选会员及老学员有优惠,具体请联系陈老师(微信 xsyxkf001)






报名:倘若您对课程感兴趣,扫描上方二维码可直接购买,
可开培训费、资料费、技术服务费、信息服务费等,可公对公转账,提供培训通知。请扫描下方二维码可添加助教微信询问课程详情及发票事宜。
     
          助教二维码,联系咨询      

学术严选
致力于学术资源创作、搬运、遴选,提供高质量的学术资源下载
 最新文章