文献阅读荟-No.268-中国上市公司的财务欺诈检测:管理者异常的语气重要吗?

财经   2024-08-03 10:00   广东  

论文:中国上市公司的财务欺诈检测:管理者异常的语气重要吗?

Li J, et al. Financial fraud detection for Chinese listed firms: Does managers' abnormal tone matter?[J]. Emerging Markets Review, 2024: 101170.

下载地址:

https://doi.org/10.1016/j.ememar.2024.101170


01 摘要
本文通过匹配欺诈和非欺诈样本,基于财务、非财务和异常语气三种主要指标,比较8种机器学习模型下的效果。结果显示,集成模型RF和AdaBoost在检测欺诈时准确率最高。同时通过加入与未加入异常语气指标的结果对比中,我们的研究结果强调了异常语气在欺诈检测中的重要性。
02 文献综述
2.1 欺诈检测指标
金融欺诈研究中目前常用的指标可分为两类,文本型指标和财务型指标。

在文本指标方面,最早和最常用的是情感指标。这些指标通常是通过分析正面和负面词语数来量化的。其中市场情绪的情绪指标可以从报纸、杂志、股票论坛和社交媒体中提取,也可以从投资者关系报告、财务报表和电话会议中得出,以评估上市公司信息披露所传达的情绪。例如针对积极情绪、消极情绪可用特定字数的比率进行衡量。相关的研究结果证实了利用文本信息进行金融欺诈检测的有效性。但是在过去的研究中,管理者异常的语气经常被忽视。然而,它对金融欺诈检测具有潜在的重大影响,因此调查异常语气的影响至关重要。

在财务型指标方面,为使研究结果更加精确,研究者不再将范围局限于财务比率或原始财务数据,而是进一步考虑了非财务数据的使用。例如,拥有完全独立的审计委员会、之前参与盈余管理或超出分析师预测的公司是否更容易参与财务欺诈。又如财务欺诈风险与公司文化和执行特质等因素之间、所有权结构与欺诈可能性之间是否存在相关关系。这些都有助于进一步精确结果。
2.2 假设提出
欺诈者比说真话的人更勤奋地管理公众的看法,以实现欺骗性目标。因此,人际欺骗理论可以扩展到金融欺诈检测领域。在形象管理方面,欺诈公司可能会采取过于积极的语气,这往往会误导人们披露信息。

另外,信息操纵原则提出,从事欺骗行为的个人会故意改变信息。他们通过违反这些格言中的一个或多个来做到这一点,随后制作误导性内容。该理论的一个关键方面是质量格言。违反质量准则的操纵信息是欺骗性信息的一种普遍形式。通过此类违规行为,欺骗者可以完全捏造替代信息或歪曲敏感细节以提供虚假信息。这种合并结合了欺骗性和准确的信息,以提高可信度。在公司业绩不佳的情况下,管理层可能会产生正面信息或减少负面信息的普遍性。这可能导致投资者和财务报表使用者对业绩进行不准确的评估。

因此,欺诈公司的经理有动机在管理层的讨论和评估中表现出积极的语气。基于此,我们提出假设,管理者的异常语气对于金融欺诈的检测具有信息性。
03 研究设计与模型
为了检验管理者的异常语气是否有助于识别金融欺诈,我们集成了一个用于欺诈检测的模型框架。图1介绍了我们研究的整体研究设计。研究步骤如下:

  • 首先,我们使用MD&A文本数据来衡量管理者的异常语气。
  • 其次,我们将异常的语气与丰富的财务和非财务指标相结合,这些指标可能有助于发现金融欺诈。从这种组合中,构建指标集,并选择最重要的金融欺诈指标。使用 CART SFM 模型可以促进指标选择过程,也称为特征选择过程。
  • 第三,比较基于我们精细化的指标集的预测结果,包括有和没有异常语气,以确定异常音调是否可以提高预测精度。此外,我们还对指标的重要性进行了排序,以确定异常语气在金融欺诈检测中的重要性。
3.1 管理者异常语气

采用管理层语气指标的原因主要有两点。一方面,由于会计准则的约束,财务报表中披露的数字信息并不能充分反映企业当前的经营状况和未来的业绩趋势。在这种情况下,管理层在财务报告文本中采用积极的语气传达公司当前的经营状况和未来业绩。这种积极的语气反映了信息增量的观点。另一方面,根据信息操纵原理,当公司业绩不佳时,管理层可能会捏造正面信息或降低负面信息的密度。这可能导致财务报表使用者(如投资者)对公司业绩的错误估计。反映信息操纵观点的这一积极语气方面被称为异常语气。

因此,我们通过使用混合横截面回归方法将MD&A音调(Tone)分解为正常音调(NTone)和异常音调(ABTone)来分离异常音调。具体回归模型如下:

3.2 特征选择模型
为了提高我们选择财务指标的全面性,我们的指标集整合了几个高度相关的变量。例如,营业收入占总收入的比重与占营业总收入的比重之间存在很强的相关性。因此,必须从我们的分析中消除这些冗余。此外,我们的指标集中的某些变量具有微弱的判别能力。因此,也必须从我们的分析中删除这些无效的指标。

我们采用的方法是 CART 分箱方法。CART 使用二叉树结构来方便排除难以识别的指标。对连续变量进行分箱,其过程可分为三步。首先,我们计算连续数据点对的中值,将数据集分为两个分区。其次,我们计算基尼系数来确定这个分裂点,选择导致基尼系数最显着降低的除法作为我们的最佳阈值。最后,继续执行这两个步骤,直到满足排除条件。CART 拆分框将连续变量划分为多个区间,并将它们转换为分类变量。这种方法降低了识别模型对指标微小变化的敏感性。

本文还通过使用证据权重 (WOE) 和信息值 (IV) 对指标的预测能力进行排序,提高模型的普遍性。证据权重 (WOE) 和信息值 (IV)的衡量方式如下:

3.3 机器学习
识别参与金融欺诈的公司本质上是一个二分法问题。本研究选取了四种广泛使用的个体单一分类算法,包括逻辑回归 (LR)、决策树 (DT)、朴素贝叶斯 (NB) 和 BP 神经网络 (BP)。以及4种常用的集成分类算法进行金融欺诈预测,包括随机森林(RF)、自适应提升(AdaBoost)、轻度梯度提升机(LightGBM)和极端梯度提升(XGBoost)。我们评估指标的显著性,以衡量金融欺诈检测过程中的影响程度。我们使用拟合到数据集的分类模型来计算重要性分数。
04 样本&数据
4.1 样本
我们的样本范围为2012年至2021年。我们使用配对抽样方法构建了非欺诈公司样本,即将一个欺诈样本与一个非欺诈样本进行匹配,按行业和资产划分,适用于相应年份。需要注意的是,我们的非欺诈性样本必须满足三个个条件。

  • 首先,被选中的非欺诈公司以前没有因在匹配年度内披露不准确、重大遗漏、虚假分录、虚报资产或虚报利润而受到金融监管机构的处罚。
  • 其次,非欺诈样本必须与欺诈公司处于同一行业,以减轻行业层面差异对最终鉴定结果的影响。
  • 最后,非欺诈性公司样本的规模必须与欺诈性公司相似。这是在±10%的范围内,以消除公司规模对最终识别结果的影响。
图2显示样本期间欺诈性和非欺诈性样本的分布情况。可以看出,2012年至2014年,造假样本数量略有上升,2015年变化率最高,随后急剧上升。随后,它一直不断攀升,直到2018年。然而,2019年至2021年出现了明显的下滑,标志着中国的企业欺诈迅速下降。这在某种程度上可能归因于金融技术的发展。

另外,根据我们的样本匹配方法,非欺诈案件的分布与欺诈案件的分布相同。最终数据集包括 12,154 个样本,这些样本被分成 80% 到 20% 的比例。我们将 80% 的数据用于模型训练和参数调优,而剩下的 20% 用于最终模型估计。

 
4.2 指标
在财务指标方面,我们采用了120个横向指标和138个纵向指标,共计258个财务指标,如表1所示。其中横向指标侧重于财务报表的结构以及这些报表之间的关系。这些财务指标可以反映公司财务报表的结构,如资产负债率、收入和支出等等。它们还可以构成财务分析指标,以反映公司情况的各个方面,例如盈利能力、增长能力、偿付能力、运营能力和每股指标。相反,纵向指标侧重于识别财务部分的变化。
在非财务指标方面,我们共选择了36个非财务指标,重点关注管理能力和内部控制,如表2所示。根据欺诈三角理论,机会因素是实施欺诈的先决条件,因此,本研究将管理能力因素纳入我们的框架,使用30个管理能力指标。指标包括实际控制人的持股比例、控股股东持股比例、从业人员密度等。此外,还有六个内部控制因素也被纳入识别指标系统。

在语气文本指标方面,我们构建异常语气和其他 MD&A 指标,包括语气和文本相似度,共计七个指标。表3总结了用于构建文本指标的公式和具体的构建方法。我们结合了两种不同的计算方法来获得关键语气度量。第一种方法是分别计算肯定词和否定词占单词总数的比例。第二种方法是计算肯定词和否定词占肯定词和否定词数量之和的比例。一旦获得该指标,我们就之前提及的方法来量化异常语气指标。
05 实证结果
5.1 特征选择分析
本研究采用 CART 算法和 SFM 方法进行特征选择。根据数据集的大小,本研究将样本的最小叶节点大小设置为 550,使用 CART 分箱时将内部节点细分所需的最小样本数设置为 1100。根据所选特征指标的 IV 值,我们删除 IV 低于 0.02 的 30 个指标。然后,我们计算成对指标之间的 Pearson 相关系数。对于任何一对相关系数超过 0.8 的指标,我们比较各自的 IV 值,并删除 IV 值较低的指标。这一过程删除了另外46个指标,剩下131个指标。接下来,我们采用 SFM 方法选择 14 个指标。各模型选择的前20%指标在表4中展现。
5.2 管理者异常语气和绩效检测
模型在欺诈检测中的有效性的评估指标包括准确性、召回率、精确度、F1 分数和 AUC。表5显示基于四种机器模型算法的结果,包括 LR、DT、NB 和 BP。表6则是根据集成算法(RF、LightGBM、AdaBoost 和XGBoost)呈现的结果。

表5中,在引入异常语气指标之前,LR模型的准确率、召回率、准确率、F1得分和AUC 分别为63.10%、63.45%、62.15%、0.63和63.11%。引入异常语气指标后,5个指标分别提升至63.47%、64.96%、62.24%、0.63%、63.50%。说明添加异常语气可以改善LR模型的各种评估指标。同理,3种模型的结果也表明,引入异常语气指标后,评价指标均有一定程度的改善,而使用 BP 模型时,改进最为显着。
表6中,在引入异常语气之前,RF模型的准确率、召回率、准确率、F1得分和AUC分别为68.70%、69.54%、68.82%、0.69和68.69%。引入异常语气指标后,准确率、召回率、准确率、F1分、AUC分别提高到70.01%、71.25%、69.94%、0.70%和70.00%。包含异常语气的 AdaBoost 表现出最高的性能。异常语气的引入对提高预测效果具有显著的正向影响。

另外, AdaBoost 和 RF 表现出良好的识别性能。在语气异常的数据集中,RF的召回率超过71%,AdaBoost的准确率大于70%。这意味着 RF 可以识别样本中10 家欺诈公司中的 7 家以上,表现出出色的识别性能。此外,所有模型的召回率都有不同程度的提高。例如,LightGBM模型的召回率提高了1.43%,XGBoost的召回率提高了2.00%。由此可见,异常语气对发现上市公司财务造假具有一定的作用,是有效的识别指标。
5.3 指标重要性分析

接下来,我们测量所选指标的权重,以确定使用机器学习模型识别金融欺诈时异常语气的重要性。图3说明了重要性度量结果。

异常语气在金融欺诈检测中显然起着至关重要的作用。AdaBoost结果将异常音调排在第三位,贡献率为9.38%,仅比排名第二的指标低0.01%。同样,LR、DT、NB和LightGBM重要性排名将异常音调置于列表中间,分别排名第9、第8、第7和第9位。此外,尽管 BP、RF 和 XGBoost 将异常音调排在末尾,分别排在第 11、14 和 14 位,但它们也强调了异常音调的重要性。其基本原理是,在3个模型中,指标之间的重要性差距相对较小,表明异常语气的重要性与排名第一的指标紧密相连。
06 结尾
本研究考察了管理者异常语气在金融欺诈检测中的效果。利用MD&A来衡量财务报表中管理层操纵的程度,从而衡量异常语气。我们实施了 8 个机器学习模型进行欺诈检测,然后进行重要性加权。结果表明,RF和AdaBoost模型在加入异常语气指示器时准确率最高,分别达到70.01%和70.14%。此外,异常语气指标在整个机器学习模型中具有重要意义。这表明,管理层在财务披露中采用的修饰语言和异常语气可能是潜在欺诈活动的重要指标。
讨论时刻:
本文的局限性在于主要侧重于探索异常语气的作用,并没有针对模型方面进行增强以提高预测的准确性,往后研究可以在此方面进行补充完善。




如果有好的建议,请留言给我们。

"大于研究"是华南理工大学经济与金融学院、金融工程研究中心于老师和学生对外分享研究成果和学习的心得的公众号。

对我们的研究感兴趣的可以联系fofscut@scut.edu.cn







大于研究
大于研究是华南理工大学金融工程研究中心的老师和学生对外分享研究成果和学习的心得的公众号。对我们的研究感兴趣的可以联系fofscut@scut.edu.cn。
 最新文章