文献阅读荟-No.262-基于语言可读性向量的企业欺诈检测:在中国金融企业中的应用

财经   2024-07-13 10:00   广东  

论文:基于语言可读性向量的企业欺诈检测:在中国金融企业中的应用

Zhang Y, Liu T, Li W. Corporate fraud detection based on linguistic readability vector: Application to financial companies in China[J]. International Review of Financial Analysis, 2024: 103405.

下载地址:

https://doi.org/10.1016/j.irfa.2024.103405


01 摘要
本文基于金融业公司中文年报MD&A文本数据在字、词、句、段四个层面构建中文文本可读性向量,并利用三种机器学习方法构建欺诈识别模型,实现中国金融业上市公司的精准欺诈识别。研究结果发现,在添加中文文本可读性向量后,贝叶斯、随机森林和支持向量机(SVM)三种主流机器学习方法算法的效果都有一定提升,表明中文文本可读性向量可以弥补文本处理后缺失的语义信息,提高欺诈识别模型的有效性。
02 文献综述
2.1 背景
在上市公司欺诈识别的早期研究中,主要关注如何利用财务数据、公司治理数据等结构化数据来识别上市公司的欺诈行为。例如基于应收账款等八项财务指标的M-score,又如在五大领域(应计项目、财务指标、非财务指标、资产负债表外业务和市场信息)中构建的F-score模型。但近年来,随着财务信息披露的标准化和高度格式化,仅靠财务指标无法识别更多的违规行为。随着自然语言处理技术和人工智能的快速发展,让越来越多的学者将注意力集中在年度报告中的文本等非结构化数据上。研究者根据 10-K 报告中的 MD&A 部分创建了词典,并使用 TF-IDF、WordNet 算法转换文本以构建欺诈识别模型。其中还构建了欺诈词表,以根据一袋词在 10-K 报告中使用 MD&A 的词来检测欺诈报告。
2.2 可读性
将年报的可读性作为一个重要的会计信息质量指标主要有以下三点原因。

  • 由于财务信息披露的标准化程度提高,仅使用财务指标识别新的违规行为变得更加困难
  • 自然语言处理和机器学习方法越来越多地被用于欺诈识别,但由于在自然语言处理过程中无法保留文本结构的语义特征,因此结果并不理想。
  • 可读性是年报中语义信息的重要表现形式。
目前,雾指数成为衡量报告可读性的重要指标。但由于汉英在语法和词汇规则上存在较大差异,外国可读性措施无法直接应用于中文年报的语义解释。因此,我国学者也在这方面做出了研究。其一,可从会计术语的比例、总字数和平均句子长度三个维度衡量年报的可读性。其二,可使用汉字的平均笔画数和基本词的百分比来进行衡量。第三,可使用三个变量——及物成分密度、会计术语密度和次常用词密度衡量年度报告的文本信息复杂性。最后,也可借用雾指数构建过程,构建了从句的平均字数指标和状语连词比例,并增加了这两个指标来衡量中国年报的可读性。
03 指标搭建
中文可读性向量由单词、短语、句子和段落四个层次的可读性指标组成。本文将中文可读性向量定义为下式,指标依次表示中文可读性向量、汉字可读性指数、词语可读性指数、句子可读性指数、段落可读性指数。

3.1 汉字可读性指数

研究表明,常用字符的比例是影响中文文本可读性的重要系统。因此,本文采用《现代常用汉字表(3500字)》作为常用汉字评定标准,以常用汉字比例为变量,在字面上衡量年报的可读性。汉字可读性指数可通过1.5乘常用词比进行计算。

常用字比可以由常用字的数量除以字总数进行计算。

3.2 词语可读性指数
本文从词的通用性、词的专业性和词的传递性三个角度评估了词的可读性。
  • 词的通用性。对于读者来说,当中国年度报告中包含更常用的词语时,读者的阅读障碍更少,可理解性更强。我们以常用词与成语占总词数比重进行衡量。同理,常用词比可以由常用词的数量除以词总数进行计算。

  •  词的专业性。相关研究发现,大多数中国报告在阅读难度方面可与专业的科学和学术论文相媲美,主要是因为其中包含大量金融术语。因此,我们也考虑专业术语占比,可以由专业词的数量除以词总数进行计算。

  • 词的传递性。研究显示,一个句子包含虚拟词、连词和否定词越多,文本的逻辑关系就越复杂,文本就越难理解。因此,本文关注反比和否定率两个指标,即以逆连接关系连接词与词语总数的比值和否定词与词语总数的比值为变量来衡量年报的语义复杂度。

结合以上三方面,最终汉语词语可读性指数可以通过如下公式计算。

3.3 句子可读性指数
句子层面的特征主要包括句子长度和句子复杂度。
  • 句子长度。从读者的角度来看,理解长句需要更多的时间和精力,尤其是由多个从句组成的复杂句子。因此本文定义平均句子长度等于单词总数除以句子总数。

  • 句子复杂度。在日常语言使用中,简单的陈述性复杂句子比具有更多单词、修饰语和复杂结构的句子更容易理解。因此,本文以陈述句占句子总数的比重来衡量年报的语义复杂度。

结合以上两方面,最终汉语句子可读性指数可以通过如下公式计算。

3.4 段落可读性指数
现有的中文可读性研究较少,因为中文年报MD&A不仅包含大量的文本信息,而且包含明确的数字信息,在解释文本和使读者更容易理解方面可以起到辅助作用。因此,本文以平均段落数作为辅助指标,在段落层面衡量年度报告的语义复杂度。平局段落字数=字数总数除以段落数。

最终汉语段落可读性指数可以通过如下公式计算。

同时,表1展示了字、词、句、段四方面指标的汇总计算公式。
04 数据分析
本文的样本选择间隔为2005年1月1日至2019年12月31日。我们根据CSMAR数据库中的15种欺诈类型对样本进行了标记。此类欺诈类型包括“虚构利润”、“虚构资产”和“虚假披露”等,如表2所示。我们随机选择了总样本的 80%,以创建一个包含 2653 个样本的训练集。其中,296个为欺诈样本,2357个为非欺诈样本。其余20%的样本(664个样本)用作测试集,其中74个为欺诈样本,590个为非欺诈样本。

4.1文本数据的预处理
一般来说,直接获取的文本数据包含很多噪声和许多格式问题,往往不能直接使用。我们需要对 MD&A 数据进行预处理,以提高矢量化之前的质量。一方面需要进行数据清理,对于本文,删除了英文字符和空字符(即空格、缩进字符、换行符等)。仅包括中文句点、中文问号、中文感叹号、中文分号和中文冒号。另一方面, MD&A分词采用jieba精确模式,使用HIT的停用词列表进行停用词。表 3 比较了清理前后的一些词频输出。

4.2 文本数据的数字化
计算机无法直接处理自然语言,因此我们需要将处理后的MD&A文本转换为计算机可读的数字格式。本文使用Word2vec 方法对 MD&A 文本进行矢量化。原因如下:一方面,该技术已在金融领域大规模应用。另一方面,通过训练将语句文本投射到低维密集向量空间中,不仅在一定程度上避免了传统离散向量导致的高空间维数问题,而且考虑了词与词之间的语义联系。

4.3准确性提升

由于我们测试集中的非欺诈样本数量 (2357) 远大于欺诈样本的数量 (296),因此直接使用机器学习算法构建模型将导致所有样本都被预测为非欺诈样本。虽然这个模型的准确性会很高,但它没有意义。为了解决这一问题,本文使用Smote算法对样本数据进行类别均衡。

4.4采用机器学习算法

本文选取朴素贝叶斯、随机森林和支持向量机(SVM)三种主流机器学习方法算法,基于模型输入数据特征构建公司欺诈识别模型。
05 实证结果
5.1 描述性统计
可读性在字、词、句和段四级指标的描述性统计如表5所示。通过对金融领域上市公司116份年报的MD&A进行计算分析。我们将样本分为欺诈样本和非欺诈样本两类,比较了两类样本在不同水平上的可读性指标与整体样本的差异。

具体来看,构成四类级的指标的描述性统计如表6所示。

首先,字层面的可读性很高,说明管理层很少刻意使用出格的词语来影响报告的阅读难度。

其次,常用词在词级的标准差很小,总体差异不大,但波动范围从0.129到0.857。此外,增加可读性难度的专业词得分最高,表明在词层面,专业词是影响报告可读性的主要因素。反连词和否定词差异很大,但在每份报告中很少使用,对词层面的可读性影响不大,成语在报告中也很少使用。

第三,在句子层面,长句和短句反映了报告编写者在写作习惯上的差异,而较长的句子使阅读更加困难。平均长度从最大值4.494到最小值0.012不等。

最后,在段落层面,MD&A部分的变化更大,说明一些公司更喜欢使用数字来具体描述他们的业务,而一些公司则更喜欢使用更主观和可操作的措辞,不容易被读者理解或误导他们。

5.2 评估指标
由于在欺诈和非欺诈问题上,常用的评估指标是准确率、精确度、召回率、F1 分数、Roc 曲线和 AUC。其中准确率是模型正确分类的样本数与样本总数的比值,代表模型的整体预测性能,而Roc只能判断它是否优于随机效应。因此,我们在综合考虑后,选择精密度、召回率、F1评分和AUC作为模型的评价指标。

同时,为了更详细地介绍上述指标,本文引入了混淆矩阵,以便更直观地确定模型性能,,如表7所示。其中,TN表示预测为欺诈的样本数量,FN表示预测为非欺诈性的样本数量,FP表示预测为欺诈的样本数,以及TP表示预测为非欺诈性的样本数,四个加总为样本总数。

  • 精确度。将模型预测的样本中的正确预测数量称为欺诈,该值越高,模型效果越好。

  • 召回率。它是模型预测为欺诈的欺诈样本的比例,用于描述筛选出多少欺诈样本,该值越高,模型效果越好。

  • F1评分。可以解释为精确率和召回率的总平均值,它结合了精确率和召回率的结果,两者的权重相同,越接近 1 表示模型性能越好。

  • ROC曲线。ROC曲线的垂直坐标为TPR(真阳性率)。AUC 是 ROC 曲线下的区域,它衡量模型对欺诈和非欺诈样本的分类能力,因此是衡量数据不平衡模型性能的更公平的评估。

5.3预测效果比较

如表8所示,本文在初始年度报告MD&A向量中增加了中文字级可读性指数、中文词级可读性指数、中文句级可读性指数和段级可读性指数,验证了使用这些不同可读性水平的MD&A文本的可行性。

首先,我们发现,在添加不同层次的可读性指标后,初始年度报告的MD&A向量之间没有较大的差距。纯朴素贝叶斯和随机森林的召回率略有下降,可能是因为提供的语义信息无法识别,但SVM分类效果显著提高,F-score准确率提高高达20%,同时保证了一定的召回率;其次,我们发现,与最初的年度报告MD&A向量相比,添加中文可读性向量后,3个机器学习模型的准确率、召回率和F-score都有显著提高。

此外,根据图1中的ROC曲线和AUC值可以看出,分类效果仍然优于随机分类器。除了普通贝叶斯AUC值损失0.0218外,随机森林和支持向量机分别增加了0.0162和0.0174。总体而言,可读性向量的增加可以提高机器学习的分类效果,语义对模型的欺诈识别性能有一定的影响。

表9还详细对比了添加可读性向量前后各分类效果指标的具体变化情况。在单个指标上,三种方法的准确率均有所提高,表明中文可读性向量可以显著补偿文本矢量化带来的语义损失。SVM的召回率为71.48%,比增加可读性前的最大值70.27%高1.21%;随机森林的准确率提高了5.43%,SVM的准确率提高了31.17%,这意味着正确确定的欺诈样本数量占预测欺诈样本的百分比也有所提高。实验证明,加入中文可读性向量后,纯贝叶斯和随机森林度量略有改善,SVM显著提高。

06 结尾
总的来说,研究发现,本文所构建的中文文本可读性向量可以弥补文本处理后缺失的语义信息,提高欺诈识别模型的有效性。中文文本可读性向量添加的效果在所有机器学习方法中都表现出显著的改进。此外,字级可读性指数越小,公司欺诈行为和不利隐藏信息的概率越高,且每一个中文可读性指标都有助于改进无可比拟的识别模型,而且每个指标都是必不可少的。
讨论时刻:
本文主要是从可读性角度对年报MD&A文本进行分析,但文本的语义信息还包括主题、情感等,那么基于这两方面构建相应指标添加入机器模型后是否效果仍会有提升,如果有,那么影响机制如何?




如果有好的建议,请留言给我们。

"大于研究"是华南理工大学经济与金融学院、金融工程研究中心于老师和学生对外分享研究成果和学习的心得的公众号。

对我们的研究感兴趣的可以联系fofscut@scut.edu.cn







大于研究
大于研究是华南理工大学金融工程研究中心的老师和学生对外分享研究成果和学习的心得的公众号。对我们的研究感兴趣的可以联系fofscut@scut.edu.cn。
 最新文章