论文:基于语言可读性向量的企业欺诈检测:在中国金融企业中的应用
下载地址:
https://doi.org/10.1016/j.irfa.2024.103405
由于财务信息披露的标准化程度提高,仅使用财务指标识别新的违规行为变得更加困难 自然语言处理和机器学习方法越来越多地被用于欺诈识别,但由于在自然语言处理过程中无法保留文本结构的语义特征,因此结果并不理想。 可读性是年报中语义信息的重要表现形式。
词的通用性。对于读者来说,当中国年度报告中包含更常用的词语时,读者的阅读障碍更少,可理解性更强。我们以常用词与成语占总词数比重进行衡量。同理,常用词比可以由常用词的数量除以词总数进行计算。
词的专业性。相关研究发现,大多数中国报告在阅读难度方面可与专业的科学和学术论文相媲美,主要是因为其中包含大量金融术语。因此,我们也考虑专业术语占比,可以由专业词的数量除以词总数进行计算。
词的传递性。研究显示,一个句子包含虚拟词、连词和否定词越多,文本的逻辑关系就越复杂,文本就越难理解。因此,本文关注反比和否定率两个指标,即以逆连接关系连接词与词语总数的比值和否定词与词语总数的比值为变量来衡量年报的语义复杂度。
句子长度。从读者的角度来看,理解长句需要更多的时间和精力,尤其是由多个从句组成的复杂句子。因此本文定义平均句子长度等于单词总数除以句子总数。
句子复杂度。在日常语言使用中,简单的陈述性复杂句子比具有更多单词、修饰语和复杂结构的句子更容易理解。因此,本文以陈述句占句子总数的比重来衡量年报的语义复杂度。
精确度。将模型预测的样本中的正确预测数量称为欺诈,该值越高,模型效果越好。
召回率。它是模型预测为欺诈的欺诈样本的比例,用于描述筛选出多少欺诈样本,该值越高,模型效果越好。
F1评分。可以解释为精确率和召回率的总平均值,它结合了精确率和召回率的结果,两者的权重相同,越接近 1 表示模型性能越好。
ROC曲线。ROC曲线的垂直坐标为TPR(真阳性率)。AUC 是 ROC 曲线下的区域,它衡量模型对欺诈和非欺诈样本的分类能力,因此是衡量数据不平衡模型性能的更公平的评估。
如果有好的建议,请留言给我们。
"大于研究"是华南理工大学经济与金融学院、金融工程研究中心于老师和学生对外分享研究成果和学习的心得的公众号。
对我们的研究感兴趣的可以联系fofscut@scut.edu.cn