批判和展望:Python文本分析在“企业数字化转型”的“滥用”越走越远,远离初心

学术   2024-08-03 19:05   安徽  
开文第一问:企业数字化转型真的可以用Python文本分析度量吗?
在回答目前大行其道的Python文本分析法能否测算企业数字化转型的问题之前,我们有必要简单地熟悉一下企业数字化转型的基本定义。企业数字化转型是什么?数字化转型是数字技术与产业发展的深度融合,将数字技术的运用贯穿于企业经营管理的方方面面,企业数字化转型的本质是通过整合使用数字技术对企业经营活动进行重要变革的过程。

其次,企业数字化转型的程度,必定有高低之分,一般可用数字技术的投入或产出(绝对值,或相对比例),或者涉及到数字技术运用环节的投入或产出比例。通过这方面的数据测算能有效地呈现出企业数字化转型的程度。

但是,从目前学界最为普通的测算方法来看,中国主流文献甚至顶级期刊基本上运用Python文本分析法来测算。那么,这种方法在测算企业数字化转型上是否合理?个人认为,这种测算方法违背了基本逻辑的合理性

首先,我们来看看Python文本分析法是如何“企业数字化转型”的。其基本的思想是:通过 Python 爬虫功能归集整理了上海交易所、深圳交易所全部 A 股上市企业的年度报告,并通过 Java PDFbox库提取所有文本内容,并以此作为数据池供后续的特征词筛选。具体思路如下:首先,参考一系列以数字化转型为主题的经典文献,归纳整理出有关数字化转型的特定关键词;在重要政策文件和研究报告借鉴上,本文以《中小企业数字化赋能专项行动方案》《关于推进“上云用数赋智”行动培育新经济发展实施方案》《2020年数字化转型趋势报告》以及近年《政府工作报告》为蓝本,进一步扩充数字化转型的特征词库,并依照前述分析展开结构化分类,形成了特征词图谱。其次,基于Python对上市企业年报文本提取形成的数据池,根据特征词进行搜索、匹配和词频计数,进而分类归集关键技术方向的词频并形成最终加总词频,从而构建企业数字化转型的指标体系。最后,在具体的度量方式上,通过文本挖掘方法,从上市企业年报MD&A中提取特定的文本内容,一般有三种方法:(1)用数字化等方面的词语数量占MD&A总词语数量的比例;(2)用数字化等方面句子的数量占MD&A句子总数的比例;(3)用数字化等方面字段(句子)的数量加总后的自然对数处理。

通过梳理上述分析思路,试问:年报中关于数字化方面的词段或句子数量的简单加总,就真的可以度量企业数字化转型的程度吗?如果上述问题回答“可以”的话,这是不是进一步意味着可有以下这个操作:作为编辑企业年报的企业管理者,可以通过增加企业年报中与数字化、大数据、人工智能、云计算等措辞或句子来提高企业数字化转型程度了

显然,对于正常经营的企业而言,这种测算方法存在逻辑上误区,违背了基本的合理性,肯定是不行的。对此,甚至有网友调侃道:“词频如果能衡量数字化程度的话,那大家多给年报里写点数字化相关的词汇,咱们国家企业的数字化程度就都上去了,这种方法得出的结论很荒谬。”

而且,还有学者指出,因关键词概念快速更迭、词库构建偏差等问题,这种测算方法所得的指数会存在较大的测量误差,结论是否稳健性面临很大的挑战性。

对此,那就会有读者问道:目前阶段有没有相对比较合理的“企业数字化转型”度量方法呢?

可以说是有的,当然这是相对而言,即以企业在数字技术方面的软硬件投入作为基础数据测度(刘飞、田高良,2019;方明月等,2022)。有人会说,这种测算方法跟之前所研究“ERP系统”投入没什么两样,也不是最好的方法。但是,需要明确的是,相对于Python文本分析法出现逻辑上明显的设计误区,以企业在数字技术方面的软硬件投入作为测度企业数字化转型在数据来源上更具客观性、在逻辑思维上更具合理性。

实际上,随着当前数字经济在推动中国经济高质量发展中的地位越来越重要,要求企业披露与数字化转型的客观数据或信息尤为关键。为此,实务或监管部门可以:(1)强制要求上市公司披露相关数字化转型投入和运行的相关数据;或者:(2)可由官方开展上市公司数字化转型数据或现状的调研,调研问卷可以咨询企业管理者评估企业数字化转型基本情况,如设计“无数字化转型、初始程度、使用阶段(部分工作已数字化)、中等阶段(多环节管理打通)、一体化程度(各部分实现集成)”(毛宁等,2022)。当然,这种方法可能带有一定的主观性,但相对于Python文本分析法,这种调研式测度方法依然更具合理性。

最后,作为当前数据挖掘和机器学习的Python文本分析法,它在企业年报研究方面如何大展拳脚呢?换言之,可行性方向在哪里?

在讨论Python文本分析法可行性之前,我们有必要了解一下企业年报的编辑者是谁及其作用。企业年报的作用是企业向外部投资者总结过去一年经营情况以及对未来的展望,且具有法律约束性的报告,而年报的提供者是企业管理者,可以简单地比喻为“年报犹如是企业管理者的年度答卷,既包括对过去所掌握知识的呈现和总结(当然,这里包括客观或主观,所以需要第三方会计事务所的审计),也包括自身对企业发展一些问题的思考,即对未来展望的思考,如企业未来发展战略或构思。”因此,在某种程度上来讲,企业年报是企业管理者对其管理“业绩”的一份评价书,从年报措辞可以观察出企业或企业管理者的预期、情绪、感知,或对每类事情的关注度、重视程度……

为此,有研究利用企业年报中有关词段或语句来测算企业不确定性感知,将企业不确定性感知界定为企业对以经济和政策不确定性为主的宏观不确定性的感知程度。通常来讲,企业年报是企业对外展示自我的“一面镜子”,也是反映企业对于自身过去绩效评价、未来环境认知和预估的一种信息展示窗口,通过文本挖掘方法来提取企业年报中表示“不确定性”的词(句子)能在一定程度上有效反映出企业不确定性感知概况。在具体的度量方式上,参考聂辉华等(2020)、何超等(2022)的研究,通过文本挖掘方法,从上市企业年报MD&A中提取特定的文本内容,并以此采取两种方式衡量企业感知到经济政策不确定性指标:①用经济政策不确定性句子中不确定性词语数量占MD&A总词语数量的比例;②用经济政策不确定性句子的数量占MD&A句子总数的比例。

显然,上述这个测算或运用思路就为Python文本分析法在企业年报研究层面的运用提供了一个非常好的指引。

……
相关视频请看B站本期视频《Python文本分析在“企业数字化转型”的“滥用”越走越远,远离初心》。
视频观看方式
1. B站视频链接:Python文本分析在“企业数字化转型”的“滥用”,越走越远,远离初心_哔哩哔哩_bilibili
2. 在B站上关注账号“Michaelscholar”,可观看主题相同的视频。
3. 点击左下角“阅读原文”链接。

Michael计量课堂随记
凡是经管专业的硕博研究生,了解简单的计量知识,掌握实证研究经验,都关注我了!更全的计量课堂资源,请关注全网同名(B.Z.)up主用户:Michaelscholar.
 最新文章