企业在数字化工作中,通过对业务数据进行治理和分析,挖掘数据要素价值,赋能业务转型升级。
在上述过程中,数字化实践往往是从结构化数据(表格数据)开始。然而,随着数字化的产业规模落地进程深入,非结构化数据需要予以更多关注了。
结构化数据通常是业务流直接产生的数据。在早期信息化建设中,企业以业务线上化的方式完成了业务数据化的工作,实现了对结构化数据的“初始化”积累。
结构化数据存储在关系型数据库(SQL)中,只要业务系统相关的元数据的定义是相对完善的,再加持合理的数字化业务架构设计,就可以很直观、很便捷地搭建出赋能前端业务的数据价值链路。
然而,企业除了要关注“显性”的结构化数据资源,还应当关注对非结构化数据(以文本为主,还包括音、视频等)的治理和有效利用。
在数据资产管理活动中,任何“计划”切记一定要围绕业务价值来展开,而不是围绕数据资源可获得性来展开。
固然,非结构化数据的加工和价值提炼会具有更大的难度。但是这并不能否认非结构化数据本身蕴含的宝贵业务价值。
因此,除了把业务系统中固有的业务数据元,通过ETL同步到数据中台,越来越多的企业开始“投资”非结构化数据平台的建设。
广义上来说,基于数据资源开放、共享的目的,非结构化数据平台也可以看做是数据中台的一部分,但是其主要功能和基于非结构化数据的数据链路是截然不同的。
业务系统中的非结构化数据往往是以文件(系统中上传附件)的形式出现,例如采购合同、产品参数规格说明、项目可研报告、审计报告等。
因此,非结构化数据本身存储在文件系统而非数据库中。如果不对其重新进行内容读取、分析、提炼,其实是“不可用”甚至“不可见”的。
非结构化数据提供了关于业务活动更详细的信息,是对结构化数据的重要补充。
同时,非结构化数据也为建立“全维度”、“全过程”的业务管控和公司治理体系“”,提供强大坚实的信息源和知识源基础。
也正是基于此,对非结构化数据专门进行分析,具有非常大的业务潜力。
在非结构化平台上,除了要建立非结构化数据的资源目录(建立索引)和访问管控机制,还需要对其内容进行动态的二次加工处理。
即利用框架模板、业务上规则、机器学习算法等技术策略自动提炼结构化的业务特征。
除了内部数据,互联网上的开源数据也是不容忽视的结构化数据源,可以将其进行订阅、筛选,动态注入到企业的非结构化数据平台进行有机融合。
对开源数据的分析和挖掘,一方面可以完善和验证企业现有的业务知识体系,另一方面,有利于动态感知市场环境变化,识别业务风险,有效应对品牌公关问题。
须特别注意的是,开源数据的特征是规模大,信息结构冗杂,更新速度快。
企业不应追求大而全,甄别高质量数据源尤为重要,在此基础上,再结合具体业务目标,有针对性地搭建对非结构化数据源的感知与汇聚链路。
欢迎关注小刘老师2024年数字化新书,《从数据科学看懂数字化转型》,清华大学出版社
猜你想看更多文章
公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶!同时欢迎点击进行商务咨询交流!