企业在数字化工作中,通过对业务数据进行治理和分析,挖掘数据要素价值,赋能业务转型升级。
在上述过程中,数字化实践往往是从结构化数据(表格数据)开始。然而,随着数字化的产业规模落地进程深入,非结构化数据需要予以更多关注了。
结构化数据通常是业务流直接产生的数据。在早期信息化建设中,企业以业务线上化的方式完成了业务数据化的工作,实现了对结构化数据的“初始化”积累。
结构化数据存储在关系型数据库(SQL)中,只要业务系统相关的元数据的定义是相对完善的,再加持合理的数字化业务架构设计,就可以很直观、很便捷地搭建出赋能前端业务的数据价值链路。
然而,企业除了要关注“显性”的结构化数据资源,还应当关注对非结构化数据(以文本为主,还包括音、视频等)的治理和有效利用。
在数据资产管理活动中,任何“计划”切记一定要围绕业务价值来展开,而不是围绕数据资源可获得性来展开。
固然,非结构化数据的加工和价值提炼会具有更大的难度。但是这并不能否认非结构化数据本身蕴含的宝贵业务价值。
因此,除了把业务系统中固有的业务数据元,通过ETL同步到数据中台,越来越多的企业开始“投资”非结构化数据平台的建设。
广义上来说,基于数据资源开放、共享的目的,非结构化数据平台也可以看做是数据中台的一部分,但是其主要功能和基于非结构化数据的数据链路是截然不同的。
业务系统中的非结构化数据往往是以文件(系统中上传附件)的形式出现,例如采购合同、产品参数规格说明、项目可研报告、审计报告等。
因此,非结构化数据本身存储在文件系统而非数据库中。如果不对其重新进行内容读取、分析、提炼,其实是“不可用”甚至“不可见”的。
非结构化数据提供了关于业务活动更详细的信息,是对结构化数据的重要补充。
同时,非结构化数据也为建立“全维度”、“全过程”的业务管控和公司治理体系“”,提供强大坚实的信息源和知识源基础。
也正是基于此,对非结构化数据专门进行分析,具有非常大的业务潜力。
在非结构化平台上,除了要建立非结构化数据的资源目录(建立索引)和访问管控机制,还需要对其内容进行动态的二次加工处理。
即利用框架模板、业务上规则、机器学习算法等技术策略自动提炼结构化的业务特征。
除了内部数据,互联网上的开源数据也是不容忽视的结构化数据源,可以将其进行订阅、筛选,动态注入到企业的非结构化数据平台进行有机融合。
对开源数据的分析和挖掘,一方面可以完善和验证企业现有的业务知识体系,另一方面,有利于动态感知市场环境变化,识别业务风险,有效应对品牌公关问题。
须特别注意的是,开源数据的特征是规模大,信息结构冗杂,更新速度快。
企业不应追求大而全,甄别高质量数据源尤为重要,在此基础上,再结合具体业务目标,有针对性地搭建对非结构化数据源的感知与汇聚链路。
希望关注数字化转型的企业主们能够与我们交流,一起学习和讨论关于数字化的想法!
数易达科技,长期关注数据价值开发和应用场景构建的前沿AI技术,希望通过大数据工具和平台帮助企业快速建立成熟的数据资产管理体系(了解更多)。
往期精彩推荐
为什么很多行业巨头,至今不愿做数字化 ...
为什么这两年,“大数据”谈得越来越少了 ...
数字化下半场,建“中台”还重要吗?
数字化转型中的重要管理思想!
数字化转型,为什么一定要谈“架构”?
后数字化时代,数据部门的窘境渐显!
30条金句,说透数字化转型真相!
数字化咨询,正在走向“廉价化” ...
数字化,“抓住”这几点就够了 ...
如何理性看待,中小企业数字化转型!
搞懂“数据要素”,需要了解这些事儿 ...
大型传统企业数字化转型难点与策略洞悉!
从“数据科学”视角,看懂数字化转型
公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或把本号置顶!提供数字化咨询和技术工具,有意立即添加留言!点击这里 查看服务
(Bill Liu | 数字化落地)