2024年12月18-19日,为推动打造行业交流平台,驱动产业创新共荣,大数据技术标准推进委员会以“数据重塑价值 智能链接未来”为主题,在北京召开为期两天的“2024数据资产管理大会”。
在大会主论坛上,中国信通院云计算与大数据研究所所长何宝宏发表了题为《下一代数据治理》的演讲。
大家上午好,我是中国信通院云大所何宝宏。很高兴今天在这里为大家带来“下一代数据治理”的主题分享,为大家介绍我们在数据治理方面的最新洞察。
当前,我国数据产业呈现出储量大、增长快、多元化、应用广的发展特征。据统计2023年我国数据生产总量达到了32.85ZB,同比增长高达22.44%,数据产业规模已达2万亿元。政策方面,国家高度重视数据产业发展,2020年以来陆续出台了10多项政策文件,覆盖数据基础制度、数据整合利用、数据基础设施与数据管理能力建设。
政策和企业自身数字化转型需求推动数据管理能力不断提升,数据治理需求愈发旺盛,截至2024年8月,已有4000余家企业完成数据管理能力成熟度评估,总体来看金融、通信、电力等行业数据管理能力较为突出,普遍达到三级以上水平,这些机构数据治理发展已进入深水区,正在寻求新的发展方向。
随着国家数据局和各级数据管理机构的揭牌运行,我国上下联动、横向协同的数据工作体系基本形成,数据要素相关的政策布局思路也日渐明确,“如何确保数据供得出、流得动、用得好,更好发挥数据要素作用”成为了数据要素发展的核心主线。数据的跨主体流转和使用依赖于企业的数据治理能力,跨主体数据标准、数据质量、数据安全体系的建设迫在眉睫。
以大模型为代表的强人工智能应用正在对社会各界产生颠覆式的变革,对科技、金融、医疗健康等各个领域产生了深远的影响。据统计,截止到2024年第一季度,全球AI企业发展至近3万家,据测算,2023年全球人工智能产业市场规模达5000多亿美元,三年复合增速达19.21%。各国都在抢抓人工智能发展机遇,成立相关管理机构,加速人工智能战略与政策部署。通用人工智能的发展,离不开数据的支持,大模型使得数据与算法的边界更加模糊,数据嵌入到了模型的生成中,数据质量与安全直接影响模型结果,面向人工智能开展数据治理成为了企业关注的新课题。与此同时,在人工智能技术的加持下,传统的大数据工作有了重大变化。Text to SQL、ChatBI、智能化数据治理等应用百花齐放,数据治理开始由劳动密集型工作向自动化、智能化转变。
随着数据要素市场的蓬勃发展和人工智能技术的快速迭代,企业数据治理面临管理效能、人员协同、多模数据管理、高质量数据集建设等挑战,急需新的方法和技术来应对,下一代数据治理体系应运而生。
下一代数据治理主要有以下六大特点。
一是治理对象的全域化,企业未来需要将非结构化数据纳入治理体系,非结构化数据管理、合成数据等技术等备受关注。
二是数据研发模式的工程化,头部机构均开展DataOps的全面实践,构建数据开发、治理、运营一体化的能力,推动数据工程的敏捷化。
三是数据治理技术的智能化,传统数据治理是一项劳动密集型的工作,Text2SQL、数据安全智能分级分类、元数据智能补全等技术的应用极大地提升了数据开发治理的效率。
四是数据架构分布式化,面对大型企业复杂的组织架构,以Data Fabric为代表的架构理念致力于构建逻辑集中、物理分散的企业级数据架构,数据虚拟化、主动元数据等关键技术不断成熟。
五是数据安全治理的纵深化,一方面,随着大模型应用的普及,企业急需关注大模型引发的安全问题;另一方面,AI驱动的数据分类分级、安全风险评估监测、事件诊断等技术,有效提升数据安全治理的智能化水平和效率。
六是数据治理价值的显性化,数据资源估值重在感知和量化数据价值,数据资源入表关键在于精准核算数据相关的财务信息。2024年是数据资源估值和入表的“元年”,以央国企为代表的机构逐步探索构建数据资源估值体系,并同步开展数据资源入表试点工作。
趋势一全域数据治理。传统的数据治理理论主要是围绕结构化数据开展的,目前已经有40年的发展历史,随着人工智能技术的发展,非结构化数据迎来巨大的挖掘与应用机会,非结构化数据治理进入到企业关注的视野中。全域的数据治理涵盖了结构化数据与非结构化数据,在治理对象上,从表格数据扩展到了音视频、文本等非结构化数据;在处理方式上从以SQL为主要开发语言发展到Python语言,通过OCR、NER等算法对多模态数据进行处理;在消费对象上从以往的面向人类用户扩展为了面向机器用户;在应用场景上涵盖了AI应用与BI应用。
同时人工智能的发展离不开数据,人工智能已经从“卷算法”向“卷数据”转变,通过对训练数据开展治理,从而形成可信的训练数据集是人工智能发展的必然选择。通过关注对非结构化数据的治理、合成数据的治理,研究配套的的方法论体系、技术平台以及标准规范,进而形成质量高、安全牢、观点正的可信数据集。
从实践来看,头部机构已经开始着力构建面向人工智能的数据治理能力,例如中国移动构建了人工智能数据的质量评价体系,搭建了数据的供给与管理平台,设计了30多项质量评价指标,能够对人工智能数据集进行全面的质量评估。
中国信通院依托大数据技术标准推进委员会,上半年发布了业界首本《面向人工智能的数据治理实践指南(1.0)》,指南将人工智能工作划分为九个阶段,提炼出每个阶段所需要的数据类型,并针对业界关注的数据质量、数据安全与隐私、数据伦理等问题提出针对性的解决方案,明确了治理技术。同时,围绕非结构化数据管理、合成数据等方向,TC601还在持续开展研究和标准化工作,推动我国数据治理工作向全域化发展。
趋势二数据研发模式工程化、敏捷化。数据驱动时代,业务需求快速变化,数据处理流程纷繁复杂,企业必须处理好旺盛数据需求与数据生产力不足之间的矛盾,革新数据开发流程,加大数据供给力度,从而更好地响应需求、赋能业务发展。DataOps是一种新的数据开发模式,通过构建高效协同机制,建立精细化数据运营体系,打造规范化、一体化的数据开发流程,实现数据产品高质量与高效率地交付。2022年,中国信通院依托大数据技术标准推进委员会成立了DataOps工作组,联系近百家企业共同开展关于DataOps在中国落地的研究工作,明确了DataOps理念在国内的实践路径,并且已在多个行业进行验证。2024年,针对AI场景下训练数据集研发的特征,我们抽象出人工智能数据工程体系,构建面向AI场景的数据流水线,实现高效、高质量、安全敏捷的数据供给。
在企业实践中,中泰证券引入DataOps理念实现了数据研发能力的质效双升。通过应用DataOps的理念,其需求交付时长降低26%,研发流程等待用时降低40%,标准引用率提升120%。面向人工智能场景,中国移动构建数据汇聚、清洗、标注、供给、回流、迭代优化为一体的数据工程能力,完善规范和评估体系,打造高质量数据集。
依托DataOps标准,中国信通院开展了DataOps能力评估,已经在移动、联通、农行、工行等十多家机构落地,以评促建,帮助企业构建敏捷、精益地数据工程能力。未来,工作组还将结合各行业特征开展多个行业标准的制定,围绕全域数据工程体系开展理论研究、标准研制工作,为社会发布最新的研究成果。
趋势三 数据治理技术的智能化。据观察,企业中的数据治理是劳动密集型工作,主要体现在三个方面。一是数据处理的各个环节高度依赖人工操作,导致处理的效率及质量难以保障。二是管理流程分散、团队协同困难,产生大量重复工作。三是数据治理的规则依赖人工经验生成,难以规模复制。
“智能化数据治理”旨在借助人工智能技术手段开展数据治理工作。利用智能化技术在语义理解、逻辑推理、智能生成等方面的优势,帮助企业优化治理流程,提升治理效率及效果。在实践方面,中国工商银行的“用数助手”,以人机对话的方式降低员工用数门槛。邮储银行在数据标准制定、落地和检查评估三大核心场景实现了智能闭环管理,极大提高了贯标工作的效率与准确性。
未来,我们认为“数据治理agent”将是智能化数据治理成熟形态,有三方面优势。一是具备灵活的适应性,可以通过外部接口灵活响应外部监管要求。二是以任务落地为导向,帮助企业实现治理动作智能化实施。三是可通过对企业知识库的学习对企业偏好形成认知,并通过反馈不断优化治理方案规划,帮助企业智能决策。
趋势四数据架构分布式化。企业数据架构管理以企业内所有数据为管理对象,对数据的静态结构和动态特性进行管理,对数据的定义、分布、集成、整合等进行规划、管控和应用,确保数据与业务需求保持一致。最早数据架构来源于Zachman(扎克曼)的信息系统架构模型,已有近40年的发展历史。随着大数据、移动互联网和Web3.0等应用的普及,我国领先企业在数据管理和应用上具有新的特点和管理诉求。
数据编织是一种分布式数据管理的架构理念,支持对数据跨平台、跨域的灵活集成。采用逻辑集中、物理分散的管理方式,实现在正确的时间,从任意位置,将正确的数据与正确的人连接起来的终极目标。数据编织有以下特点:一是适配多源异构的数据来源;二是具备非常巨大的数据存储容量;三是采用分布式的数据管理架构;四是支持AI协同的自动化能力。
在企业实践方面,广东移动采用数据编织理念推动了全域数据高效管理,实现了130PB的多源异构数据的高效协同纳管。利用跨集群协同的云计算技术,构建了数据虚拟化、跨域协同、数据高效访问的三大能力,数据访问性能提升了8-10倍。利用分布式计算下推技术,构建了算子下推和任务下推的核心能力,用户位置定位时间从25分钟缩短到1分钟以内,实时营销目标客户响应率提升2.14倍。
除了解决企业内数据管理和应用的问题,数据编织还可以作为企业数据空间的底层技术,实现多主体数据的逻辑统一管理。依托大数据技术标准推进委员会,国内数据编织的理论研究、技术标准制定等工作已经陆续开展。未来我们还将进一步联合各界的专家学者共同完善数据编织的理论体系、标准体系以及标准验证工作。
趋势五数据安全的纵深化。随着三法两条例的发布实施,我国数据安全治理体系已经基本完善,企业数据安全能力建设从体系建设向场景化建设发展,数据分类分级、数据安全风险评估等工作正在如火如荼地开展。
人工智能的发展给数据安全带来了新的机遇与挑战。一方面,人工智能技术的蓬勃发展,为数据安全领域带来了前所未有的机遇。借助大模型的强大算力与智能分析能力,有望突破数据资产识别、数据标记、数据分类分级、数据流转监测、数据库审计、数据安全态势感知等技术中的卡点问题,促进安全防护的精确度、效率与全面性,满足企业在数据安全方面的迫切需求。另一方面,数据作为大模型训练的重要燃料,在模型生成、训练、精调等过程面临数据窃取、数据泄露、数据篡改等一系列数据安全风险。企业亟需构建面向大模型的数据安全能力,通过识别并管控其中的数据安全风险,形成全面的安全能力屏障,构建严密的数据安全防线。
趋势六是数据管理的价值化。在数据要素政策逐步完善、数据交易市场日趋成熟的背景下,企业以释放数据价值为导向开展数据资产化路径探索,量化数据资产、赋能业务价值、预期经济收益,明确数据资源入表流程、成本核算机制,推动数据从资源化阶段向资产化阶段发展,充分释放数据资产价值。
数据价值评估方面,头部企业已经构建数据价值评估体系。信通院去年和联通集团合作了“数据要素价值管理与实践”的研究报告,从成本投入、内部收益、外部收益全面评估了数据价值,指导企业进一步深化数据应用、优化数据管理模式。数据入表方面,截至到今年第三季度,已有50多家企业入表,累计入表金额超过15亿元,其中三大运营商入表规模占比很高,也是央企中率先开展入表披露的企业。数据交易流通方面,场内数据交易日趋规范,场外流通依然活跃。企业也在构建更多对外的能力,比如建行的产融平台、电信集团的“星海”大数据品牌都已良好运营,全力向数据要素型企业转型升级。
总结来看,下一代数据治理体系架构已经已基本形成,总体呈现出治理对象全域化、研发模式工程化、治理技术智能化、数据架构分布式、数据安全纵深化、数据管理价值化六大趋势。未来,中国信通院将持续与产业同频共振,不断完善下一代数据治理体系,为产业发展贡献力量。
我的分享到此结束,谢谢大家!
联系人:
尹老师
15810811776
yinzheng@caict.ac.cn