来源 | 零壹智库
垂直大模型的第一关:把数据“煮熟”
在应用上下功夫,被很多人认为是中国大模型超车的捷径。应用就要落脚到各个行业和场景,也就是垂直大模型。但是做垂直模型也面临着很多难关。
“很多行业缺乏权威统一的标准规范,缺少工作依据,特别是金融行业,虽然有很多部门和政府都在尝试做,但还未形成统一的数据治理标准。”国家电子计算机质量检验检测中心(以下简称“国家计算机质检中心”)专家认为,这是发展垂直大模型要过的第一关,否则都将是无米之炊。
2024年8月16日,在零壹智库与苏州高铁新城产业发展有限公司联合举办的“金融数智化系列研讨会之:金融大模型的机遇与门槛”会议上,国家计算机质检中心专家对数据治理问题进行了深入阐述。
在会后的访谈中,国家计算机质检中心专家在会议发言的基础上,系统阐述了对数据治理、数据管理等方面的理解。
垂直模型初具数据基础
零壹财经:一般认为,大模型的发展有三大基础,算力、算法和数据。当前讨论较多的数据更多是各类公开和公共数据,但随着大模型向各个产业、细分领域和场景深入,行业性数据、商业性数据、用户数据等非公开数据就成为核心资源。现在是否具备发展垂直领域大模型的数据基础?
国家计算机质检中心专家:
随着各行业数字化水平持续提高以及大数据前沿技术的进步,许多企业和单位已经建立起自己的数据中心、数据仓库等,积累了大量的行业性数据、商业性数据和用户数据,其内容和种类丰富,已经初步具备了发展大模型的技术和数据基础。
但是在具体实施层面,仍然存在一些挑战。比如数据的有效性和准确性,直接影响大模型的训练效果;比如在训练过程中如何保护用户数据隐私,防止泄露。
让数据可用、好用,更加真实地反映行业和用户需求,这对于数据质量和数据安全提出了持续性要求,需要有一套常态化的数据管理手段。
数据管理的国家标准
零壹财经:看来数据管理是关键。但数据管理是很笼统的说法,可以包含数据业务的方方面面,如何建立合理的数据管理标准?
国家计算机质检中心专家:
近年来虽然对于数据管理和治理领域的标准重视程度日益提高,但其内容和方法确实缺少统一定义,通常以信息化、数字化系统建设为主要手段。
而不同企业的数据管理现状差异很大。数据治理是一项复杂工程,往往面临众多问题,需要系统性指引。
正是基于构建数据管理基础制度的顶层设计,我国从整个体系框架的层面推出了DCMM标准,即《数据管理能力成熟度评估模型》。
这是我国在数据管理领域的首个国家标准,代表了一种自上而下的数据治理方法,经过多年的大力推广,正处于高速发展期。
DCMM标准体系将企业数据管理成熟度划分为五个等级,按照从低至高的特征,分别为项目级、部门级、组织级、量化级、优化级,清晰地定位不同企业数据管理能力所处的阶段。
通过数千家企业的评估实践,已经充分证明了DCMM等级划分的科学性和适用性。
金融行业同样也适合借助DCMM标准体系的推广、贯标以及应用,帮助企业和行业机构科学的评估自身的数据管理能力,发现自身在数据管理方面的问题和不足,建立起符合自身特点的数据管理框架,为金融数据资产化、参与数据市场流通奠定了坚实基础。
零壹财经:具体而言,在哪些环节、哪些领域进行改进,才能获得更好的数据管理级别?
国家计算机质检中心专家:
DCMM体系兼顾了技术和管理多方面的要求,从组织、制度、流程、工具等多个维度综合分析,帮助企业发现问题,改进问题。它充分覆盖了数据治理的常见要素,具体包括八个核心能力域——数据战略、数据治理、数据架构、数据标准、数据应用、数据安全、数据质量、数据生存周期。
具体来说,应当运用先进的技术工具和平台,支撑大数据治理和应用工作落地;同时也要重视全过程的规范管理,引导企业的管理部门和业务部门共同参与,保障数据管理工作的闭环和常态化执行;应当自上而下地推动形成数据管理文化和意识,明确数据管理的目标、路径和权责,避免为了治理而治理;积极探索多样的数据分析、数据共享方式,挖掘并实现内外部数据资产价值。
这样多管齐下,才能全面提升数据管理水平。
挑战:大部分企业还处于2级阶段
零壹财经:经过近几年的数据管理检测和评级的推进,你们认为现在数据管理领域面临的最大的问题是什么?
国家计算机质检中心专家:
从企业方面来说,领导层面的认识和决心是最重要的,是数智化转型的原动力。面对数据管理这样一项涉及众多部门、需要耗费大量精力和财力的工作,不同行业和地区的现状也差异较大。
以DCMM全国贯标工作的数据来看,大部分企业处于2级阶段,也代表着大部分数据需求仅限于业务层面,对于数据治理体系和平台的整体规划投入不足,企业对于数据治理的意义和认识有待提升。
从行业的角度,数据管理工作在落地的过程中,往往面临行业数据标准欠缺的问题。各行业工作特性差异巨大,势必需要细致的数据质量、数据标准、数据安全等行业规范。
如果没有权威、统一的行业数据治理标准,由企业自行开展规划建设,既增加了数据治理的成本和难度,也对数据开放共享流通环节带来困难。
而在数据管理测评认证方面,虽然数据领域的各项标准在积极推进,但全国性的、权威的数据治理认证体系仍然不多。
譬如现在国家大力推动的数据入表、数据要素交易流通等工作,其前提就要求确保数据质量,由第三方机构出具数据质量报告。但数据质量标准在各行业、各地区的落地转化、评估认证仍然缺乏统一的体系,尺度和要求不一。
数据质量报告难以跨行业、跨地区的相互认可,这不仅限制了大规模数据交易和应用,也增加了国家和行业监管的难度,无法准确衡量数据质量和制定监管措施,影响数据市场的长远健康发展。
政务数据的特点与尝试
零壹财经:各行各业都有很多数据其实掌握在政府部门。从政府数据管理的角度看,目前“数据成熟度”如何?
国家计算机质检中心专家:
政府和政务数据是我国近年在数据治理领域意识比较领先的,发挥着积极作用。一方面各地政数局等数据主管部门牵头制定公共数据共享服务标准,规划和规范各地区数据治理的顶层设计。
同时一些发展水平较成熟的地区,积极牵头建设数据交换共享服务平台,甚至设立数据交易流通市场,深度参与到数据治理工作中,推动数据资源的整合和共享,为政府数据管理提供了更加便捷、高效的工具,有助于提升各地数据管理的规范化和标准化水平。
一些数字化水平较高的行业,也由各地行业主管部门积极推进,统筹行业数据标准化管理。比如金融、能源、医疗等行业的监管水平都相对领先。
我们接触了一些医疗机构,了解到北京数交所去年在北京医管局选择了六家医院做数据共享和交易试点。数据交易有多种模式,包括统一的、分场景的、分级分类的,目前主要是集中共享到交易平台,需求方经授权后按需使用,但不能拿走数据。
但不管是地方政府或者行业主管部门,他们在数据要素市场中的定位和权责与企业、公民有很大不同,更多是管理方或监管方的身份。
政务数据在数据安全、数据价值等方面的要求和关注点,也与其他种类数据有所不同。
因此在数据治理和交易流通的链条中,仍然需要不同参与方基于自身的诉求和特点,承担不同的数据治理任务,共同构建数据治理生态。
金融业数据“成熟度”较高
零壹财经:很多金融机构和金融科技机构在推进金融大模型的发展和创新。金融业是数据密度、敏感度很高的行业。在金融数据管理方面,目前整体情况如何,是否为金融大模型的发展做好了准备,您有什么建议?
国家计算机质检中心专家:
金融行业在数据管理方面,目前整体呈现出积极向好的态势,建议持续完善和提升,积极探索金融大模型的发展。
以DCMM全国贯标工作的统计数据来看,金融业虽然在企业绝对数量上不多,在获得DCMM证书的金融企业中,DCMM三级以上占比超过一半,取得最高等级的五级企业(银行)也有多家,数据治理平均能力处于全国领先。
在数据治理平台建设、数据分析应用开发等方面得分较高,在数据安全这一其他行业普遍偏弱的领域,由于金融行业的特点,也有较高的数据管理意识和管理水平。
甚至于DCMM国家标准本身,在起草之初也参考调研了我国金融行业的数据治理实践经验。
有力的行业监管和良好的数字化基础,强烈的数据治理的需求,以银行为代表的集团公司+子公司的组织形态,这些条件都为金融行业各机构、各级数据管理工作的落实提供了持续推力和资源保证。
金融数据行业可以充分发挥自身的优势积累,以行业头部机构为优势示范案例和带头,在全面深化提升整个行业的数据管理水平的同时,从数据标准、数据质量、数据开放共享等方面继续完善数据治理成果。
加强数据要素生态合作,积极创新实践,探索发展适合行业特点和发展需求的金融大模型。