大模型面临“饥荒”?三部曲解决高质量数据供给问题

科技   2024-06-24 11:26   广东  
作者:南山南
编辑:苏子瞻
来源:科技最前线 (kejizqx)
    
近日,各家大模型都迎来不小的更新,市场热度持续升温。偏C端,ChatGPT-4o、Gemini 1.5 Pro和最新的Claude 3.5 Sonnet,可谓神仙打架;行业侧,华为发布最新的盘古大模型5.0及大模型混合云十大创新技术,致力于重塑千行万业。

然而,就在我们沉浸在 AI 带来的效率提升时,一场高质量数据危机正在悄然逼近。

根据加州大学伯克利分校的研究,ChatGPT等AI驱动的“机器人”可能很快就会“耗尽宇宙中的文本”。

这一观点也得到了研究机构Epoch的支持,该机构估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”

是的,你没听错,随着机器学习技术的广泛应用,高质量的语言数据正在迅速枯竭。这对依赖海量数据进行训练的大模型来说,无疑是一个巨大的挑战。

01
迎来饥荒?
大模型高质量数据正消耗殆尽

2024年被誉为大模型从技术突破走向应用的关键一年,数据、算力、算法这三驾马车中,数据成为了当下的关键。

数据质量就像建筑的基石,决定了大模型的性能上限。高质量的数据能够让大模型学习到更准确、更丰富的知识,从而生成更逼真、更具创意的结果。未来一个模型的好坏,20%由算法决定,80%由数据质量决定。

随着大模型的快速发展,对高质量数据的需求也呈爆发式增长。然而,能够满足这些需求的数据却十分有限。主要原因有以下几点:

数据消耗速度快:大模型训练需要消耗大量数据。OpenAI曾提出大模型的Scaling Law理论,给出了最优训练数据和模型参数配比。例如,10亿模型参数最优训练数据量约为202亿token,千亿模型参数则需要上万亿token的数据用于训练。

公开数据量有限:互联网上虽然存在大量文本数据,但其中很多都是低质量的,例如垃圾信息、广告宣传等。并且公开数据集只能解决通识问题,但是细分行业的专业性问题,公开数据是无法提供参考的。

行业数据壁垒高:对于一些垂直领域,例如科技、医疗、金融等,数据往往涉及商业机密或隐私信息,很难对外共享。例如在自动驾驶领域,出于商业秘密保护,各个企业独立进行道路数据采集,很少进行数据共享。这不仅导致大量重复性工作,降低了自动驾驶算法研究的整体效率,同时每个企业采集的数据在路况、天气等方面都有局限性,无法做到更广泛情形的覆盖。

数据采集成本高:高质量数据往往需要经过采集、标注和清洗才能使用,这需要投入大量的人力和物力。还以自动驾驶研究为例,除了人力和设备,数据存储也带来巨大的成本挑战,英特尔在2016年就估计每台无人车每天将产生4000GB的数据,这些数据存储一年的成本约为35万美元,在对算法精度要求更高的今天,数据更会大幅增长。谷歌旗下Waymo也将自动驾驶数据由数量转为聚焦质量,其中重要考虑之一便是成本。对于一些资源有限的机构或个人来说,获取高质量数据是一项巨大的挑战。

02
打造国内高质量数据供给样本

好在,提高高质量数据供给,中国已经在路上。

近年来,我国电子政务和智慧城市的发展取得了令人瞩目的成就,根据《2022联合国电子政务调查报告》等研究报告显示,中国在这一领域处于世界领先水平。工信部的数据表明,中国政务云的发展速度远超全球。同时,中国拥有世界上最全的工业门类和最完整的产业链。丰富的政务数据、公共数据和工业数据成为中国数字经济发展的重要基石。

更好地利用这些数据资源,需要要充分了解和掌握数据的全貌。

2024年2月,国家数据局联合多家部委启动了全国数据资源调查。这一调查旨在全面摸清我国数据资源的家底,为数据治理和数据利用提供坚实基础。第七届数字中国建设峰会上发布的《全国数据资源调查报告(2023年)》显示,我国的数据生产规模大、范围广、增长速度快,2023年达到了新的高度。

尽管中国拥有海量的数据资源,但这些数据的潜力尚未完全释放。

报告指出,海量数据和丰富场景的优势仍需进一步挖掘。今年4月1日,全国数据工作会议提出了“探索建设数据标注基地”的计划,并在第七届数字中国建设峰会上公布了承担这一建设任务的城市名单。这将有助于将海量数据转化为可被大模型训练使用的高质量数据,进一步提升数据的实际应用价值。

高质量的数据供给和利用,也离不开企业的持续探索。前面提到,我国全面的工业门类和产业链产生了丰富的工业数据,如何使用这些数据反哺产业发展是发挥其价值的关键。

上海某公司通过多渠道采集融汇大宗商品的生产、供应及销售、价格等数据,形成产业数据库并开发商品价格指数等数据产品,为国内外现货和衍生品市场提供结算基准和定价参考,助力提升大宗商品流通效率。同时,其铁矿石价格指数被纳入国际结算依据,打破了英美商品价格指数在该领域的垄断;

浙江某公司通过公共数据授权运营,融合小商品城企业的数据,推出企业信用、外贸预警等数据产品服务,建立了覆盖义乌市场25万家商户的企业信用评价模型,2023年全年累计授信总额90.57亿元,解决了3.3万余户小微企业融资问题,助力中国小商品扬帆出海;

针对产业链,四川某公司通过建立工业数据空间,打通测试、生产、库存、应付账款、供应商资信和历史交易记录等数据,既用来破除上下游企业间的信息壁垒,对账用时最低可至30秒,降低99.72%,又用来助力中小微供应商提升授信,贷款加权利率比市场平均水平低1.05个百分点,并相较传统贷款缩短5-7天,促进产业链供应链高质量协同发展。

除了行业应用,创新技术也将加持支持数据供给效率。在这一方面,中国的科技企业正在持续探索并不断取得突破。通过提高语料清洗和语料标注效率,可以提供更高效的数据处理方案,创造更多有价值的数据资源。

03
数据的可信流通:
解决数据供给信任问题的良药

有了高质量数据,还需要在流动中才能最大化发挥数据价值。这方面也面临诸多挑战。

数据的隐私和安全问题是一个主要障碍。数据一旦流出,如何确保其不被滥用或泄露,成为数据提供者和使用者共同关注的焦点。例如,一家银行如果想要给企业提供贷款,需要获取目标企业的纳税额、员工社保参保、企业缴纳水电气费、市场监督处罚等公共数据,以此来综合评估企业经营状况、风险水平和偿贷能力,最终给出精确的贷款授信额度。若公共数据缺乏安全合规的流通条件,则银行将无法获取到高价值数据做出有效评估,导致风控压力变大。

为了破除这一障碍,隐私计算技术应运而生。隐私计算通过对数据进行加密处理,在保护数据隐私的前提下,实现数据的共享和计算。隐私计算有多种发展路径,例如,通过同态加密能对加密数据进行计算,让数据“可用不可见”;基于联邦学习,以去中心化的方式保证敏感数据待在本地,无需暴露或传输,实现“数据不动模型动”;以及构建一个独立于操作系统而存在的可信的、隔离的机密空间,数据计算仅在该安全环境内进行,通过依赖可信硬件来保障其安全。

基于隐私计算技术的多方数据可信流通方案将有力解决上述银行信贷难题。银行、授权运营公司及公共数据提供方在本地部署隐私计算服务器,同时银行将需求模型推送至各方的隐私计算节点。通过加密数据的聚合运算,得出加密运算结果并在银行本地服务器解密,即可得出明确的授信额度。在上海市,通过开放超过3000项公共数据,已经为中小微企业完成了超过3000亿元的信贷评估发放,缓解中小微企业融资难、融资慢的问题,改善了区域营商环境。

在上述技术的支持下,数据流通不再是阻碍,成为推动创新的重要力量。隐私计算的几类分支技术,在性能、保密性、准确性等方面各有侧重;通过创新技术进行融合,可以进一步增强数据可信流通的能力。

04
发挥数据价值,
让数据真正成为大模型的关键燃料

解决了高质量数据供给和流通的问题,还需要打通数据使用的“最后一公里”。

以往,BI是数据工程师或者数据分析师的“专属”,技术门槛高,且独立于业务决策之外,数据决策辅助价值没有充分体现。大模型时代,智能数据洞察帮助所有人从数据中获取最大价值。业务人员也可以更加便捷地操作BI工具,实时分析业务数据,并能通过自然语言问答等方式快速得到数据洞察,指导业务决策。

2023年,华为MetaERP表彰暨誓师大会引发行业热烈讨论,作为华为有史以来牵涉面最广、复杂性最高的项目,立项三年来,华为投入数千人,联合产业伙伴和生态伙伴攻坚克难,终于研发出面向未来的超大规模云原生的MetaERP,并成功完成对旧有ERP系统的替换。在MetaERP演进中,华为嵌入了基于智能数据洞察的35张预置报表、大屏,在供应链等方面使能高效作战指挥,整体效率提升近20倍。

此外,问答类大语言模型在实际使用时,面临大模型“幻觉”的困扰。设想一下,让大模型总结今年10月的新闻,结果它却在说2006年10月的事。“幻觉”,简而言之就是模型生成的内容与现实世界事实或用户输入不一致的现象。

对于向量化数据的应用,是解决大模型幻觉的方案之一,也就是将各类非结构化数据转化为固定长度的数字向量从而实现可计算,使机器可以“理解”这些数据的内在关联。国内某大行将语义检索与向量数据库结合,应用大语言模型与向量化的知识库检索和比对知识,对信息进行对话式结果整合,实现问答准确率大幅提升。

数据如何更有效地运用于建模,公共数据授权运营如何更加高效,都是这“最后一公里”面临的挑战。

05
三部曲,华为使能数据
“供得出、流得动、用得好”

为解决上述困境,让行业解决方案照进现实,华为云Stack通过构建一系列关键技术,实现了高质量数据的供给、可信流通和高效利用。

在数据供给方面,提供工程化语料清洗、智能化语料标注、全模态语料合成三大关键技术,通过60+种清洗算子实现百万级数据一周交付,AI语料标注使效率提升近10倍,以全模态数据合成为行业大模型提供稀缺样本。HDC 2024期间,华为云Stack大模型混合云十大创新技术重磅发布,“全链路数据工程”便是其中重要一环。

在可信流通方面,打造鲲鹏TEE+隐私计算高性能流通、大模型语料安全流通两大解决方案。前者将机密计算与多方安全计算工程性融合,兼顾安全与效率;后者采用创新的数据空间架构和数据胶囊技术,实现语料的安全、可信、高速流通以及全程可控可追溯。相关方案在华为云与上海数据集团的联合创新中得到验证,并在第七届数字中国建设峰会期间发布。


实际上,2017年华为便作为国内第一家企业,正式加入国际数据空间协会(IDSA),并开始对数据可控交换解决方案进行探索。同时,华为基于自身需求构建了企业数据交换空间,通过业务、信息、应用、技术多层架构设计,满足企业内、企业间、生态链间、行业内重要数据可信、可控、可证的交换。

例如,在承接一些国家重大研发项目过程中,通过该空间与科研院所之间进行高密数据可控交换,既保证了研发效率,也满足数据保密需求。华为云将相关能力外溢,打造交换数据空间EDS解决方案,方案于今年5月首批通过中国信通院组织的可信数据空间产品功能评估。

在高效利用方面,创新AI赋能的数据开发利用能力。以ModelArts数据模型化优化行业场景模型、缩短模型交付周期;通过盘古 for BI,打造全自然语言交的BI分析能力,助力业务人员高效决策;并推出基于语义的开箱即用、多模态智慧搜索平台,以数据向量化技术和自研向量数据库提升企业知识库智能问答准确率,从而充分释放数据价值。

华为云Stack以其强大的技术能力和创新实践,为数据“供得出、流得动、用得好”提供了有力支撑,推动了大模型和智能应用的发展。

未来,随着数据流通技术的不断进步,数据驱动的创新将迎来更多可能。


科技最前线
在这里看见未来!科技互联网头部帐号,深度解读科技产业。
 最新文章