大模型面临“饥荒”？三部曲解决高质量数据供给问题

科技 2024-06-24 11:26 广东

作者：南山南

编辑：苏子瞻
来源：科技最前线 (kejizqx)

近日，各家大模型都迎来不小的更新，市场热度持续升温。偏C端，ChatGPT-4o、Gemini 1.5 Pro和最新的Claude 3.5 Sonnet，可谓神仙打架；行业侧，华为发布最新的盘古大模型5.0及大模型混合云十大创新技术，致力于重塑千行万业。

然而，就在我们沉浸在 AI 带来的效率提升时，一场高质量数据危机正在悄然逼近。

根据加州大学伯克利分校的研究，ChatGPT等AI驱动的“机器人”可能很快就会“耗尽宇宙中的文本”。

这一观点也得到了研究机构Epoch的支持，该机构估计，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

是的，你没听错，随着机器学习技术的广泛应用，高质量的语言数据正在迅速枯竭。这对依赖海量数据进行训练的大模型来说，无疑是一个巨大的挑战。

迎来饥荒？

大模型高质量数据正消耗殆尽

2024年被誉为大模型从技术突破走向应用的关键一年，数据、算力、算法这三驾马车中，数据成为了当下的关键。

数据质量就像建筑的基石，决定了大模型的性能上限。高质量的数据能够让大模型学习到更准确、更丰富的知识，从而生成更逼真、更具创意的结果。未来一个模型的好坏，20%由算法决定，80%由数据质量决定。

随着大模型的快速发展，对高质量数据的需求也呈爆发式增长。然而，能够满足这些需求的数据却十分有限。主要原因有以下几点：

数据消耗速度快：大模型训练需要消耗大量数据。OpenAI曾提出大模型的Scaling Law理论，给出了最优训练数据和模型参数配比。例如，10亿模型参数最优训练数据量约为202亿token，千亿模型参数则需要上万亿token的数据用于训练。

公开数据量有限：互联网上虽然存在大量文本数据，但其中很多都是低质量的，例如垃圾信息、广告宣传等。并且公开数据集只能解决通识问题，但是细分行业的专业性问题，公开数据是无法提供参考的。

行业数据壁垒高：对于一些垂直领域，例如科技、医疗、金融等，数据往往涉及商业机密或隐私信息，很难对外共享。例如在自动驾驶领域，出于商业秘密保护，各个企业独立进行道路数据采集，很少进行数据共享。这不仅导致大量重复性工作，降低了自动驾驶算法研究的整体效率，同时每个企业采集的数据在路况、天气等方面都有局限性，无法做到更广泛情形的覆盖。

数据采集成本高：高质量数据往往需要经过采集、标注和清洗才能使用，这需要投入大量的人力和物力。还以自动驾驶研究为例，除了人力和设备，数据存储也带来巨大的成本挑战，英特尔在2016年就估计每台无人车每天将产生4000GB的数据，这些数据存储一年的成本约为35万美元，在对算法精度要求更高的今天，数据更会大幅增长。谷歌旗下Waymo也将自动驾驶数据由数量转为聚焦质量，其中重要考虑之一便是成本。对于一些资源有限的机构或个人来说，获取高质量数据是一项巨大的挑战。

打造国内高质量数据供给样本

好在，提高高质量数据供给，中国已经在路上。

近年来，我国电子政务和智慧城市的发展取得了令人瞩目的成就，根据《2022联合国电子政务调查报告》等研究报告显示，中国在这一领域处于世界领先水平。工信部的数据表明，中国政务云的发展速度远超全球。同时，中国拥有世界上最全的工业门类和最完整的产业链。丰富的政务数据、公共数据和工业数据成为中国数字经济发展的重要基石。

更好地利用这些数据资源，需要要充分了解和掌握数据的全貌。

2024年2月，国家数据局联合多家部委启动了全国数据资源调查。这一调查旨在全面摸清我国数据资源的家底，为数据治理和数据利用提供坚实基础。第七届数字中国建设峰会上发布的《全国数据资源调查报告（2023年）》显示，我国的数据生产规模大、范围广、增长速度快，2023年达到了新的高度。

尽管中国拥有海量的数据资源，但这些数据的潜力尚未完全释放。

报告指出，海量数据和丰富场景的优势仍需进一步挖掘。今年4月1日，全国数据工作会议提出了“探索建设数据标注基地”的计划，并在第七届数字中国建设峰会上公布了承担这一建设任务的城市名单。这将有助于将海量数据转化为可被大模型训练使用的高质量数据，进一步提升数据的实际应用价值。

高质量的数据供给和利用，也离不开企业的持续探索。前面提到，我国全面的工业门类和产业链产生了丰富的工业数据，如何使用这些数据反哺产业发展是发挥其价值的关键。

上海某公司通过多渠道采集融汇大宗商品的生产、供应及销售、价格等数据，形成产业数据库并开发商品价格指数等数据产品，为国内外现货和衍生品市场提供结算基准和定价参考，助力提升大宗商品流通效率。同时，其铁矿石价格指数被纳入国际结算依据，打破了英美商品价格指数在该领域的垄断；

浙江某公司通过公共数据授权运营，融合小商品城企业的数据，推出企业信用、外贸预警等数据产品服务，建立了覆盖义乌市场25万家商户的企业信用评价模型，2023年全年累计授信总额90.57亿元，解决了3.3万余户小微企业融资问题，助力中国小商品扬帆出海；

针对产业链，四川某公司通过建立工业数据空间，打通测试、生产、库存、应付账款、供应商资信和历史交易记录等数据，既用来破除上下游企业间的信息壁垒，对账用时最低可至30秒，降低99.72%，又用来助力中小微供应商提升授信，贷款加权利率比市场平均水平低1.05个百分点，并相较传统贷款缩短5-7天，促进产业链供应链高质量协同发展。

除了行业应用，创新技术也将加持支持数据供给效率。在这一方面，中国的科技企业正在持续探索并不断取得突破。通过提高语料清洗和语料标注效率，可以提供更高效的数据处理方案，创造更多有价值的数据资源。

数据的可信流通：

解决数据供给信任问题的良药

有了高质量数据，还需要在流动中才能最大化发挥数据价值。这方面也面临诸多挑战。

数据的隐私和安全问题是一个主要障碍。数据一旦流出，如何确保其不被滥用或泄露，成为数据提供者和使用者共同关注的焦点。例如，一家银行如果想要给企业提供贷款，需要获取目标企业的纳税额、员工社保参保、企业缴纳水电气费、市场监督处罚等公共数据，以此来综合评估企业经营状况、风险水平和偿贷能力，最终给出精确的贷款授信额度。若公共数据缺乏安全合规的流通条件，则银行将无法获取到高价值数据做出有效评估，导致风控压力变大。

为了破除这一障碍，隐私计算技术应运而生。隐私计算通过对数据进行加密处理，在保护数据隐私的前提下，实现数据的共享和计算。隐私计算有多种发展路径，例如，通过同态加密能对加密数据进行计算，让数据“可用不可见”；基于联邦学习，以去中心化的方式保证敏感数据待在本地，无需暴露或传输，实现“数据不动模型动”；以及构建一个独立于操作系统而存在的可信的、隔离的机密空间，数据计算仅在该安全环境内进行，通过依赖可信硬件来保障其安全。

基于隐私计算技术的多方数据可信流通方案将有力解决上述银行信贷难题。银行、授权运营公司及公共数据提供方在本地部署隐私计算服务器，同时银行将需求模型推送至各方的隐私计算节点。通过加密数据的聚合运算，得出加密运算结果并在银行本地服务器解密，即可得出明确的授信额度。在上海市，通过开放超过3000项公共数据，已经为中小微企业完成了超过3000亿元的信贷评估发放，缓解中小微企业融资难、融资慢的问题，改善了区域营商环境。

在上述技术的支持下，数据流通不再是阻碍，成为推动创新的重要力量。隐私计算的几类分支技术，在性能、保密性、准确性等方面各有侧重；通过创新技术进行融合，可以进一步增强数据可信流通的能力。

发挥数据价值，

让数据真正成为大模型的关键燃料

解决了高质量数据供给和流通的问题，还需要打通数据使用的“最后一公里”。

以往，BI是数据工程师或者数据分析师的“专属”，技术门槛高，且独立于业务决策之外，数据决策辅助价值没有充分体现。大模型时代，智能数据洞察帮助所有人从数据中获取最大价值。业务人员也可以更加便捷地操作BI工具，实时分析业务数据，并能通过自然语言问答等方式快速得到数据洞察，指导业务决策。

2023年，华为MetaERP表彰暨誓师大会引发行业热烈讨论，作为华为有史以来牵涉面最广、复杂性最高的项目，立项三年来，华为投入数千人，联合产业伙伴和生态伙伴攻坚克难，终于研发出面向未来的超大规模云原生的MetaERP，并成功完成对旧有ERP系统的替换。在MetaERP演进中，华为嵌入了基于智能数据洞察的35张预置报表、大屏，在供应链等方面使能高效作战指挥，整体效率提升近20倍。

此外，问答类大语言模型在实际使用时，面临大模型“幻觉”的困扰。设想一下，让大模型总结今年10月的新闻，结果它却在说2006年10月的事。“幻觉”，简而言之就是模型生成的内容与现实世界事实或用户输入不一致的现象。

对于向量化数据的应用，是解决大模型幻觉的方案之一，也就是将各类非结构化数据转化为固定长度的数字向量从而实现可计算，使机器可以“理解”这些数据的内在关联。国内某大行将语义检索与向量数据库结合，应用大语言模型与向量化的知识库检索和比对知识，对信息进行对话式结果整合，实现问答准确率大幅提升。

数据如何更有效地运用于建模，公共数据授权运营如何更加高效，都是这“最后一公里”面临的挑战。

三部曲，华为使能数据

“供得出、流得动、用得好”

为解决上述困境，让行业解决方案照进现实，华为云Stack通过构建一系列关键技术，实现了高质量数据的供给、可信流通和高效利用。

在数据供给方面，提供工程化语料清洗、智能化语料标注、全模态语料合成三大关键技术，通过60+种清洗算子实现百万级数据一周交付，AI语料标注使效率提升近10倍，以全模态数据合成为行业大模型提供稀缺样本。HDC 2024期间，华为云Stack大模型混合云十大创新技术重磅发布，“全链路数据工程”便是其中重要一环。

在可信流通方面，打造鲲鹏TEE+隐私计算高性能流通、大模型语料安全流通两大解决方案。前者将机密计算与多方安全计算工程性融合，兼顾安全与效率；后者采用创新的数据空间架构和数据胶囊技术，实现语料的安全、可信、高速流通以及全程可控可追溯。相关方案在华为云与上海数据集团的联合创新中得到验证，并在第七届数字中国建设峰会期间发布。

实际上，2017年华为便作为国内第一家企业，正式加入国际数据空间协会（IDSA），并开始对数据可控交换解决方案进行探索。同时，华为基于自身需求构建了企业数据交换空间，通过业务、信息、应用、技术多层架构设计，满足企业内、企业间、生态链间、行业内重要数据可信、可控、可证的交换。

例如，在承接一些国家重大研发项目过程中，通过该空间与科研院所之间进行高密数据可控交换，既保证了研发效率，也满足数据保密需求。华为云将相关能力外溢，打造交换数据空间EDS解决方案，方案于今年5月首批通过中国信通院组织的可信数据空间产品功能评估。

在高效利用方面，创新AI赋能的数据开发利用能力。以ModelArts数据模型化优化行业场景模型、缩短模型交付周期；通过盘古 for BI，打造全自然语言交的BI分析能力，助力业务人员高效决策；并推出基于语义的开箱即用、多模态智慧搜索平台，以数据向量化技术和自研向量数据库提升企业知识库智能问答准确率，从而充分释放数据价值。

华为云Stack以其强大的技术能力和创新实践，为数据“供得出、流得动、用得好”提供了有力支撑，推动了大模型和智能应用的发展。

未来，随着数据流通技术的不断进步，数据驱动的创新将迎来更多可能。

科技最前线

在这里看见未来！科技互联网头部帐号，深度解读科技产业。

最新文章

保时捷困境，国产新能源的豪车叙事

当内娱给百度网盘充起了会员

台积电断供！国产AI芯未来路在何方？

太疯狂！国产AI 20天狂烧3亿，新“掘金密码”曝光

AR，正逐步进入生产力工具时代

特斯拉创13年来单日最大涨幅！一夜涨了半个茅台

以AI之力应对AI引发的网络挑战——大模型还能这么用

顶流品牌纷纷押注，《和平精英》打响新时代跨界合作又一枪

让OpenAI o1成AI天花板的慢思考模式，360已提前两个月落地

李彦宏内部讲话曝光，谈大模型三大认知误区

资本连夜逃离英伟达

跨界联动？秘塔AI搜索有点意思

巨头即将入局？闺蜜机行业格局或面临“洗牌”？

DPU，扮演重要角色

Robotaxi的尽头是抢夺背后1100万个饭碗？

傲慢的李想

一副耳机，开启AI生产力新时代

大模型面临“饥荒”？三部曲解决高质量数据供给问题

神秘小蓝环，解锁NFC支付新魔法

大模型竞赛？我觉得海螺AI这次还真能赢

“党员”马斯克豪赌的FSD，真有那么神奇？

抖音做AI，真的有一手

电子书下载 | 利用 OpenUSD 和 NVIDlA Omniverse™ 开启物理精确模拟世界 AI 新时代

小米启动，特斯拉急了，谁在围剿国产新能源

AI能管天气？世界模型的一个超级实验

雷军：睡不着觉的痛苦，该轮到你们了

阿里妈妈LMA大模型技术来袭，AI电商迎来“iphone时刻”

能超越英伟达的只有英伟达

视频号创作者联盟 WeGet成立，专注行业交流，打造高品质内容

ChatGPT耗水费电，杨立昆痛批Sora注定失败，生成式成为原罪？

英伟达赢麻的当下，AI初创企业何去何从？

当AI遇上爽文，当套路遇上套路

2023新王已出，2024谁将是新能源车圈第一？

299即享千元体验，百事乐八核L23手机用心倾听每一份需求

电竞发展史：始于正名，兴于规范

自主创新再迎重磅成果：国产数据库为数字政府建设夯基筑底

Google大模型Gemini，全球最强AI模型正式易主？

从亚马逊看中国电商

已进入全面数字化阶段的美的再有新动作！DMS4.0能带来哪些惊喜？

再放王炸！AI版AppStore重磅上线，GPTs才是ChatGPT真正的完全体

国产工业软件的“软肋”与“铠甲”

比亚迪的仰望

营收百亿，大涨4500%，第一批大模型已经赚疯了

科技+匠心，易开得一杯好水的奔赴

星闪技术商用，科技爆品来袭

新能源汽车竞争下半场：在价格，更在智能化

AIGC中场竞赛的决胜点，一定是抓住了好的应用场景

杀回5G的华为，能否再次硬刚苹果？

激光雷达行业新机遇：国内首款面阵SPAD芯片研发落地！

AI大模型的风，终究都吹向了英伟达

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉