大模型通向AGI最大的风险是数据?2026年真的会数据枯竭么?中美开源数据现状差异?一图看懂AI时代数据饥荒的应对策略与核心技术

文摘   2024-07-12 07:05   浙江  


点击箭头处“蓝色字”关注更多即时AI资讯!




导读


(T-T首先一个大鞠躬,这两天为牛为马加班导致拖更两天,不该哇!!)


近期,中国在人工智能领域迎来了一系列重大的技术突破和产品更新,市场对此反响热烈,热度不断攀升。在面向消费者端(C端),诸如阿里的通义千问、月之暗面的Kimi以及字节的豆包、腾讯的元宝等对话系统,都在智能交互领域展开了激烈的竞争,堪称技术界的"群雄逐鹿";而在行业应用侧,百度的千帆AppAgent、阿里云百炼、字节的Coze等AI模型、应用或Agent开发平台,都在积极推动个人乃至各行各业的数字化转型和智能化升级,以AI技术重塑行业生态。

这么看,2024年当之无愧是大模型从技术突破走向应用的关键一年,数据、算力、算法这三驾马车无一不是其决定大模型能力发展的关键因素。

《人工智能十大趋势》报告上指出,未来模型的表现将有80%取决于数据质量。OpenAI的研究讨论了数据和模型大小对模型性能的影响,并发现在计算资源有限的情况下,模型大小比数据量的增加更能提升性能。这一发现被称为大语言模型的缩放定律Scaling Law。可见数据不仅是AI学习的基础,更是提升模型性能的关键。

然而,随着AI技术的广泛应用,一个潜在的问题逐渐浮现——数据枯竭


2026年数据会枯竭?


数据枯竭代指的,是高质量数据的稀缺性问题。

据北京大学信息科学技术学院的研究显示,类似ChatGPT这样的AI模型,其训练过程对数据的需求几乎是无止境的。这种对数据的庞大需求,可能会导致所谓的“数据饥荒”,即高质量的训练数据变得越来越难以获得。

根据Epoch研究员Pablo Villalobos的观点,OpenAI在训练GPT-4时使用了大约1200万个token,GPT-5需要60到100万亿个token才能跟上预期的增长。关键在于即使用尽互联网上所有可能的高质量数,仍然需要10万到20万亿token,甚至更多。

月之暗面创始人杨植麟也在近期表达了类似观点,他认为大模型通向AGI最大的挑战是数据。杨植麟表示,“假设你想最后做一个比人类更好的AI,但可能根本不存在这样的数据,因为现在所有的数据都是人产生的。所以最大的问题是怎么解决这些比较稀缺、甚至一些不存在的数据。”

中国科学院计算技术研究所对这一问题表示,如果不采取有效措施,到2026年,我们可能会面临一个“数据枯竭”的局面,人类生成的数据量有限,一旦这些文本数据被耗尽,可能会成为约束语言模型继续扩展的主要瓶颈。也有一些学术论文认为,语言模型将在2026年到2032年之间利用完这些数据,如果考虑到利润最大化,过度训练数据可能会导致数据在2025年就被用完。

这种情况对于依赖大量数据进行深度学习训练的大型AI模型来说,无疑是一个严峻的挑战。


为什么会出现数据危机?


目前人工智能仍处在飞速发展的阶段,数据是最大掣肘,业界利用真实世界数据训练AI模型面临多方面问题,举例如下:

数据消耗快:大模型训练需要消耗大量数据。OpenAI的大模型Scaling Law理论给出了最优训练数据和模型参数配比-10亿模型参数最优训练数据量约为202亿token,千亿模型参数则需要上万亿token的数据用于训练。多少有点“暴力扩展”的味道。

有效公开数据量不足:互联网上虽然存在大量文本数据,但其中很多都是低质量的,例如垃圾信息、广告宣传等。并且公开数据集只能解决通识问题,但是细分行业的专业性问题,公开数据是无法提供参考的。

数据多样化不足:难以覆盖长尾、边缘案例,或者特定数据在现实世界中难以采集、不方便获取

行业数据壁垒高:对于一些垂直领域,例如科技、医疗、金融等,数据往往涉及商业机密或隐私信息,很难对外共享。

数据加工成本高:互联网上虽然存在大量文本数据,但其中很多都是低质量的,例如垃圾信息、广告宣传等。高质量数据往往需要经过采集、标注和清洗才能使用,这需要投入大量的人力和物力。数据采集、标注费时费力、成本高。


数据真的不够用了?


对于这一问题,也有人认为,现有互联网的存量数据,各个企业内部还有大量的数据没有被利用,“现在数据多到远远超过模型可以处理的量”。

“大模型结构和训练方法都不是秘密了,而语料散落在各种地方,需要把现有语料整理起来训练或微调模型,工作量非常巨大,这是目前最大的挑战。

其中的一个重要问题,是数据处理范式从结构化数据到非结构化数据的转变。结构化数据,例如数据库中的表格数据,有明确的字段和格式,易于存储和查询。而文本文档、合同协议、教材等非结构化数据,虽然包含丰富的信息和知识,但由于缺乏统一的格式,难以直接存储和检索,企业内部的非结构化数据往往也需要更专业的数据标注处理。

GPT-4仅在不到1PB的数据上训练,而有的企业内部的专有数据集体量甚至达到150PB,远远还未被完全利用。不过两者的数据在质量、类型和用途上存在显著差异。大模型面临的挑战主要在于获取高质量、多样化且合法可用的训练数据,而非简单的数据量不足。

对于“数据荒”,数据服务商景联文科技创始人刘云涛也表达了类似观点。“我们现在真实数据都来不及处理,数据不够是杞人忧天了。”他向硅星人表示,“我预估洗完之后,中国的高质量数据大概是有150TB,世界上还有很多个国家。”


数据不是越大越好?


对于数据饥荒导致模型发展受限,DeepMind的研究提出了不同的观点。他们通过使用更多的训练数据(1.4万亿个token)训练一个较小的模型(700亿参数的Chinchilla),与使用较少数据(3000亿个token)训练大模型(2800亿参数的Gopher)相比,Chinchilla在各方面几乎都表现得更好。这表明,在有限的算力资源下,更多的优质数据比简单地增加模型大小更为重要。

数据的质量和多样性对于训练出具有泛化能力的AI模型同样至关重要。如果数据集过于单一或存在偏差,训练出的AI模型可能无法准确理解和处理复杂的现实世界问题。

可见,数据也不是越大就一定越好,更重要的是高信息密度的语料规模越大,才能越好。scaling law的时代,数据更重要的是质量上的scale up。

比如,Common Crawl是400TB的数据集,包含了互联网上数十亿网页,内容非常广泛但未经清洗。而C4则是对CC进行了过滤噪声、重复内容等清洗后的305GB数据集。经评估发现基于C4训练的模型性能优于CC,足以说明语料规模不能一味追求大,经过清洗后的高质量数据,往往可以节省算力的同时得到更好性能的模型结果。

近期,DCLM项目组,从Common Crawl中成功提取并清洗出240T的数据,也为数据规模增加的可行性提供了新的证据。这一进展为数据的“Scale Up”策略提供了支持,但同时也提醒人们注意到数据处理和清洗背后的计算成本。

前scaling law的scale up,是追求数据压缩后的模型智能上限,但后scaling law时代,大家比拼的更多应该是保证模型性能的同时,数据量级尽可能的scale down,训练出“性价比”更高的模型。

例如,PbP团队利用较小模型的性能评价来过滤数据,从而提升大型模型的训练效果和收敛速度。类似地,DeepSeek通过使用fastText来清洗高质量数据,为特定场景下的模型训练提供了优质数据。

这些研究成果暗示,通过彻底优化数据的质量,小型模型的训练效果可以接近或等同于使用大规模“脏数据”训练的大型模型。这不仅示范了数据清洗在提升模型效率中的重要性,也说明在某些情况下,模型的参数规模并非越大越好,关键在于如何有效地利用每一份数据。

可见,随着AI领域的不断发展,这种对“效率”和“质量”的追求会逐渐成为研究和实践中的新趋势,数据质量势必会成为衡量AI模型性能的新标准,而不仅仅是数据规模。


中国vs美国 开源数据现状


大型语言模型汲取了大量预训练数据的广博知识。开放源代码的数据资源,包括网站、文学作品、新闻报道和学术论文等,构成了这些模型训练材料的核心。若缺少了这些开放数据的滋养,语言模型将难以获得必要的知识储备,进而影响其快速发展。

由社区和非营利性组织所推动的开放数据项目,为语言模型的训练提供了多样化的文本素材,对自然语言处理(NLP)技术的进步起到了关键作用。例如,如果没有Common Crawl这样的项目,大型模型的发展步伐可能会被拖慢。

在国际上,志愿者参与构建的开放数据集,如BookCorpus和古腾堡计划,已经积累了多年的数据。然而,在中国,鲜有类似的长期数据积累工作,这导致了中文领域数据资源的分散和孤立。

人工智能领域的开放数据提供者普遍面临一个问题:他们难以明确自身从数据开放中获得的价值。对于中小型企业来说,单纯的数据开放很难在短期内带来直接的经济回报。虽然企业开放模型可以促进技术迭代和创新,从而间接获得回报,但开放数据似乎更多是一种无私的奉献,其直接的经济利益并不明显。

与英文数据集相比,中文的大规模数据集在开放性、规模和质量方面仍有差距,这在一定程度上限制了中文自然语言处理技术的发展。

在公共数据的开放和社会利用方面,中国和美国存在差异。美国政府在推动数据开放方面发挥了重要作用,致力于尽可能多地公开数据。政府不仅建立了专门的AI训练数据平台,还对数据进行了标准化处理,如标识、清洗和标注,并提供了便捷的搜索和访问接口。社会力量则结合政府公开数据和网络开源数据,形成了高质量的训练语料,进一步推动了行业大模型的发展。

相比之下,中国的公共数据共享和利用还有待提高。在一些领域,如气象和司法,数据的开放程度不如美国。此外,在数据的开发利用中,API等技术支持也不够充分。虽然社会力量通过整合海外开源数据和国内网络公开数据,为行业大模型的发展做出了贡献,但这一过程受到了专业技术门槛高、企业数据共享意愿低、公共数据开放不充分等因素的影响。


应对数据饥荒的几大策略



1. 数据增强技术


数据生成:利用生成对抗网络(GANs)、变分自编码器(VAEs)等生成模型来创建新的合成数据。这些模型学习现有数据的分布和特征,然后生成与原始数据相似但不完全相同的数据样本,以扩充数据集。

数据变换:对现有数据进行随机变换,如翻转、旋转、裁剪、缩放、添加噪声等操作,增加数据的多样性。例如在图像数据中,可以对图像进行随机的几何变换和颜色变换;在文本数据中,可以进行词序打乱、同义词替换、添加噪声等操作。


2. 数据迁移与复用


迁移学习:将在一个大型、丰富的源数据集上学习到的知识和特征,迁移到数据稀缺的目标任务中。通过预训练一个模型在大规模通用数据集(如大规模语料库、大型图像数据集)上,然后在目标任务的小数据集上进行微调,可以利用预训练模型所学到的通用特征和模式,提高在小数据集上的学习效果。

数据复用:在不同但相关的任务和领域中复用数据。如果不同任务之间存在一定的相关性,可以将在一个任务中收集的数据应用于其他相关任务的模型训练。例如,在自然语言处理中,一个用于文本分类的数据集可能可以在相关的情感分析任务中进行复用。


3.多模态数据融合



融合多种模态的数据,如文本、图像、音频、视频等。不同模态的数据可以相互补充和验证,丰富数据的信息含量,提高模型的泛化能力和鲁棒性。


4.利用AI合成数据



AI合成数据可以作为一种有效的解决方案,通过生成高质量的合成数据来补充真实数据的不足。这种方法特别适用于那些难以获取或成本高昂的数据集。例如,自动驾驶汽车领域可以通过合成数据在仿真环境中进行训练,从而减少对真实道路测试的依赖。


一张图给大家直观的对比:


合成数据是未来么?



面对大模型发展背后如此庞大的数据需求,合成数据也是一个学术界和产业界都在尝试的重要方向。合成数据基于现有数据进行扩充,这种能力对未来的训练数据规模至关重要。业界非常看好合成数据的发展前景及其对人工智能未来发展的巨大价值。研究咨询公司 Forrester、埃森哲、Gartner、CB Insights 等都将合成数据列为人工智能未来发展的核心要素,认为它是“必选项”和“必需品”。Gartner 预测称,到 2030 年合成数据将彻底取代真实数据,成为 AI 模型所使用的数据的主要来源。

在概念上,合成数据是计算机模拟技术或算法创建、生成的自标注信息,可以在数学上或统计学上反映真实世界数据的属性,因此可以作为真实世界数据的替代品,来训练、测试、验证AI模型。简而言之,合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。

就目前而言,合成数据大致可分为三类:表格数据/结构化数据,图像、视频、语音等媒体数据,以及文本数据。这几类合成数据在多个领域都有应用。合成数据可以发挥诸多价值:

实现数据增强和模拟:可解决数据匮乏、质量欠佳等问题,改善基准测试数据的质量。

避免隐私/安全/保密问题:对于金融、医疗等对数据隐私要求较高的领域尤其重要,使用合成数据训练 AI 模型能避免涉及用户隐私。

确保数据多样性:更多地反映真实世界,提升 AI 的公平性,纠正历史数据中的偏见,消除算法歧视。

应对长尾和边缘案例:通过自动创建现实中难以或无法采集的数据场景,提高 AI 的准确性和可靠性,更好地确保 AI 模型的准确性。

提升训练速度和效果:能够更廉价、高效地批量生产制造 AI 模型训练所需的海量数据,包括训练数据、测试数据、验证数据等。

然而,合成数据也存在一些挑战和局限性。


与现实的偏差:尽管合成数据是基于一定的模型和算法生成,但它们可能无法完全准确地反映真实世界的复杂性和多样性。生成模型的假设、参数设置和简化可能导致合成数据在某些情况下与实际数据存在偏差。

缺乏罕见事件和异常值:合成数据的生成过程通常基于常见的模式和分布,可能会低估或忽略罕见事件和异常值的出现。然而,在某些应用中,这些罕见事件和异常值对于模型的性能和鲁棒性至关重要。

对生成模型的依赖:如果合成数据是由特定的生成模型产生,并且训练模型过度依赖于这些合成数据,可能会导致对生成模型的特征和模式过度拟合。当应用于真实数据时,模型的性能可能会下降。

有限的泛化能力:由于合成数据的分布和特征是基于有限的模型和参数生成的,模型可能无法很好地泛化到真实数据中的新情况和变化。若合成数据的生成基于 AI 模型的原始输出(可能包含虚假或捏造),随着时间推移,可能会破坏和降低技术性能,甚至可能导致模型崩溃等问题。

质量评估困难:确定合成数据的质量和准确性是具有挑战性的,因为没有真实的基准数据进行直接比较。评估合成数据的质量需要依赖间接的指标和方法,如与已知的统计规律、领域知识或其他数据源的一致性检查,但这些方法可能不够全面和准确。

验证和验证成本:验证合成数据在特定应用中的有效性和可靠性需要大量的实验和验证工作。此外,由于合成数据的生成过程可能涉及多个步骤和参数,确定数据质量问题的根源和进行改进也需要耗费大量的时间和资源。

总之,合成数据为 AI 模型训练提供了新的途径和可能性,但其发展仍需要在数据质量、标准定义、隐私保护等方面不断完善和规范,以充分发挥其潜力并避免潜在问题。

扫码关注更多及时AI资讯

我们一起学AI!




同桌的AI小纸条
一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用,探索人工智能领域的无限可能,并征服他们,让AI赋能生活快乐每一天!
 最新文章