用于训练大模型的数据将于2028年耗尽,模型研究方向可能转向更小、更专

科技   2024-12-15 20:31   北京  

本文译自《自然》网站 12月11日刊发的特写文章《The AI revolution is running out of data. What can researchers do?》。作者:Nicola Jones。翻译:智能超参数。点击文末“阅读原文”可跳转英文版原文。


互联网是人类知识的浩瀚海洋,但并非取之不尽。人工智能研究人员几乎已经将其榨干。


过去十年,人工智能的爆炸式发展很大程度上得益于神经网络的不断扩大和使用越来越多的数据进行训练。事实证明,这种扩展非常有效,可以制造大型语言模型(LLM)(例如支持聊天机器人 ChatGPT 的模型),使其既能复制对话语言,又能开发推理等新兴特性。


但一些专家表示,我们现在正接近扩展的极限。部分原因是计算对能源的需求不断膨胀。但也因为 LLM 开发人员用于训练模型的传统数据集已经用完了。


今年,一项著名研究因对这一问题进行量化而成为头条新闻:虚拟研究机构 Epoch AI 的研究人员预测,到 2028 年左右,用于训练 AI 模型的数据集的大小将达到与公共在线文本的估计总库存相同的大小。


换句话说,AI 很可能在大约四年内耗尽训练数据。


与此同时,数据所有者(例如报纸出版商)开始严厉打击其内容的使用方式,进一步收紧访问权限。麻省理工学院的 AI 研究员 Shayne Longpre 表示,这正在导致“数据共享”规模的危机”。


训练数据即将面临的瓶颈可能即将出现。“我强烈怀疑这种情况已经发生了,”Longpre 说道。


尽管专家表示,这些限制可能会减缓人工智能系统的快速发展,但开发人员正在寻找解决方法。


“我认为没有大型人工智能公司感到恐慌,”Epoch AI 研究员、预测 2028 年数据崩溃的研究报告的主要作者 Pablo Villalobos 表示。


例如,位于加州旧金山的 OpenAI 和 Anthropic 等知名人工智能公司已公开承认了这一问题,并表示他们有计划解决这个问题,包括生成新数据和寻找非常规数据源。


OpenAI的一位发言人告诉《自然》杂志:“我们使用的来源多种多样,包括公开数据和合作伙伴的非公开数据、合成数据生成和来自人工智能训练师的数据。”


即便如此,数据紧缩可能会迫使人们构建的生成式人工智能模型类型发生剧变,可能将格局从大型、通用的 LLM 转向更小、更专业的模型。


数万亿字


过去几年,大语言模型的发展显示出其对数据的极大需求。尽管一些开发人员没有公布其最新模型的规格,但 Pablo Villalobos 估计,自 2020 年以来,用于训练大模型的“token”或单词部分的数量已增加了 100 倍,从数千亿增加到数十万亿。


尽管总数如此之大,难以确定,但这可能是互联网上很大一部分内容。Pablo Villalobos 估计,如今互联网上的文本数据总量为 3,100 万亿个tokens。


一些公司或学者会自行抓取和清理数据,以制作定制数据集来培训大语言模型。互联网上的一小部分内容被认为是高质量的,例如可能在书籍或新闻报道中找到的人工编辑的、社会可接受的文本。


互联网可用内容的增长速度令人惊讶地缓慢:Pablo Villalobos的论文估计,互联网可用内容的年增长率不到 10%,而人工智能训练数据集的规模每年增长一倍以上。


预测这些趋势表明,这些趋势将在2028年左右汇合。


与此同时,内容提供商越来越多地加入软件代码或完善其使用条款,以阻止网络爬虫或人工智能公司抓取其数据进行训练。


今年 7 月,麻省理工学院的 AI 研究员 Shayne Longpre 和他的同事发布了一份论文,显示阻止特定爬虫访问其网站的数据提供商数量急剧增加。在三个主要清理数据集中质量最高、使用最频繁的网络内容中,限制爬虫访问的tokens数量从 2023 年的不到 3% 上升到 2024 年的 20-33%。


目前,已有数起内容诉讼正在进行中,旨在为 AI 训练中使用的数据提供者争取赔偿。2023 年 12 月,《纽约时报》起诉 OpenAI 及其合作伙伴微软侵犯版权;今年 4 月,纽约市 Alden Global Capital 旗下的八家报纸联合提起了类似的诉讼。


如果法院支持内容提供商应获得经济补偿的诉求,那么人工智能开发者和研究人员将更难获得他们所需的东西——包括资金并不雄厚的学者。“学术界将受到这些交易的最大打击,”Shayne Longpre 说。“开放的网络有很多非常有利于社会、有利于民主的好处,”他补充道。


查找数据


数据紧缩对传统的 AI 扩展策略构成了潜在的大问题。Longpre 表示,尽管可以在不扩大训练数据的情况下扩大模型的计算能力或参数数量,但这往往会导致 AI 速度变慢且成本高昂——这通常不是首选。


如果目标是找到更多数据,一种选择可能是收集非公开数据,例如 WhatsApp 消息或 YouTube 视频的文字记录。然而,Villalobos 估计,目前此类专有内容可能总共只包含千万亿个文本 tokens 。


考虑到其中很多都是低质量或重复的内容,他说这足以将数据瓶颈延迟一年半。“即使数据量增加十倍,也只能为你带来大约三年的扩展时间,”他说。


另一个选择可能是专注于天文或基因组数据等专业数据集,这些数据集正在迅速增长。加州斯坦福大学著名人工智能研究员李飞飞公开支持这一战略。她在 5 月份的彭博技术峰会上表示,数据耗尽的担忧过于狭隘地看待了数据,因为医疗保健、环境和教育等领域都有尚未开发的信息。


但 Villalobos 表示,目前还不清楚这些数据集对于培训大语言模型的可用性或实用性。“多种类型的数据之间似乎存在一定程度的迁移学习,”Villalobos 说。“话虽如此,我对这种方法并不抱太大希望。”


如果生成式人工智能能够针对其他数据类型(而不仅仅是文本)进行训练,那么可能性就会更大。一些模型已经能够在一定程度上针对未标记的视频或图像进行训练。扩展和改进此类能力可能会打开获取更丰富数据的大门。


Yann LeCun 是 Meta 的首席人工智能科学家,也是纽约大学的计算机科学家,被认为是现代人工智能的创始人之一。今年 2 月,他在加拿大温哥华举行的一次人工智能会议上的演讲中强调了这些可能性。


LeCun估算,用于训练基础模型的10的1 次方个tokens听起来很多,一个人需要17万年才能读完。但是,他说,一个4岁的孩子在清醒时仅仅通过观察物体就能吸收 50 倍于此的数据量。


类似的数据丰富性最终可能会被机器人形式的人工智能系统所利用,这些系统可以从自己的感官体验中学习。LeCun说:“我们永远不可能仅通过语言训练就达到人类水平的人工智能,这是不可能实现的。”


如果找不到数据,那么还可以创造。一些人工智能公司付钱给人们,让他们为人工智能训练生成内容;另一些公司则使用人工智能生成的合成数据来为人工智能服务。


这是一个潜在的巨大来源:今年早些时候,OpenAI 表示它每天生成 1000 亿个单词——每年超过 36 万亿个单词,大约与当前的人工智能训练数据集的大小相同。而且这种产出正在迅速增长。


总体而言,专家们一致认为,合成数据似乎适用于具有牢固、可识别规则的领域,例如国际象棋、数学或计算机编码。一款名为 AlphaGeometry 的人工智能工具已成功训练使用 1 亿个合成示例(无需人工演示)解决几何问题。


合成数据已用于真实数据有限或存在问题的领域。这包括医疗数据,因为合成数据不存在隐私问题,以及自动驾驶汽车的训练场地,因为合成车祸不会伤害任何人。


合成数据的问题在于,递归循环可能会加深谎言,放大误解,并普遍降低学习质量。2023 年的一项研究创造了“模型自噬障碍”一词来描述 AI 模型如何以这种方式“发疯” 。 


少即是多


另一种策略是放弃“越大越好”的概念。尽管开发人员继续构建更大的模型并倾向于扩展以改进他们的 LLM,但许多人正在追求更高效、专注于单个任务的小型模型。这需要精炼、专业的数据和更好的训练技术。


总体而言,人工智能正在以更少的投入实现更多的产出。2024 年的一项研究得出的结论是,由于算法的改进大语言模型实现相同性能所需的计算能力每八个月左右就会减半。


这一技术,加上专门用于人工智能的计算机芯片和其他硬件改进,为以不同方式使用计算资源打开了大门:其中一种策略是让人工智能模型多次重读其训练数据集。


斯坦福大学博士生、数据来源计划成员 Niklas Muennighoff 表示,尽管许多人认为计算机具有完美的记忆力,只需要“阅读”一次材料,但人工智能系统的工作方式是统计方式,这意味着重读可以提高性能。


2023 年,Muennighoff 在人工智能公司 HuggingFace 任职期间发表了一篇论文,他和他的同事表明,模型从重读给定数据集四次中学到的东西与阅读相同数量的独特数据一样多——尽管重读的好处在那之后很快就消失了。


尽管 OpenAI 尚未披露其最新 o1 的模型或训练数据集的大小,但该公司强调,该模型倾向于一种新方法:花更多时间进行强化学习(模型获得最佳答案反馈的过程),并花更多时间思考每个答案。


观察人士表示,该模型将重点从使用海量数据集进行预训练转移,更多地依赖于训练和推理。尽管这是一种计算成本高昂的策略,但这为模型扩展增加了一个新的维度。


大语言模型可能已经读完了大部分互联网内容,不再需要更多数据来变得更聪明。宾夕法尼亚州匹兹堡卡内基梅隆大学研究人工智能安全的研究生Andy Zou表示,人工智能的自我反思可能很快就会带来进步。“现在它有一个基础知识库,可能比任何一个人所能拥有的都要大,”Zou说,这意味着它只需要坐下来思考。“我认为我们可能已经非常接近这一点了。”


Epoch AI研究员Pablo Villalobos认为,所有这些因素(从合成数据到专业数据集,再到重读和自我反思)都会有所帮助。“模型能够独立思考,并且能够以各种方式与现实世界互动,这可能会推动前沿的发展。”


推荐阅读:


Ilya Sutskever在NeurIPS 2024大会演讲全文:预训练将结束,超级智能将完全不同




觉得内容有收获,请您个关注,标个星~ 谢谢您

智能超参数
看趋势,涨知识,开眼界。 记录AI技术与商业。 提供独立思考与理性价值。
 最新文章