互联网是人类知识的汪洋大海,但它并非无穷无尽。过去十年,人工智能(AI)领域的突飞猛进很大程度上得益于不断扩大的神经网络和日益增长的数据训练。然而,一些专家警告说,我们正接近规模扩张的极限,部分原因是计算所需的能源需求不断膨胀,另一部分原因是大型语言模型(LLM)的开发者们快要用尽了传统数据集。
数据集的极限
今年的一项引人注目的研究表明,到2028年左右,用于训练AI模型的数据集典型大小将达到公共在线文本的总估计库存大小。换句话说,AI可能在大约四年后就会用完训练数据。同时,数据所有者,如报纸出版商,开始加强对内容使用方式的控制,进一步收紧了访问权限。这导致了“数据共享”的规模危机。
数据的挑战
尽管专家认为这些限制可能会减缓AI系统的快速改进,但开发者们正在寻找解决方案。一些知名的AI公司,如OpenAI和Anthropic,已经公开承认了这个问题,并暗示他们有计划解决,包括生成新数据和寻找非传统数据源。
数据的增长和限制
过去十年中,LLM的开发显示出对数据的极大需求。Villalobos估计,自2020年以来,用于训练LLM的“tokens”(单词的一部分)数量增加了100倍,从数千亿增加到数万亿。然而,可用互联网内容的增长速度却出奇地慢,而AI训练数据集的大小每年却翻一番。按照这些趋势预测,两者将在2028年左右交汇。
数据获取的挑战
内容提供者越来越多地包含软件代码或完善他们的使用条款,以阻止网络爬虫或AI公司从他们的数据中抓取用于训练的内容。Longpre和他的同事在7月发布的预印本显示,阻止特定爬虫访问其网站的数据显示了急剧增加。在三个主要清洁数据集中,最高质量的、最常用的网络内容中,从2023年的不到3%增加到2024年的20-33%。
数据的未来
如果找不到数据,可以创造更多。一些AI公司支付人们为AI训练生成内容;其他公司使用AI生成的合成数据。这是一个潜在的巨大来源:今年早些时候,OpenAI表示,它每天生成1000亿单词——这大约是每年3.6万亿单词,与当前AI训练数据集的大小相同。而且这个输出正在迅速增长。
结论
尽管OpenAI没有披露其最新LLM模型o1的大小或训练数据集的信息,但该公司强调,这个模型采用了新方法:在强化学习上花费更多时间(模型获得对其最佳答案的反馈的过程),以及在每个响应上花费更多时间思考。观察家说,这个模型将重点从使用大量数据集的预训练转移到了更多依赖训练和推理上。这为扩展方法增加了一个新的维度,尽管这是一种计算成本高昂的策略。
Villalobos认为,所有这些因素——从合成数据、专业数据集、重读和自我反思——都将有所帮助。“模型能够自己思考,并且能够以各种方式与真实世界互动——那可能会推动前沿发展。”
出处
本文内容参考自《自然》杂志网站发布的《The AI revolution is running out of data. What can researchers do?》文章