AI行业面临一个重大问题:用于训练更智能模型的真实世界数据正在耗尽。研究表明,合成数据可能会通过低质量信息“毒害”人工智能。
人工智能领域正处于其最宝贵资源即将耗尽的边缘,这促使行业领袖们展开激烈的辩论,讨论一种快速发展的替代方案:合成数据,或称“虚假”数据。多年来,像OpenAI和谷歌这样的公司一直从互联网上抓取数据,用于训练支撑其AI工具和功能的大型语言模型(LLM)。这些LLM处理了由人类在数个世纪间创作的大量文本、视频及其他媒体内容无论是研究论文、小说还是YouTube视频片段。然而,现在“真实”的人类生成数据正逐渐枯竭。研究公司Epoch AI预测,文本数据可能在2028年之前就会耗尽。同时,那些已经从互联网的各个角落挖掘出可用训练数据的公司有时甚至不惜打破政策来获取数据正面临着越来越多的限制。对于一些人来说,这并不一定是个问题。OpenAI的首席执行官萨姆·阿尔特曼(Sam Altman)曾表示,AI模型最终应该能够生成足够高质量的合成数据,以有效地自我训练。其吸引力显而易见:在AI的繁荣中,训练数据已成为最宝贵的资源之一,而能够以低成本且看似无限地生成这些数据的前景无疑极具吸引力。然而,研究人员对合成数据是否真的是灵丹妙药仍存在争议。一些人认为,这条道路可能会导致AI模型因低质量信息而“自我中毒”,最终可能导致模型“崩溃”。牛津大学和剑桥大学的一组研究人员最近发表的一篇论文指出,将AI生成的数据输入模型,最终会导致其输出无意义的内容。作者发现,AI生成的数据并非完全不可用于训练,但应与真实世界的数据相平衡使用。随着可用的人类生成数据日益枯竭,越来越多的公司开始考虑使用合成数据。2021年,研究公司Gartner预测,到2024年,用于开发AI的数据中有60%将是合成生成的。“这是一场危机,”纽约大学心理学和神经科学荣休教授、AI分析师加里·马库斯表示。“人们曾经幻想着,只要使用越来越多的数据,就能无限提升大型语言模型的性能,但现在他们基本上已经用尽了所有可以使用的数据。”他补充道:“没错,合成数据可能会帮助解决一些问题,但更深层次的问题在于,这些系统并不真正进行推理,也不会真正进行规划。你能想象的所有合成数据都无法解决这一根本性问题。”对“虚假”数据的需求取决于一个关键概念:真实世界的数据正迅速耗尽。
这部分原因在于,科技公司一直在尽可能快地利用公开数据来训练人工智能,以超越竞争对手。另一方面,在线数据的拥有者也越来越警惕公司免费获取他们的数据。2020年,OpenAI的研究人员透露,他们利用来自Common Crawl的免费数据来训练最终为ChatGPT提供支持的AI模型。Common Crawl是一个网络爬虫,OpenAI表示其中包含了“近一万亿字”的在线资源。今年7月,数据来源倡议组织发布的研究发现,各大网站正在采取限制措施,阻止AI公司使用不属于它们的数据。新闻出版物和其他热门网站也越来越多地禁止AI公司自由地获取它们的数据。为了解决这一问题,OpenAI和谷歌等公司纷纷支付数千万美元,获取Reddit和新闻媒体的数据访问权限,这些数据源为训练模型提供了新鲜的数据。然而,即便如此,这种方法也有其局限性。“文本网络中已经没有大量等待被抓取的区域了,”艾伦人工智能研究所的研究员内森·兰伯特在今年5月写道。这时,合成数据应运而生。合成数据并非来自真实世界,而是由已经在真实数据上训练过的AI系统生成的。例如,今年6月,英伟达发布了一款AI模型,能够生成用于训练和校准的人工数据集。7月,中国科技巨头腾讯的研究人员推出了一个名为Persona Hub的合成数据生成器,功能类似。一些初创公司,如Gretel和SynthLabs,甚至专门成立,致力于生成并出售大量特定类型的数据,满足有此需求的企业。合成数据的支持者为其使用提供了合理的理由。与真实世界一样,人类生成的数据往往是混乱的,研究人员在使用之前必须经过复杂且费力的清理和标注工作。合成数据可以填补人类数据无法覆盖的空白。例如,7月下旬,Meta推出了Llama 3.1,这是一系列新的AI模型,能够生成合成数据,并依赖这些数据进行训练中的“微调”。特别是在一些特定技能上,如用Python、Java和Rust等语言进行编程,以及解决数学问题,合成数据有助于提升模型的性能。合成训练对较小的AI模型可能特别有效。去年,微软表示,他们为OpenAI的模型提供了一份多样化的词汇表,这些词汇是典型的3至4岁儿童会知道的,然后要求模型使用这些词汇生成短篇故事。生成的数据集被用来创建一组小型但功能强大的语言模型。此外,合成数据还有助于有效地“反调校”由现实世界数据所产生的偏见。在2021年发表的论文《论随机鹦鹉的危险》中,前谷歌研究员蒂姆尼特·盖布鲁、玛格丽特·米切尔及其他人指出,基于来自互联网的大型文本数据集训练的大型语言模型很可能反映出数据中的偏见。今年4月,谷歌DeepMind的一组研究人员发表了一篇论文,提倡使用合成数据来解决训练中的数据稀缺和隐私问题。他们指出,确保这些AI生成数据的准确性和无偏性“仍然是一个关键挑战”。尽管AI行业在合成数据中发现了一些优势,但它也面临着不可忽视的严重问题,例如担心合成数据可能会破坏AI模型。
在Meta关于Llama 3.1的研究论文中,该公司表示,使用其最新模型的4050亿参数版本进行自生成数据的训练“并没有帮助”,甚至可能“降低性能”。上个月发表在《自然》杂志的一项研究发现,在模型训练中“滥用”合成数据可能导致“不可逆的缺陷”。研究人员将这一现象称为“模型崩溃”,并表示如果我们希望持续享受从网络抓取的大规模数据中训练所带来的益处,就必须认真对待这个问题。蒙纳士大学高级研究员贾森·萨多斯基为这个想法创造了一个术语:“哈布斯堡AI”,灵感来源于奥地利哈布斯堡王朝,一些历史学家认为这个王朝因近亲繁殖而自我毁灭。自从提出这一术语以来,萨多斯基告诉《商业内幕》,随着越来越多的研究支持他关于模型过度依赖AI生成输出可能导致变异的观点,他感到这一想法得到了验证。萨多斯基表示:“对于构建AI系统的研究人员和公司来说,尚未解决的问题是:到底有多少合成数据才算过量?” 他还补充说,他们需要找到任何可能的解决方案,以克服AI系统数据稀缺的挑战,但他也指出,其中一些解决方案可能只是短期修复,最终可能弊大于利。然而,4月份发表的研究发现,如果模型在训练时同时使用“真实”数据和合成数据,它们不一定会“崩溃”。现在,一些公司正在押注“混合数据”的未来,即通过使用部分真实数据生成合成数据,以防止模型偏离轨道。帮助公司标注和测试数据的Scale AI表示,他们正在探索“混合数据”的方向,结合使用合成和非合成数据。Scale AI的首席执行官亚历山大·王最近表示:“混合数据才是真正的未来。”AI可能需要采用新的方法,因为仅仅向模型中塞入更多数据的效果可能有限。今年1月,谷歌DeepMind的一组研究人员或许证明了另一种方法的优点。当时,该公司宣布推出AlphaGeometry,这是一种能够解决奥林匹克水平几何问题的AI系统。在一篇补充论文中,研究人员指出,AlphaGeometry采用了一种“神经符号”(neuro-symbolic)方法,这种方法结合了其他AI方法的优势,介于依赖大量数据的深度学习模型与基于规则的逻辑推理之间。IBM的研究团队表示,这可能是一条实现通用人工智能(AGI)的途径。更值得注意的是,在AlphaGeometry的案例中,它完全是在合成数据上进行预训练的。神经符号AI领域相对较新,它是否能推动AI的发展仍有待观察。鉴于OpenAI、谷歌和微软等公司在将AI热潮转化为利润方面面临的压力,可以预见它们将尝试一切可能的解决方案来应对数据危机。“除非我们完全采用新的方法,否则我们基本上仍将陷入困境,”加里·马库斯说道。(BI)