封面图片:JVG
封面故事
使用递归生成数据训练的AI模型会发生崩溃
生成式人工智能(AI)工具(如大语言模型)的爆发得益于用来训练它们的由人类生成的大型数据集。随着这些工具不断涌现,以及它们输出的结果在网络上不断增多,训练数据的来源必然会转向计算机生成的内容。在本期《自然》中,Ilia Shumailov和同事研究了这种转变的可能后果。结果不容乐观:团队发现,将AI生成的数据输入一个模型,会导致后续几代模型退化直到崩溃。在一项测试中,关于中世纪建筑的原始文本到了第九代时变成了一串野兔的名字。团队认为,使用AI生成数据训练模型并非不可能,但需要非常仔细地过滤这些数据,而人类生成的数据可能仍具优势。
《自然》论文:AI models collapse when trained on recursively generated data
长按并识别右方二维码,阅读全文→
相关阅读
点击“阅读原文”发现更多最新Nature精彩内容