AI生成的文字和图片,正日渐充斥于互联网中。
OpenAI首席执行官Sam Altman在今年2月份表示,该公司每天生成大约1000亿个单词——相当于每天一百万本小说的文本量,其中有多少内容最终流入了互联网还未可知[1]。
AI生成文本,可能出现在餐厅评论、约会资料或社交媒体帖子中,也可能以新闻文章的形式出现——NewsGuard[2],一个专门追踪网络虚假信息的机构,最近识别出超过一千个大量生产漏洞百出的AI生成的新闻文章的网站[3]。
实际上,由于缺乏有效的检测方法,此类内容许多仍未被发现。
所有这些AI生成的信息,不仅让我们难辨真假,也给AI公司制造了麻烦。通过浏览网页的方式以获取训练下一代模型的新数据,将变得日益艰难[4]。一些自身生成的AI内容,很可能会被吸纳,从而无意中形成闭环,即某一代AI的输出变成了另一代的输入。
从长远来看,这一闭环可能对AI自身构成威胁。已有的研究表明,生成式AI如在大量自身输出上进行训练,其性能会大幅下降[5-8]。
下面我们结合一个简单的示例来说明,当一个AI系统反复在自己的输出上进行训练时会发生什么情况。
真实手写数字
下图是一个由60000个手写数字构成的数据集的一部分。
▷图1. 原始手写数据集的局部,基于Ilia Shumailov 等人的研究。
当我们训练一个AI去模仿这些数字时,它的输出如下图所示:
▷图2.由一个AI在同为AI生成的数字集上训练后生成的数字集,基于Ilia Shumailov 等人的研究。
如果这个过程持续进行会发生什么?
▷图3.在AI生成的数字集上继续训练后生成的数字集,基于Ilia Shumailov 等人的研究。
经过20代如上所述的训练后,AI生成的数字开始模糊并逐渐消失。
▷图4.在AI生成的数字集上训练20代后生成的数字集。基于Ilia Shumailov 等人的研究。
经过30代训练后,它们合并成一组单一的形状。
▷图5.在AI生成的数字集上训练30代后生成的数字集
虽然这是一个简化的例子,但它说明了一个可能会发生的问题。
想象一个医疗咨询聊天机器人,在接受了上一代聊天机器人生成的有限的医学知识的训练后,它可以根据症状对应列出的疾病数目可能会很少。或者,一位AI历史导师,在吸收了AI生成的宣传内容后,无法区分事实与虚构。
正如复制品可能会偏离原件一样[9],当生成式AI在自己生成的内容上进行训练时,其输出也可能会偏离现实,与本来打算模仿的原始数据越来越远。
在2024年7月发表在Nature杂志上的一篇论文中[10],来自英国和加拿大的研究者们展示了这个过程如何导致AI输出范围随时间缩小——他们称此为“模型崩溃”的早期阶段。
上述例子中的数字侵蚀现象体现了这种崩溃。当脱离人类输入时,AI输出的质量下降(数字变得模糊),多样性降低(它们变得相似)。
如果只有部分训练数据是AI生成的,这种衰退将会出现得更慢或更微妙。但研究人员表示,除非合成数据得到大量新的、真实的数据补充,否则衰退终会发生。
AI的退化
在一个实验中,研究人员让一个大型语言模型(LLM)在自己生成的语句中进行反复训练,并在每轮训练后使用相同的提示命令其完成句子。即使一开始,AI已经开始出现“幻觉”。但当研究人员进一步在其自身的句子上进行训练时,情况变得更糟糕……
当他们要求AI完成以“为感恩节烹饪火鸡,你……”开始的句子时,最初的回应是:
即使在一开始,人工智能也会“产生幻觉”。但当研究人员进一步用自己的句子训练它时,情况变得更糟了……
经过两代之后,它开始仅仅输出一个简单的长列表:
经过四代之后,它开始无意义地重复短语:
“模型因其对现实的自我投射而中毒”,研究人员在谈到这一现象时写道[11]。
这一问题不仅仅局限于文本生成中。另一组来自Rice University的研究人员研究了当图像生成AI在自己的输出上进行反复训练时会发生什么——这个问题可能已经在网络上泛滥的AI生成图像中出现[12]。
他们发现,在AI的输出中开始积累故障和图像瑕疵,最终产生了具有皱纹图案和扭曲手指的图像。
▷图6.当AI图像模型在自己的输出上进行训练时,它们可以产生扭曲的图像、扭曲的手指或奇怪的图案。
“仿佛有一部分漂移到类似‘禁飞区’空间”,Richard Baraniuk 教授这样说,他领导了一项关于AI图像模型的研究[13]。
研究人员发现,避免这个问题的唯一方法同样是确保AI在大量新的、真实的数据上进行训练。
虽然互联网上自拍照绝对不缺,但他们说,有某些图像类别中,AI生成的图像可能比真实数据更多。
例如,在AI的训练数据中,以梵高风格生成的图像可能比梵高画作的实际照片更多,这可能导致未来的错误和扭曲。(这个问题的早期迹象将很难检测,因为领先的AI模型不受外部审查,研究人员说。)
模型崩溃的原因
AI生成的数据通常只是真实数据的糟糕替代品,这是所有这些问题的原因。
比如聊天机器人陈述的荒谬事实,或者AI生成的有过多手指的手,很容易被发现。而导致模型崩溃的变异,有时并不明显,甚至可能很难被检测到。
生成式AI在大量数据上的“训练”,实际上是在组建一个“统计分布”或“一组概率”,以用于预测句子中的下一个单词,或者图片中的像素。
例如,当一个AI被训练去模仿手写数字时,它会以这样的统计分布方式输出:
▷图7.AI生成数据的分布,经由简化以便于清晰理解
这个钟形曲线的顶点,代表着最可能的AI输出——在这种情况下,即为最典型的AI生成的数字;曲线的尾端,描述的是较不常见的输出。
注意,当模型在人类数据上训练时,它会有一个“健康”的可能输出范围,体现在上图中的曲线宽度上。但在它在自己的输出上训练之后,曲线发生了如下图所示的变化:
▷图8.AI生成数据的分布,当其在自身输出上训练时
它变得更高更窄。结果是,模型的可能输出范围越来越小,甚至可能会偏离原始数据地输出。
与此同时,还会出现一个罕见、不寻常或令人惊讶的结果——曲线的尾端逐渐消失。这是模型崩溃的明显迹象——罕见的数据变得更加罕见。
如果这个过程不受控制,曲线最终会变成一个尖峰:
▷图9.经过 30 代之后的AI输出示例,此时所有数字变得相同,模型完全崩溃
当所有数字都变得相同时,模型就完全崩溃了。
为什么这很重要
这并不意味着生成式AI会很快陷入停滞。一旦AI系统开始出现质量恶化,制造出这些工具的公司会注意到。
但这可能会减慢进程。研究人员认为,随着现有的数据源枯竭,或者被AI的“糟粕”污染,这将使后进场者竞争更为艰难[14,15,16]。
目前,AI生成的文字和图像已经开始在社交媒体和更广泛的网络中泛滥[17],甚至隐藏于一些训练AI的数据集之中[18]。“网络正愈发变为寻找数据的危险地带。”正如Rice University的研究生Sina Alemohammad所说,他研究了AI污染如何影响图像模型[19]。
大型玩家也会受到影响。纽约大学的计算机科学家发现,当训练数据中有大量AI生成的内容时,需要更多的计算能力来训练AI——这意味着需要更多的能源和金钱[20]。“模型不会再按照它们应有的方式扩展。”纽约大学教授Julia Kempe如此说,她领导了这项工作[21]。领先的AI模型现已花费了数千万到数亿美元来训练,并消耗了惊人的能量,而更多的算力需求,可能成为一个相当大的问题[22,23]。
“一个隐患”
最后,即便是早期阶段的崩溃,也存在一种潜在的威胁:多样性的侵蚀。
当公司试图避免AI数据常发生的故障和“幻觉”时[24],尤其是,当数据能够与我们可以视觉识别的多样性形式相匹配时,比如人脸,这一现象最容易被观察到。
下图所示的这组AI面孔,是莱斯大学研究人员使用AI产生的一组扭曲面孔。他们调整了模型以避免视觉错误。
▷图源:Sina Alemohammad and others
下图是他们在前一组面孔上训练新的AI后的输出。乍一看,模型改变似乎有效:不存在错误。
▷经过一代AI输出训练后,生成的AI面孔看起来更相似。
经过两代之后……
▷经过两代……
三代之后……
▷ 经过三代……
四代之后,面孔似乎都趋于一致。
▷经过四代后,面孔似乎都开始趋同。
这种多样性下降,是“一个隐患”,Alemohammad先生说。“你可能会忽略它,然后你就会搞不明白,直到为时已晚。”
就像数字一样,当大部分数据是AI生成的时,崩溃的变化最为明显。而如果合成数据中混合了更现实的真实数据,衰退将更为缓慢。
但研究人员说,这个问题难以从现实世界剥离,除非AI公司特意避免使用自己的输出,否则不可避免地会发生。
相关研究[25]显示,当AI语言模型用自己生成的单词训练时,它们的词汇量减少,句子在语法结构上的多样性减少——这是“语言多样性”的丧失[26]。
研究还发现,这一过程可能放大数据中的偏见[27],并更有可能抹去少数群体相关的数据[28]。
出路
这项研究的最大收获可能是,高质量、多样的数据是宝贵的,而且是计算机难以模仿的。
因此,一个解决方案是,AI公司支付数据费用以确保数据来自人类来源且高质量,而不是从互联网上搜集[29]。
例如,OpenAI和Google已经与一些出版商或网站达成协议,使用他们的数据来改善AI。(《纽约时报》2023年起诉了OpenAI和Microsoft侵权[30],而OpenAI和Microsoft则认为他们的使用行为是在版权法下的合理使用[31,32]。)
更好的检测AI输出的方法,也有助于缓解这些问题。
例如,Google和OpenAI正在开发可用于识别AI生成的图像和文本的AI“水印”工具,这些工具已引入隐藏模式[33,34,35]。
但研究人员认为,文本水印仍面临挑战[36],因为这些水印检测起来并不总是那么可靠,还可以被轻易规避(例如,它们可能难以在被翻译成另一种语言后幸存)[37]。
AI糟粕,不是唯一的需要公司警惕合成数据的可能原因。另一个问题是,互联网上的文字数量有限。
据一些专家估计,最大的AI模型已经在互联网上的可用文本池中训练了几个百分点[38]。他们预测,为了维持当前的增长速度,这些模型可能会在十年内耗尽公共数据[39]。
“这些模型如此庞大,以至于整个互联网的图像或对话几乎快不够用了。”Baraniuk教授如此说。
为了满足他们日益增长的数据需求,一些公司正在考虑使用“今天”的AI模型生成数据来训练“明天”的模型[40]。但研究人员认为,这可能导致意外后果,类似前文提到的质量或多样性下降。
在某些情况下,合成数据可以帮助AI学习——例如,当一个较大的AI模型的输出被用于训练一个较小的模型,或者当正确答案可以被验证时,像解决数学问题或在棋类游戏(如国际象棋或围棋)中的最佳策略[41,42,43]。
同时,新的研究表明,当我们整理合成数据时(例如,通过对AI的回答进行排名选出最佳答案时),可以缓解一些崩溃的问题[44,45]。
Kempe教授说,公司在数据整理上的花销已经很大,而当他们了解了合成数据的问题后,这将变得更加重要。
但就目前而言,没有什么可以取代真实的东西。
关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或添加小助手微信questionlab,加入社群与我们互动。
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute, TCCl)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了TCCI加州理工神经科学研究院。
TCCI建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。