AI生成的数据,竟成为一枚射向自己的子弹?| 追问Data

学术   2024-10-15 17:42   上海  


AI生成的文字和图片,正日渐充斥于互联网中。


OpenAI首席执行官Sam Altman在今年2月份表示,该公司每天生成大约1000亿个单词——相当于每天一百万本小说的文本量,其中有多少内容最终流入了互联网还未可知[1]


AI生成文本,可能出现在餐厅评论、约会资料或社交媒体帖子中,也可能以新闻文章的形式出现——NewsGuard[2],一个专门追踪网络虚假信息的机构,最近识别出超过一千个大量生产漏洞百出的AI生成的新闻文章的网站[3]


实际上,由于缺乏有效的检测方法,此类内容许多仍未被发现。


所有这些AI生成的信息,不仅让我们难辨真假,也给AI公司制造了麻烦。通过浏览网页的方式以获取训练下一代模型的新数据,将变得日益艰难[4]。一些自身生成的AI内容,很可能会被吸纳,从而无意中形成闭环,即某一代AI的输出变成了另一代的输入。


从长远来看,这一闭环可能对AI自身构成威胁。已有的研究表明,生成式AI如在大量自身输出上进行训练,其性能会大幅下降[5-8]


下面我们结合一个简单的示例来说明,当一个AI系统反复在自己的输出上进行训练时会发生什么情况。


真实手写数字


下图是一个由60000个手写数字构成的数据集的一部分。


图1. 原始手写数据集的局部,基于Ilia Shumailov 等人的研究。


当我们训练一个AI去模仿这些数字时,它的输出如下图所示:


图2.由一个AI在同为AI生成的数字集上训练后生成的数字集,基于Ilia Shumailov 等人的研究。


如果这个过程持续进行会发生什么?


图3.在AI生成的数字集上继续训练后生成的数字集,基于Ilia Shumailov 等人的研究。


经过20代如上所述的训练后,AI生成的数字开始模糊并逐渐消失。


图4.在AI生成的数字集上训练20代后生成的数字集。基于Ilia Shumailov 等人的研究。


经过30代训练后,它们合并成一组单一的形状。


图5.在AI生成的数字集上训练30代后生成的数字集


虽然这是一个简化的例子,但它说明了一个可能会发生的问题。


想象一个医疗咨询聊天机器人,在接受了上一代聊天机器人生成的有限的医学知识的训练后,它可以根据症状对应列出的疾病数目可能会很少。或者,一位AI历史导师,在吸收了AI生成的宣传内容后,无法区分事实与虚构。


正如复制品可能会偏离原件一样[9],当生成式AI在自己生成的内容上进行训练时,其输出也可能会偏离现实,与本来打算模仿的原始数据越来越远。


在2024年7月发表在Nature杂志上的一篇论文中[10],来自英国和加拿大的研究者们展示了这个过程如何导致AI输出范围随时间缩小——他们称此为“模型崩溃”的早期阶段


上述例子中的数字侵蚀现象体现了这种崩溃。当脱离人类输入时,AI输出的质量下降(数字变得模糊),多样性降低(它们变得相似)。

如果只有部分训练数据是AI生成的,这种衰退将会出现得更慢或更微妙。但研究人员表示,除非合成数据得到大量新的、真实的数据补充,否则衰退终会发生。


AI的退化


在一个实验中,研究人员让一个大型语言模型(LLM)在自己生成的语句中进行反复训练,并在每轮训练后使用相同的提示命令其完成句子。即使一开始,AI已经开始出现“幻觉”。但当研究人员进一步在其自身的句子上进行训练时,情况变得更糟糕……


当他们要求AI完成以“为感恩节烹饪火鸡,你……”开始的句子时,最初的回应是:


为感恩节烹饪火鸡,你需要在烤箱里准备它。通过在火鸡上加盐和胡椒,然后在烤箱中烹饪直到内部变金黄。由于该方法可用作其他食物的替代品,因此已被证明可以有效降低患心脏病的风险。


即使在一开始,人工智能也会“产生幻觉”。但当研究人员进一步用自己的句子训练它时,情况变得更糟了……


经过两代之后,它开始仅仅输出一个简单的长列表:


为感恩节烹饪火鸡,你”必须能够一次性吃完它。然而,如果你没有足够的时间这样做,你可以选择其他食物,如土豆、豆类、米饭、肉类、鱼、蔬菜、水果、坚果、种子等。


经过四代之后,它开始无意义地重复短语:


为感恩节烹饪火鸡,你需要知道你将如何度过你的一生 如果你不知道你将如何度过你的一生 如果你不知道你将如何度过你的一生如果你不知道你将做什么如果你不知道什么将会影响你的生活。


“模型因其对现实的自我投射而中毒”,研究人员在谈到这一现象时写道[11]


这一问题不仅仅局限于文本生成中。另一组来自Rice University的研究人员研究了当图像生成AI在自己的输出上进行反复训练时会发生什么——这个问题可能已经在网络上泛滥的AI生成图像中出现[12]


他们发现,在AI的输出中开始积累故障和图像瑕疵,最终产生了具有皱纹图案和扭曲手指的图像。


图6.当AI图像模型在自己的输出上进行训练时,它们可以产生扭曲的图像、扭曲的手指或奇怪的图案。


“仿佛有一部分漂移到类似‘禁飞区’空间”,Richard Baraniuk 教授这样说,他领导了一项关于AI图像模型的研究[13]


研究人员发现,避免这个问题的唯一方法同样是确保AI在大量新的、真实的数据上进行训练。


虽然互联网上自拍照绝对不缺,但他们说,有某些图像类别中,AI生成的图像可能比真实数据更多。


例如,在AI的训练数据中,以梵高风格生成的图像可能比梵高画作的实际照片更多,这可能导致未来的错误和扭曲。(这个问题的早期迹象将很难检测,因为领先的AI模型不受外部审查,研究人员说。)


模型崩溃的原因


AI生成的数据通常只是真实数据的糟糕替代品,这是所有这些问题的原因


比如聊天机器人陈述的荒谬事实,或者AI生成的有过多手指的手,很容易被发现。而导致模型崩溃的变异,有时并不明显,甚至可能很难被检测到。


生成式AI在大量数据上的“训练”,实际上是在组建一个“统计分布”或“一组概率”,以用于预测句子中的下一个单词,或者图片中的像素。


例如,当一个AI被训练去模仿手写数字时,它会以这样的统计分布方式输出:


图7.AI生成数据的分布,经由简化以便于清晰理解


这个钟形曲线的顶点,代表着最可能的AI输出——在这种情况下,即为最典型的AI生成的数字;曲线的尾端,描述的是较不常见的输出。


注意,当模型在人类数据上训练时,它会有一个“健康”的可能输出范围,体现在上图中的曲线宽度上。但在它在自己的输出上训练之后,曲线发生了如下图所示的变化:


图8.AI生成数据的分布,当其在自身输出上训练时


它变得更高更窄。结果是,模型的可能输出范围越来越小,甚至可能会偏离原始数据地输出。


与此同时,还会出现一个罕见、不寻常或令人惊讶的结果——曲线的尾端逐渐消失。这是模型崩溃的明显迹象——罕见的数据变得更加罕见。


如果这个过程不受控制,曲线最终会变成一个尖峰:


图9.经过 30 代之后的AI输出示例,此时所有数字变得相同,模型完全崩溃


当所有数字都变得相同时,模型就完全崩溃了。


为什么这很重要


这并不意味着生成式AI会很快陷入停滞。一旦AI系统开始出现质量恶化,制造出这些工具的公司会注意到。


但这可能会减慢进程。研究人员认为,随着现有的数据源枯竭,或者被AI的“糟粕”污染,这将使后进场者竞争更为艰难[14,15,16]


目前,AI生成的文字和图像已经开始在社交媒体和更广泛的网络中泛滥[17],甚至隐藏于一些训练AI的数据集之中[18]。“网络正愈发变为寻找数据的危险地带。”正如Rice University的研究生Sina Alemohammad所说,他研究了AI污染如何影响图像模型[19]


大型玩家也会受到影响。纽约大学的计算机科学家发现,当训练数据中有大量AI生成的内容时,需要更多的计算能力来训练AI——这意味着需要更多的能源和金钱[20]。“模型不会再按照它们应有的方式扩展。”纽约大学教授Julia Kempe如此说,她领导了这项工作[21]。领先的AI模型现已花费了数千万到数亿美元来训练,并消耗了惊人的能量,而更多的算力需求,可能成为一个相当大的问题[22,23]


 “一个隐患”


最后,即便是早期阶段的崩溃,也存在一种潜在的威胁:多样性的侵蚀。


当公司试图避免AI数据常发生的故障和“幻觉”时[24],尤其是,当数据能够与我们可以视觉识别的多样性形式相匹配时,比如人脸,这一现象最容易被观察到。


下图所示的这组AI面孔,是莱斯大学研究人员使用AI产生的一组扭曲面孔。他们调整了模型以避免视觉错误。


图源:Sina Alemohammad and others


下图是他们在前一组面孔上训练新的AI后的输出。乍一看,模型改变似乎有效:不存在错误。


经过一代AI输出训练后,生成的AI面孔看起来更相似。


经过两代之后……


经过两代……


三代之后……


 经过三代……


四代之后,面孔似乎都趋于一致。


经过四代后,面孔似乎都开始趋同。


这种多样性下降,是“一个隐患”,Alemohammad先生说。“你可能会忽略它,然后你就会搞不明白,直到为时已晚。”


就像数字一样,当大部分数据是AI生成的时,崩溃的变化最为明显。而如果合成数据中混合了更现实的真实数据,衰退将更为缓慢。


但研究人员说,这个问题难以从现实世界剥离,除非AI公司特意避免使用自己的输出,否则不可避免地会发生。


相关研究[25]显示,当AI语言模型用自己生成的单词训练时,它们的词汇量减少,句子在语法结构上的多样性减少——这是“语言多样性”的丧失[26]


研究还发现,这一过程可能放大数据中的偏见[27],并更有可能抹去少数群体相关的数据[28]


出路


这项研究的最大收获可能是,高质量、多样的数据是宝贵的,而且是计算机难以模仿的


因此,一个解决方案是,AI公司支付数据费用以确保数据来自人类来源且高质量,而不是从互联网上搜集[29]


例如,OpenAI和Google已经与一些出版商或网站达成协议,使用他们的数据来改善AI。(《纽约时报》2023年起诉了OpenAI和Microsoft侵权[30],而OpenAI和Microsoft则认为他们的使用行为是在版权法下的合理使用[31,32]。)


更好的检测AI输出的方法,也有助于缓解这些问题。


例如,Google和OpenAI正在开发可用于识别AI生成的图像和文本的AI“水印”工具,这些工具已引入隐藏模式[33,34,35]


但研究人员认为,文本水印仍面临挑战[36],因为这些水印检测起来并不总是那么可靠,还可以被轻易规避(例如,它们可能难以在被翻译成另一种语言后幸存)[37]


AI糟粕,不是唯一的需要公司警惕合成数据的可能原因。另一个问题是,互联网上的文字数量有限。


据一些专家估计,最大的AI模型已经在互联网上的可用文本池中训练了几个百分点[38]。他们预测,为了维持当前的增长速度,这些模型可能会在十年内耗尽公共数据[39]


“这些模型如此庞大,以至于整个互联网的图像或对话几乎快不够用了。”Baraniuk教授如此说。


为了满足他们日益增长的数据需求,一些公司正在考虑使用“今天”的AI模型生成数据来训练“明天”的模型[40]。但研究人员认为,这可能导致意外后果,类似前文提到的质量或多样性下降。


在某些情况下,合成数据可以帮助AI学习——例如,当一个较大的AI模型的输出被用于训练一个较小的模型,或者当正确答案可以被验证时,像解决数学问题或在棋类游戏(如国际象棋或围棋)中的最佳策略[41,42,43]


同时,新的研究表明,当我们整理合成数据时(例如,通过对AI的回答进行排名选出最佳答案时),可以缓解一些崩溃的问题[44,45]


Kempe教授说,公司在数据整理上的花销已经很大,而当他们了解了合成数据的问题后,这将变得更加重要。


但就目前而言,没有什么可以取代真实的东西。


关于数据:为了制作AI生成的数字图像,我们遵循了研究人员概述的程序[46]。我们首先使用60000个手写数字的标准数据集训练了一种称为变分自编码器的神经网络[47,48]


然后,我们仅使用由前一个神经网络生成的AI数字训练了一个新的神经网络,并重复这个过程30次。


为了创建AI输出的统计分布,我们使用每一代的神经网络创建了10000个数字图的绘图。然后,我们使用第一个神经网络(在原始手写数字上训练的那个)将这些绘图编码为一组数字,称为“潜在空间”编码[49]。这使我们能够定量比较不同代神经网络的输出。为了简化,我们使用这个潜在空间编码的平均值生成文章中显示的统计分布。


来源:https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html

[1] https://x.com/sama/status/1756089361609981993?lang=en

[2] https://www.newsguardtech.com/special-reports/ai-tracking-center/

[3] https://www.nytimes.com/2024/06/06/technology/bnn-breaking-ai-generated-news.html

[4] https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

[5] https://www.nature.com/articles/s41586-024-07566-y

[6] https://openreview.net/forum?id=ShjMHfmPs0

[7] https://openreview.net/pdf/b07c42e256e6df5c2c52aba4bf28c853110ebb7b.pdf

[8] https://openreview.net/notes/edits/attachment?id=XLIOLMlnqh&name=pdf

[9] https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

[10] https://www.nature.com/articles/s41586-024-07566-y

[11] https://www.nature.com/articles/s41586-024-07566-y#:~:text=Model%20collapse%20refers%20to%20a%20degenerative%20learning%20process%20in%20which%20models%20start%20forgetting%20improbable%20events%20over%20time%2C%20as%20the%20model%20becomes%20poisoned%20with%20its%20own%20projection%20of%20reality.

[12] https://openreview.net/pdf?id=ShjMHfmPs0

[13] https://richb.rice.edu/biography/

[14] https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

[15] https://www.nytimes.com/2024/03/29/opinion/ai-internet-x-youtube.html

[16] https://www.nytimes.com/2024/06/11/style/ai-search-slop.html

[17] https://dl.acm.org/doi/10.1145/3649468#:~:text=6.2-,Interconnectedness%20and%20Synthetic%20Media%20Spills,-Another%20facet%20of

[18] https://openreview.net/pdf?id=ShjMHfmPs0

[19] https://www.linkedin.com/in/sina-alemohammad-837b0ab6/

[20] https://openreview.net/forum?id=KVvku47shW

[21] https://cims.nyu.edu/~kempe/

[22] https://epochai.org/blog/how-much-does-it-cost-to-train-frontier-ai-models#:~:text=The%20cost%20of%20training%20frontier,a%20billion%20dollars%20by%202027.

[23] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/

[24] https://www.nytimes.com/2023/05/01/business/ai-chatbots-hallucination.html

[25] https://arxiv.org/abs/2311.09807

[26] https://arxiv.org/abs/2311.09807

[27] https://arxiv.org/pdf/2209.03942

[28] https://arxiv.org/pdf/2403.07857

[29] https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

[30] https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

[31] https://www.nytimes.com/2024/02/27/technology/openai-new-york-times-lawsuit.html

[32] https://www.nytimes.com/2024/03/04/technology/microsoft-ai-copyright-lawsuit.html?action=click&module=RelatedLinks&pgtype=Article

[33] https://deepmind.google/discover/blog/watermarking-ai-generated-text-and-video-with-synthid/

[34] https://openai.com/index/understanding-the-source-of-what-we-see-and-hear-online/

[35] https://www.nytimes.com/interactive/2023/02/17/business/ai-text-detection.html

[36] https://www.brookings.edu/articles/detecting-ai-fingerprints-a-guide-to-watermarking-and-beyond/

[37] https://www.youtube.com/watch?v=2Kx9jbSMZqA&t=3068s

[38] https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

[39] https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

[40] https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html

[41] https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

[42] https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

[43] https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/

[44] https://openreview.net/forum?id=iqoqtNyVta

[45] https://arxiv.org/abs/2407.09499

[46] https://arxiv.org/pdf/2305.17493

[47] https://en.wikipedia.org/wiki/Variational_autoencoder

[48] https://en.wikipedia.org/wiki/MNIST_database

[49] https://en.wikipedia.org/wiki/Latent_space



关于追问nextquestion

天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或添加小助手微信questionlab,加入社群与我们互动。

关于天桥脑科学研究院

天桥脑科学研究院(Tianqiao and  Chrissy Chen Institute, TCCl)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。

TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了TCCI加州理工神经科学研究院。

TCCI建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流夏校培训AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。

追问nextquestion
科研就是不断探索问题的边界
 最新文章