生成式AI是一个“数据大胃王”,通过抓取大量在线内容学习如何创造类人内容,包括文章、评论等。
随着其广泛使用,AI开始从自己生成的内容中学习,导致输出质量下降。《自然》杂志的一项研究发现,当AI在大量AI生成内容上训练时,输出会迅速退化变得无意义。
在一个例子中,研究团队给了AI一个关于建造教堂历史的长提示,这会让大多数人觉得枯燥无味。在前两次迭代之后,AI吐出了一个相对连贯的回复,讨论了复兴建筑,有时会夹杂一些“@”。然而,到第五代时,文本完全偏离了原始话题,变成了关于语言翻译的讨论。
第九代的输出则荒谬至极:
“建筑。除了是世界上一些最大的黑色@-@尾兔、白色@-@尾兔、蓝色@-@尾兔、红色@-@尾兔、黄色@-@尾兔的家之外。”
AI的“幻觉”问题也越来越被关注。这种现象表现为AI在没有准确数据支持的情况下生成错误信息,例如医疗AI错误地诊断疾病。这些问题的根源在于AI模型在迭代训练中“遗忘”了先前的数据,类似于人类的记忆消退。
例如,在一项研究中,AI在初期能够关于建筑风格生成相对连贯的内容,但几代之后,输出内容完全偏离原始话题,变得荒谬。研究表明,AI在重复数据上的训练导致输出质量下降。
解决这一问题的方法之一是引入“水印”技术,通过数字签名帮助检测AI生成的数据,尽管这一策略还未普及。另一个策略是增加人类生成的数据在训练中的比例,以提高输出的连贯性。