AI将进化超级智能,还是逐步崩坏?

科技   2024-11-25 18:31   北京  

文丨海中天

都在说模型崩溃,它到底是什么?

现在的AI工具可以根据简短的文字提示生成令人惊叹的句子。生成之前,人类已经用海量信息训练大模型,这些信息来自人类书写的文本,从互联网抓取。

当AI工具被广泛使用,网上出现许多AI合成数据,这些数据被拿来训练大模型。

研究人员警告称,如果继续用未加甄别的数据训练AI,会出现灾难性结果。

牛津大学计算机科学家Ilia Shumailov不久前在《自然》杂志上刊文称,用AI数据训练大语言模型可能会导致模型崩溃。
这里所讲的崩溃不是说生成式AI无法运转,而是说AI工具给出的结果会离原训练数据越来越遥远。本来AI给出的结果离原数据就有一些偏差,只是目前还能接受。如果用海量AI生成数据训练AI,微小的错误会不断累加,最终输出的结果可能会变成胡言乱语。

Ilia Shumailov用预训练模型OPT-125m测试,在测试时,研究人员用大量维基百科文章调校输出结果,然后告诉工具一些文本提示词,让它给出结果,结果又被回传到模型,对原结果进行优化调校。

一次又一次循环,每一次循环都加入了上一次循环的结果,研发人员发现,更新至第九个版本时,模型给出的结果已经没有多少意义。比如,测试时,第一次给出的文本提示与19世纪建筑有关,最后变成了长耳大野兔的分类清单。

实验证明,用AI自己输出的答案训练AI会导致严重后果。一些大企业可能找到了预防崩溃的方法,但是当越来越多的人用大语言模型训练自己的聊天机器人或者其它AI时,恶果仍有可能出现。

生成式AI是如何崩溃的

大语言模型和生成式AI已经出现几十年,只是一直呆在计算机科学实验室里,没有与公众见面。

2022年11月ChatGPT开始向公众开放,之后聊天机器人流行起来。为什么突然火爆?原因很多,比如,硬件更强了,可以并行处理信息;“Transformer”(神经网络的一种类型)出现;存在无数高质量、人类创造的数据点。

Shumailov说:“模型崩溃意味着进入、流出的数据正在消失。”

Shumailov例举一些崩溃出现的原因,比如,当我们向计算机程序解释猫是什么,我们实际上并不知道应该如何解释,于是乎,我们给LLM输入大量关于猫的文字描述,让模型学着定义猫这种生物。在AI定义的过程中,没有任何监督,也没有什么明确的指示,它只能从一组特定的观察中推断。
推断会存在一些错误。整个过程有点像“电话游戏”,一群人,第一个通过电话传出信息,第二个接收,再用电话传给第三个,直到最后一个,让最后一个将信息说出来。在信息传递过程中会不断出现偏差。

大语言模型也存在这样的缺陷,最终形成“幻觉”。

如果我们用错误的信息训练AI模型,它会影响模型的学习流程,最终破坏模型本身。

AI崩溃有点像近亲繁殖

关于AI崩溃问题,我们可以用近亲繁殖来类比。

每个生物体都有隐性障碍,当我们将不良突变遗传给下一代时,性带来的基因重组会将概率降到最低。如果近亲结婚,不良突变遗传的概率会上升。

AI中其实也存在同样的问题。

每一个AI在神经图谱中都会存在虚假、错误的相关性,错误的链接会导致幻觉,输出有问题的结果。

如果有足够多的人造数据让AI学习,缺陷会少很多。如果用AI生成的数据训练,错误量会大大增加。

实际上,现在的AI还无法画出手和手指,在AI作品中我们经常能看到这种缺陷。为什么画不出?因为AI不知道手有5根手指,不知道每根手指的长度是不同的,不知道手指按一定的方向弯曲、移动。为了弄清楚这些知识,AI需要从大量数据中学习。
可惜,它虽然看到了大量图片,但图片拍自不同的角度,灯光不同,细节精度也不同。有些手指被障碍物挡住了,有时手交织在一起,AI缺少先验知识,不知道哪些数据与哪个身体是匹配的。有时AI看到的还是卡通图,里面的生命体有不同数量的手指。

这还只是很简单的错误,AI如果连这都处理不了,如何辨别更复杂的错误?如果这些AI输出结果,再用结果训练AI,后果可想而知。
也许模型真的会崩溃,但即使如此,也不意味着AI将会消失,只是它有可能会停止进化,不会变得越来越好。

能否防止崩溃

德州大学AI研究人员刘乐奇(音译:Leqi Liu)认为,所谓的大模型崩溃,就是说它偏离了用于模型训练的原始文本。代表低概率事件的文本消失,这是崩溃的原因之一。

例如,训练后的AI也许可以精准识别有毛的猫,看到无毛的猫却无能为力。

再举个例子,来自少数群体的人表达事物时可能完全不同,此类文本出现的频率会越来越低,最终导致与少数群体有关的数据被淡化。时间一久,AI生成的内容会放大偏见,给出的结果看起来也更加雷同。
刘乐奇说:“从自然的角度看,当我们表达自己时追求的是多样化,但是当我们持续使用相同的书写助手时,多样化程度会降低。”

为了阻止AI产生偏见、胡言乱语,我们有必要持续追踪所有数据,确保先验知识(包括人类生成的文本)和新知识(AI文本)都被用来训练,简单来说,就是不能单纯只用AI生成数据训练AI。还有一点也要注意,那就是抓取长尾信息。

Shumailov说,企业会严格检查数据漂移现象,所以能早早发现问题并修正,模型崩溃问题可能不会影响到下游用户。如果是个人开发AI模型,他们训练时使用的数据量比较少,难免会被“崩溃”问题困扰,开发者应该对当中的风险保持警觉。

微软:不必担心,我有办法解决

为了解决模型崩溃问题,微软推出代理合成数据发生器Orca-AgentInstruct。

微软认为,Orca-AgentInstruct可以大幅优化模型训练,即使加入大量合成数据,数据中有很多虚构信息,模型也不一定会崩溃。

在此之前,微软已经用合成数据训练Orca和Orca 2两个模型,它们属于小语言模型,训练之后小语言模型的性能不输于更大的模型。

微软的合成数据工厂可以大规模生成多样化、高质量数据。微软指出,合成数据可以加快LLM的研发速度,从各个阶段加速研发。

尽管如此,微软自己也承认,生成高质量数据是很难的事。如果用其它模型生成的数据训练AI,可能会导致模型崩溃。

要想让AI获得成功,既要保证数据质量,也要保证数据多样化。在使用合成数据时,还要用人力挑选,对数据进行过滤。

代理(尤其是多代理)工作流也可以优化数据。微软认为,在模型训练过程中,代理工作流会变得越来越重要,包括预训练、训练后、专业化,最终可以打造出专门针对模型定制的合成数据工厂,不断优化。
希望科技企业真的能解决此问题。

一些人认为,AI迟早会变成超级智能,如果AI会崩溃,那这种说辞就有点过度乐观。本来人类对AI给予厚望,如果它最终因为吞噬自己制造的废物变得愚蠢,那还真是一个巨大的讽刺。

如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信
如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!
欢迎扫描下方二维码,加头部科技创始人、AI头号玩家俱乐部主理人晶总微信!

头部科技
头部科技是技术新世界的记录者、探索者和推动者。我们致力于普及细分场景的科技解决方案,打造科技和人才创新知识图谱。无论你身处技术公司或传统行业,在这里都可以找到智能化、数字化升级的案例和伙伴。在无限的时空中,和你共同探索科技原力是我们的荣光。
 最新文章