生成式AI爆火一年半,为何还存在幻觉问题

文摘   2024-09-27 18:50   湖北  



为了弥补这种技术限制和错误,业界已经提出了许多解决方案。许多方案都在尝试预测下一个token,但这些模型实际上无法预知未来会发生什么。比如,人类在说话时,大脑会先构思一个框架,知道自己要分几点阐述,可能会采用总分总的结构。但大型语言模型由于限制了自己在推理过程中只能机械地预测下一个token,这使得它的概率特性在某些场景中被不断放大。


因此,近期的研究工作希望大型语言模型能够具备一定的预测未来和自我反思的能力。例如,模型在说完一段话后,能够根据自己所说的内容进行额外的确认和修改,这可能会提升其能力上限。

文 | 曹宇(博士、阿里巴巴大模型算法专家)

*本文系作者参加“九派圆桌”《生成式AI:泡沫将至?》议题讨论发言,经审阅发布

01

大语言模型限制了自己在推理过程中

只能机械地进行预测


AI技术的原理本质上是对世界进行概率性预测。简单来说,它就是对下一个token——我们可以将token理解为字或词的一部分——进行概率分布和理解。AI并没有脱离其作为一个概率模型的本质。既然是概率模型,它就有正确预测的可能性,也有出错的风险。因此,我们不能完全依赖纯概率模型来期望它准确完成所有任务,这是技术本身的局限性。


为了弥补这种技术限制和错误,业界已经提出了许多解决方案。许多方案都在尝试预测下一个token,但这些模型实际上无法预知未来会发生什么。比如,人类在说话时,大脑会先构思一个框架,知道自己要分几点阐述,可能会采用总分总的结构。但大型语言模型由于限制了自己在推理过程中只能机械地预测下一个token,这使得它的概率特性在某些场景中被不断放大。


因此,近期的研究工作希望大型语言模型能够具备一定的预测未来和自我反思的能力。例如,模型在说完一段话后,能够根据自己所说的内容进行额外的确认和修改,这可能会提升其能力上限。


大语言模型中的视频产品令人印象深刻,譬如Sora,我们被它的宣传视频所吸引。然而,随着时间的推移,我们发现反而是中国国内的一些公司抢先推出了可试用的产品,并在OpenAI之前完成了一些商业化动作。


这背后的原因有很多。首先,多模态模型可以分为两大类:一种是多模理解模型,它们的主要作用是处理图像或视频,并以文字为主要参考形式进行理解和生成任务。这类模型的应用场景与传统的AI,如计算机视觉(CV)模型用于工业质检等任务更为相似,其基础架构也与“变形金刚”Transformer模型更为接近。


另一大类则是以生成为主的模型,如扩散模型(diffusion models)。虽然它们都属于大型模型,但在结构和原理上存在一定差异。技术上,Sora这类模型面临的挑战在于,扩散模型需要在图像和视频上生成扩散过程,其推理成本和对训练数据的要求是完全不同的量级。因此,在扩散模型的应用场景中,仍有许多难以处理的边缘情况,这使得用户体验可能会感到有些奇怪。例如,早期的讨论模型在生成图像细节时,尤其是人物的手部,会发现手指数量和弯曲方向存在明显差异。


在视频模型中,这种问题会被放大,因为视频模型不仅要求艺术上的美感,还必须符合物理定律。例如,一个经典的视频展示了战舰在咖啡杯中战斗的场景,虽然战舰和咖啡杯的绘制非常出色,但如果仔细观察,就会发现波浪的生成和破碎原理与真实波浪存在很大差异。总的来说,由于计算力要求极高,需要遵循物理世界的要求,以及实际使用过程中的体量不如理解式模型大,这三点使得Sora的延迟发布在技术和使用逻辑上是可以理解的。


sora发布之初引爆互联网。图/cfp


02

我们终将面临预训练数据耗尽的一天


大模型在发展过程中,虽然被批评为存在“幻觉”现象——即在生成内容时可能会产生与现实不符的信息,但这也反映出大模型具有强大的想象力和创造力。如何在保持这种创造力的同时减少幻觉现象,是工业界在推广大模型应用时需要面对的挑战。


我对此持相对乐观的态度,这也是我投身于大模型研发的原因之一。我们应当保持乐观,同时谨慎地看待大模型发展中的不足,并寻求合适的方法使其更好地服务于各行各业。


目前我们能够接触到的信息,无论是开源的还是闭源的大模型,都包含了大量的数据。以开源模型为例,它们已经训练了大约15T个token,它们所学习的语料几乎涵盖了互联网上所有公开可获取的知识。


至于大模型的表现,需要根据不同领域和场景来评估。在自然语言处理等传统领域,大语言模型已经达到了相当高的水平,比如在垃圾邮件识别和有害信息判断方面,相较于以往的模型有了质的飞跃。然而,在一些复杂的推理任务上,比如比较9.1和9.9这样的数值,许多大模型的表现仍未达到人类的期望。这与大模型的训练方式和我们目前依赖数据规模的趋势有关。


大型语言模型之所以强大,是因为它们能够处理多种模态的数据。我们之前提到的15T数据,指的是目前互联网上可获取的文本信息。但正如人类与世界的互动不仅限于文字一样,我们对世界的感知也包括声音、视频等多种信号,这些信号还有待我们进一步挖掘。


随着计算能力的提升和算法的进步,AI处理数据的速度将越来越快,我们终将面临预训练数据耗尽的一天。尽管这看似不可避免,但我们在数据方面仍有新的探索空间。例如,合成数据在特定领域已经证明能够显著提高数据利用效率,并为我们提供了除人类生成数据之外的新数据源。


因此,我认为,我们不仅有许多未被充分利用的模态数据,如互联网上的视频,合成数据以及AI之间的多智能体交互数据,也将成为未来数据训练的宝贵资源。


生成式AI在推理成本方面的挑战,是业界普遍面临的问题。在日常工作场景中,大模型在某些方面确实能够提高效率,例如处理Excel表格中的重复项。这些任务往往难以通过简单的公式或拖动操作完成。业内已经有一些工具能够较好地解决这些问题,比如基于Excel表格制作报表。


然而,大模型的尺寸和能力几乎是成正比的,这导致在实际应用中,为了满足更多人同时使用模型的需求,我们不得不在精度和效果上做出妥协。这使得在某些使用场景中,大模型的表现有时可能达不到我们的期望。


此外,大模型的应用形式目前还相对单一。我们希望大模型能够帮助我们在日常工作中进行创意生成和写作,但有时我们会发现AI的痕迹过于明显。如果我们审视互联网上的整体数据质量,显然不如人工精心撰写的文章和报道的质量高。因此,如果我们想在人工智能领域继续提升,我们必须让人类与人工智能形成一种助手或伴侣的关系,而不仅仅是以AI的输出为标准。



03

大模型具有一定欺骗性

可能会隐藏真实意图



我仔细研究了发表在《自然》杂志上的一篇文章,文章的核心内容并不是说大模型在与我们对话9次后就会变得更差,而是探讨了一个有趣的问题:如果我们用大模型自己生成的数据去训练它,它的表现会变好还是变差?研究者的一系列研究结果令人有些失望,因为并没有如我们预期的那样,通过使用大模型自身生成的数据来训练,使其学习效果得到提升。这与人类举一反三的能力似乎有所不同。


然而,我们需要注意的是,这项研究在某些方面与我们在大模型研发或实际应用中的做法有所不同。首先,我们是否在大模型的训练过程中,仅仅使用它上一轮输出的结果进行下一轮训练?实际上,大多数团队目前都在采用一种名为“人类反馈强化学习”的技术来训练模型。这种技术的核心在于,人类的标注员会根据大模型的输出给出奖励或惩罚的信号,这些信号将决定大模型在下一步训练中应该采用哪些数据。


目前的结果表明,通过这种方式可以有效避免大模型仅依赖自身数据而陷入退化的过程。但这种技术仍有其局限性,例如我们之前提到的事实性或幻觉问题,虽然可以通过人类反馈强化学习得到部分改善,但并非完全解决。


因此,在业务实践中,包括我们目前实际使用的大模型产品中,我们有时会加入一种称为信息检索的功能。大模型会像人类一样在互联网上搜索和查询相关信息,并综合这些信息为用户提供最终答案。虽然这样的答案可能需要更长的时间来检索,但从整体的可解释性角度来看,至少大模型能够提供其做出判断的信息来源。这使得人类用户可以进行更进一步的研究和查看,以决定是否应该相信这个模型,或者是否需要进行更深入的探索和判断。


同时,大模型的数据安全和整体安全性也是一个极其严肃的议题。最近OpenAI的一场风波,实际上源于公司内部安全团队对公司政策的不满,他们认为商业团队在推出大模型产品前,并未对其进行充分的安全评估。从数据层面来看,我们已经付出了许多努力,以期消除大模型可能带来的安全风险。但研究者发现,大模型本身具有一定的欺骗性,它可能会在某些情况下隐藏自己的真实意图,并通过其他方式来实现其最终目的。


这种现象听起来令人不寒而栗,颇具科幻色彩,但在特别大规模的模型中,这种自发的涌现现象确实被证实是有可能发生的。因此,一些研究者愿意站出来,进行独立的模型安全评估和相应的安全体系建设。然而,我们必须坦白,这一领域的工作还处于非常早期的阶段,因为它涉及到将大型神经网络的黑盒模型转变为白盒或灰盒模型,并对其进行解释的过程。


在这个领域的投资方面,可能只有中美两国会严肃对待这一问题。因为如果从更大的范围来看,这不仅关系到技术层面,还可能涉及到政府或立法层面的共同努力,以帮助整个产业在快速迭代的情况下抑制模型可能存在的风险因素。


与此同时,我们也看到美国的一些大型企业对这一问题的严肃态度。例如,OpenAI就聘请了NSA前负责人来负责相关的安全事务。我们也在探索国内关于模型安全的早期研究,包括通过模型本体的探查等手段,这些技术正逐渐成熟,未来将使我们对模型本身的安全性有更深入的理解。



04

大模型如要进化到人脑级别

需要扩大100倍甚至10000倍



我们观察大模型,会觉得它并不像人类,但最终目标其实是希望它能够更接近人类。这种趋势在全球范围内都有所体现,比如美国的公司Anthropic,它的名字就体现了人类学的概念。


我们为什么会朝着这个方向发展呢?原因在于,人类本身在本质上也是一个概率模型。这听起来可能有点神学色彩,但实际上是有理论依据的。我们的大脑思考过程,大部分并非量子过程,而是可以通过神经元介质的传递来解释的,尽管其复杂程度远远超过我们现在最先进的大模型。


我们面临的一个未知问题是,我们需要多大的大脑容量才能实现这样的智能。这个容量可能远远超出我们对大模型的所有想象,可能需要将现有的模型规模扩大100倍甚至10000倍才能达到这样的水平。因为大模型与小模型最大的区别在于,我们曾经不认为小模型具备规划、推理和交互的能力。在过去,我们使用聊天机器人时,并不愿意与它们进行深入交流。但是,当模型的规模在我们原有认知范围内扩大10000倍时,一些新的能力就会涌现出来。


因此,我对这个行业最抱有期待的一点就是,既然从小模型到大模型可以发生涌现现象,那么如果我们将规模进一步扩大,并结合其他更先进的技术,这将是一个呈指数级增长的过程。这种变化可能会带来我们难以预料的突破和创新。


当前的主流观点认为,下一代AI技术的核心将是基于强化学习和自博弈的大模型。这种技术体系的主要推动者包括美国的谷歌、DeepMind以及OpenAI等公司。我们已听说过许多相关的计划,例如OpenAI的“草莓计划”和“Store very计划”,以及DeepMind的“Germany”自博弈技术。此外,Anthropic等公司也在积极招募前OpenAI的高级研究员,共同推进这一领域的研究。这些努力本质上代表了技术探索的新方向。


虽然我们无法确定这些尝试是否能够成功,但从AI技术发展的历程来看,它们代表了不同AI流派与生成式模型的融合与创新。这是一个雄心勃勃的过程,因为它涉及到大模型自我迭代的能力,这可能会使推理成本增加约100倍。这是一个巨大的挑战,即使将全球所有的AI计算资源集中起来,也可能难以满足这样的需求。


说到生成式AI的iPhone时刻,其实很多创新技术在iPhone之前就已经存在。例如,触摸屏技术和智能手机的雏形在iPhone问世前就已有相关概念。iPhone之所以成为iPhone时刻,更多的是因为它在应用领域内集大成,将许多有用技术进行了合理整合,达到了一个突破的临界点。


如果我们将这个比喻应用到大型语言模型上,就会发现这些技术之前大部分都不是完全不为人知的。我们尚未到达那个转折点,让技术爆发。因此,我们一直在预测,何时会迎来大型模型自己的AI时刻?这个问题的答案在很大程度上取决于我们是否像iPhone时刻那样,已经集齐了所需的“七颗龙珠”。每个领域、每个行业的进度都不尽相同。例如,我们之前提到的会议领域可能已经接近完成,而某些生产或自动化领域的项目可能还远远没有开始。


AI无疑是当前技术领域中最耀眼的明珠,但这个皇冠上还有很多值得我们期待的领域。以中国为例,作为一个制造业大国,我们未来将面临人口老龄化和劳动力短缺的问题。因此,这波AI浪潮不仅推动了生成式AI的发展,也带动了所谓的聚生智能领域,即将生成式AI的规划和对世界的理解能力与现有的机器人技术相结合。这是一个非常广阔的市场。目前,在生产环节中,我们仍然需要大量的熟练工人,这些工人实际上充当了数据生产者的角色。在AI的视角中,AI在某些场景中进展缓慢,归根结底还是因为对应领域的数据不足。


这种数据的收集如果仅通过文本形式进行,效率相对较低。我们必须找到一种更快速的方法与现实世界进行交互。这是我观察到的一个令人兴奋的领域。除此之外,生成式AI的发展也激发了新一代研究者的创造力,他们的想法千奇百怪,算法背景也各不相同。许多人甚至拥有哲学背景,他们采用独特的方法来解决AI问题,例如使用符号科学的方式。在未来,这些研究者中可能会有人异军突起,成为推动AI未来发展的中坚力量。


END

九派



《 过 刊 》

往期内容精选

热点话题 | “黑神话”引爆“悟空宇宙



©原创稿件版权归九派新闻所有,转载前请先获得授权。

若稿件内容涉及错误或侵权,请联系我们及时沟通处理。

邮箱:jpbl@jp.jiupainews.com互动微信:jpcjbl

九派财经
九派新闻九派财经官方账号
 最新文章