全文约5,000 字,阅读约需13分钟
DeepMind联合创始人、现任微软人工智能CEO穆斯塔法·苏莱曼(Mustafa Suleyman)在近期一次专访中,描绘了AI即将为我们带来的重大变革。
想象一个永远在线的AI智能助手,它不仅能完成各类数字任务,更能捕捉我们日常生活中转瞬即逝的想法。如今,我们往往会因为打开手机、输入关键词这样的操作门槛,而放弃许多灵光一现的创意。如果这个门槛被大幅降低,我们探索和创造的范围将极大扩展。
更令人期待的是,到2025年,AI可能将实现"永久记忆"的突破。它不仅能准确检索网络信息,更能构建起个人知识图谱,整合文档、邮件、日历等各类信息。与此同时,通过"蒸馏"技术,AI模型正在变得既大又小,并开始整合视频、图像等多模态能力,朝着更智能、更自然的交互体验迈进。
采访文稿
主持人: 那我们为什么不开始,对吧?
嘉宾穆斯塔法: 没错。首先非常感谢他们以这样的方式开场,真是一个绝佳的开始方式。
主持人: 是啊,这确实让人精神振奋。而且,“Master of Scale”团队的一部分出色表现不仅在于他们关注如何规模化支持创业,还在于他们的创造力、精神和其他方面的表现。这种内在的交织,正如Jeff所提到的,是我所热爱并从中学到的许多东西之一。这真是很有人情味,真的很美。所以有些人有时会将人工智能与一种物种做类比,把这看作是从小处开始的方式。正如我所说,我们开始吧。那么,你怎么看待这种视角?在哪些地方它是一个不错的视角,而在哪些地方它可能会误导?这种视角应该如何指导我们在全球范围内的思考方式?
穆斯塔法: 我认为,当我们面对某种根本性的新事物时,它就像是我们以前从未见过的东西。每一波新技术浪潮真的都给人这种感觉。想想第一次拥有电力,或者通过跨大西洋的电话线与人交谈,那该是多么神奇和疯狂啊!这给你的世界观增加了一种全新的心理表征,让你觉得一切皆有可能。每次这样的事情发生时,我们都会努力找到合适的比喻,将它与我们已知的事物联系起来。虽然它最终不会完全像我们所知道的那些事物,但在新事物到来之前,这可能是我们所能找到的最佳比喻。我提出这种新的数字物种的比喻,是因为当你退一步观察这些技术的能力时,这是最接近的类比,尽管这也引发了许多我们不希望它成为的方面。这种比喻框定了“控制”的问题。这些模型将能够看到你所看到的,听到你所听到的,实时理解并与文本互动,为你执行动作。这些能力正在兴起。我认为,这个“物种”比喻是我们现有的最相似的替代选项,它为我们思考我们不希望它成为的样子提供了一个有益的框架。
AI创造力
主持人: 那么,在这个数字物种的引导过程中,你认为最重要的事情是什么?我们应该做的一件事和不应该做的一件事分别是什么?
穆斯塔法: 顺便提一下,我推荐我的书《浪潮将至》(The Coming Wave),这本书深入探讨了这些问题。以下是一个60秒的简要版本。这些模型的一个不可思议之处在于,它们不会简单地给出你输入的内容。软件的伟大目标是告诉我们我们不知道的东西。所以,“幻觉”这个词对我来说有点不幸,它不是缺点,而是优点,它是创造力的体现。
创造力,我们希望有各种可能的回应,而不是简单的答案。我们希望它们能学习自己的表征,而不是我们手工制作的特征,这是过去15年机器学习的核心动机。现在它们能做到这一点,这是好事。但我们需要弄清楚的是学习的边界。目前几乎没有任何递归自我改进的闭环,所有改进都需要人类直接监督。但我们预计,到2025年,团队会开始在这一领域进行实验。这是需要关注和小心的地方。
主持人: 还有其他需要注意的地方吗?
穆斯塔法: 另一个需要关注的是完全的自主性。如果这些模型能在没有人类监督和控制的情况下,独立在数字环境中行动,比如创建虚拟机,操作网页,调用API,这将明显增加风险。但是积极的一面是,它们将具有极大的创造力,并帮助我们展现出最好的一面。如果设计得当,它们不会像人类那样刻薄、批判或羞辱他人。没有理由让这些技术变得恶毒。
主持人: 有些人会设计一些AI伴侣,让它们具有这些特性。但这并不是不可避免的结果,而是一些设计者的选择。你怎么看待这一点?我们是否应该尽全力在生态系统中、在规范和价值观上限制这样的设计?
穆斯塔法: 是的,确实会有人这么做。但我认为,这些技术有很大的空间可以帮助我们展现出最好的一面。几周前,我读到一篇论文,研究了一些深信阴谋论的人,比如说“地球是平的”这种极端的阴谋论。这种阴谋论确实存在一些。但是让我们先不谈选举的阴谋论,仅仅是“地球是平的”这种论点,我想我们都能同意这是非常荒谬的。这些相信阴谋论的人在与聊天机器人进行六周左右的交流后,他们相信这些阴谋论的倾向有所降低。因为聊天机器人是耐心的,不会评判你,不会贬低你,总是耐心地回应你,并且基于科学文献提供证据。这给我带来了很大的希望,认为这些技术的积极影响将会是巨大的。
主持人: 这很有意思,我想提前问一个本来打算稍后提的问题。你和Karen在创办Inflection时,提出了一个核心原则,就是情商(EQ)和智商(IQ)同样重要。你能谈谈这对Pi的意义是什么吗?为什么这一点在更广泛的应用中如此重要?
穆斯塔法: 没错,智商通常可以被视为准确性、速度、全面性、相关性,以及对实时信息的访问程度。在这些方面,我们的进展是稳定的。但我注意到,AI研究社区通常忽视了信息传递的方式。我们往往认为只要把事实摆出来,人们就会看到这是正确的。但实际情况是,语气、风格、情感智能,这些模型是否会问你问题,是否使用与你相符的语言风格,这些传递信息的方式可能比单纯的客观事实更重要。这是工程师的思维方式,也解释了为什么交付信息的方式对大多数消费者来说可能比单纯的事实更重要。我们现在要面对的是,在这种“智能代理”的未来,不仅仅是这些代理能够执行的操作,还包括它们的个性。我对如何设计这些个性特别感兴趣,因为我认为这正是人们会发现非常有价值的地方。
AI智能体
主持人: 那么,说到“智能体”的未来,你能给我们一些见解吗?从“共生”的角度来看,你如何看待未来两到五年内这些代理在我们生活中的角色?在“物种”的层面到具体的代理,我们该如何与之共处?
穆斯塔法: 智能代理未来的第一步是,你的AI伴侣需要能够“看到”你所看到的东西。无论是在浏览器、桌面还是手机屏幕上,它需要实时获取你的感官输入,从而理解你的指令,比如“记得我刚才看到的那个东西”或者“那些是什么”。这种级别的理解是前所未有的,它让你的AI能够为你采取行动,比如浏览网页、使用API、预订、购物和规划。目前我们已经看到了许多酷炫的演示,但距离大规模应用似乎还有一段路要走。但是现在的很多技术演示还不够成熟,类似于GPT-3推出前的那些大公司内部的模型。当时它们也不够稳定。我认为目前在“行动商数”(AQ)方面,我们可能也处于类似的阶段。要让这些系统从50%-60%的成功率提高到99%,还有很长的路要走。语音识别和语音输入领域的进展就是一个例子,经过了15到20年的发展,只有最近几年才达到了99.5%的准确率,真正让人们开始大量使用语音输入。
主持人: 我完全同意你所说的,我们之前也谈过很多。生成式AI革命让语音输入变得更好,因为你只需说话,它就能理解你的意思。这如何为智能代理的世界带来更高的提升?
穆斯塔法: 界面的形态,抽象来说,决定了你能向其中输入什么。因为搜索引擎的搜索框就像一个信箱,我们学会了用“搜索语言”交流,把想法压缩成三到五个词,甚至不到一句话,平均只有1.6个词。语音体验的有趣之处在于,它解锁了我们与计算机交互时大脑的新部分。你可以用完整的句子表达,可以自我纠正,前后跳跃,甚至随口说出一些平时不会打字输入的想法。而模型会用段落回应你,这让你会想到并讨论以前从未数字化的问题。所以这是一个很好的框架,说明了在行动方面可能会发生什么。你有一个随时可用的AI伴侣,能完成任何数字任务,你会要求它做你平时在电脑上不会做的事情。这是一个巨大的转变,因为完成任务的门槛将大幅降低。这不仅是因为边际成本为零,也是因为摩擦大大减少。你会想到以前觉得太麻烦而不愿自己做的事情。
主持人: 那么,你认为这种互动会如何帮助我们变得更有创造力?这些代理会激发怎样的创造性思维?
穆斯塔法: 想想你一天中出现的随机想法和问题,很多时候这些想法几乎是潜意识的。你不会总有一个人在身边听你表达这些疯狂的想法,你也不会总有精力去打字搜索。拿出手机打字搜索是个不小的门槛。我每天大概搜索5到8次,已经觉得挺费力的。如果获取这些信息的门槛降低了,那么你能表达和实现的创造性想法的范围就会增加。
主持人: 而且这些想法还能被记住,对吧?
穆斯塔法: 对,这是另一个重大变化。我们将很快解决记忆问题,我很有信心,到2025年我们会有永久记忆。我们已经可以从网络上准确地检索信息,而共生智能助手也能在15分钟内更新最新的新闻和网络内容。这种记忆能力将被压缩用于你的个人知识图谱,包括文档、邮件、日历等。这会彻底改变体验,因为你不再需要在几次会话后从头开始。它会记得你三周前说过的那个想法
主持人: 是啊,这怎么和我们谈到的这些对话有关呢?更多的对话,没错,这就是它的关键之处。
穆斯塔法: 确实如此。这就像拥有了第二个大脑,是你思维的延伸,这也正是情商(EQ)如此重要的原因。
小模型前景
主持人: 完全同意。那么我们现在可以稍微深入到一些战术层面,谈谈模型的未来发展。很多企业家都在关注未来几年的发展方向,我们该留意哪些趋势?
穆斯塔法: 好消息是,模型正在同时变得更大和更小,这个趋势几乎肯定会继续下去。过去一年里,一种新的方法开始流行,叫做蒸馏。大型、智能且昂贵的模型可以教小型模型,通过AI反馈进行强化学习。这种监督效果看起来相当不错,目前有很多证据支持这一点。规模仍然是关键。我们还有很多增长空间,数据也会源源不断地涌现。我认为至少在未来两到三年内,规模化模型会继续带来卓越的表现。同时,我们也在引入新的模态,比如视频和图像。但我们真正感兴趣的,是跨复杂数字表面的行为轨迹,从浏览器跳到桌面,再转移到手机,跨越不同的生态系统,比如封闭的花园和开放的网络。
主持人: 这些轨迹会带来怎样的影响?
穆斯塔法: 我们试图理解这些行为轨迹,收集大量数据,利用监督微调等等,我认为这将带来很多令人印象深刻的成果。另一个重要话题是数据,虽然网上关于数据的讨论已经很多,但我认为人们没有花足够时间思考新数据的来源。举个例子,合成数据很有趣。我们意识到,如果有这样的数据,可以训练出更好的小型和大型模型。那么,如何获取这些数据?如何确保它们被整合?这是企业家需要思考的问题。
主持人: 如何看待提示词(Prompt)在这个过程中的角色?
穆斯塔法: 提示词不仅仅是你问的问题。当你问聊天机器人一个问题,那只是一个问题,而不是提示词。提示词更像是你写的一份三页的风格指南,包含一组要模仿的例子,然后你再向已经被提示过的模型提问。提示词的重要性在于是高质量的指令集,它为预训练模型提供了行为方向。令人惊讶的是,模型可以通过几页的指令,表现出与其他被不同提示词训练过的模型截然不同的行为。这本身就很神奇。
主持人: 如何让模型更贴合品牌价值或产品的独特性?
穆斯塔法: 为了让模型在细节上表现出色,真正贴合你的品牌价值或独特产品,你需要展示成千上万个好的行为例子,并将它们微调到模型中。这是预训练过程的延续,需要高质量且准确的数据。好消息是,在许多小众领域或特定垂直领域,这些例子是很容易获取的。
主持人: 这确实是一个优势。我觉得在预训练模型的高质量微调方面,初创企业还有很多空间可以大展身手。这样你就能更稳定地实现你关心的行为政策。那么,创业者应该如何看待小模型的使用和部署呢?毕竟,他们显然会依赖微软、OpenAI、谷歌等公司的前沿模型和大规模模型,因为那些是价值数十亿美元的模型。但创业者应该如何利用小模型来创造有趣而独特的机会呢?
穆斯塔法: 我认为小模型肯定是未来的发展方向。如果你想想看,当你向一个前沿的大模型提出查询时,它实际上激活了数十亿个神经路径,而这些路径与当前查询无关。令人惊奇的是,它能非常高效地处理这一切,每生成一个词元,就会引用数以百万计的节点。但如果你有一个明确的使用场景,就不需要这样做了。
创业公司建议
主持人: 那么你觉得未来会发生什么呢?
穆斯塔法: 我们会将知识压缩到更小、更便宜的模型中,比如一个冰箱磁贴大小的设备。我以前没听过你用冰箱磁贴来做比喻。冰箱磁贴可能是我能想到的最小的数字设备之一。想象一下,它可以早上欢迎你,和你聊天,告诉你天气,提醒你冰箱里有什么,甚至是你的日程安排。这些功能可能只需要几千万个参数。
主持人: 这确实很有潜力,但目前好像还没有人真正推行这方面的发展。
穆斯塔法: 是的,这完全是可行的。小团队可以去探索这种可能性,这对于任何团队来说都是一个值得探索的方向。
主持人: 这是一个创业会议,你觉得未来两天人们应该思考什么问题呢?你可以花几秒钟想一想。
穆斯塔法: 好的,我想我的问题会是:“你是否全身心投入?”因为我们正处于一个转折点。我真的相信,在过去五十年的重大技术变革中,我们看到了一切的结构如何被重新塑造。这是一个创立公司、扩展公司,甚至是转变职业的时刻。即使你不是创业者,无论你是活动家、组织者还是学者,这都是一个值得关注的时刻。到2050年,局面将大不相同,而现在我们确实有机会集体塑造和影响未来。
主持人: 所以我们真的能为人类最好的未来努力,是吧?
穆斯塔法: 是的,这一切都没有预定的结果。我们非常幸运能生活在这个时代,这既令人充满力量,也赋予我们巨大的责任。
主持人: 我完全同意。现在大家知道为什么我对和穆斯塔法的开场对话如此兴奋了。让我们感谢他吧!