深度|微软AI CEO苏莱曼:三年内前沿模型性能提升不会放缓、2025实现AI永久记忆、创业者应关注垂直小模型

文摘   2024-11-03 09:01   浙江  

👇关注公众号后设🌟标,不错过第一手AI新鲜观点和动态

本文访谈内容整理自Microsoft AI CEO 穆斯塔法·苏莱曼和里德·霍夫曼在2024 Masters of Scale Summit的对话,公开发表于2024年11月02日。原始内容参考:https://www.youtube.com/watch?v=IZBT57oLKas

微软AI CEO Mustafa Suleyman对话Reid Hoffman

内容导读

  1. AI如同新物种:  苏莱曼将AI比作一个新兴的数字物种,这有助于理解其能力和潜在风险。 这种比喻强调了AI的学习能力、自主性以及对人类社会潜在的深远影响。
  2. AI的创造力和局限性:  AI的“幻觉”(hallucinations)并非缺点,而是其创造力的体现。 然而,需要关注AI的自主学习能力和自主行动能力,防止其不受控制地自我提升或做出有害行为。
  3. EQ与IQ同等重要:  开发AI时,除了关注其智力(IQ),更要重视其情商(EQ),即AI的表达方式、语气、情感智能等。 这对于提升用户体验和确保AI的积极使用至关重要。
  4. AI代理(Agent)的兴起:  未来几年,AI代理将扮演越来越重要的角色,它们能够感知用户的环境(例如看到用户屏幕上的内容),并自主完成任务。 语音输入将是AI代理的关键交互方式。
  5. 记忆能力的提升:  AI的记忆能力将显著提升,这将使人机交互更加流畅自然,并促进创意的产生和发展。 AI将记住之前的对话和信息,从而形成更深入、更持续的互动。
  6. 小型模型的潜力:  未来,小型模型将在特定领域发挥重要作用。它们更轻便、更经济,更易于部署在各种设备上(例如耳塞、可穿戴设备等),并能实现环境感知。
  7. 高质量数据的价值:  高质量的“提示”(prompt)和微调数据对于提升AI模型性能至关重要。创业者可以专注于特定领域的高质量数据收集和模型微调,从而获得竞争优势。

Mustafa Suleyman和Reid Hoffman简介

Mustafa Suleyman 和 Reid Hoffman 是两位在人工智能领域举足轻重的领军人物,他们共同创立了Inflection AI,一家专注于构建人机交互界面的AI公司。

Suleyman 曾是DeepMind的联合创始人之一,该公司因其AlphaGo击败世界围棋冠军而闻名。在谷歌收购DeepMind后,他领导了DeepMind的应用AI团队,致力于将AI技术应用于医疗保健等领域。他深谙AI技术,并对AI的伦理和社会影响有着深刻的思考。目前Suleyman是微软AI的CEO。

Hoffman 是一位著名的企业家和投资人,他是LinkedIn的联合创始人,也是Greylock Partners的合伙人。他拥有丰富的商业经验和人脉资源,对科技行业的未来趋势有着敏锐的洞察力。

访谈完整记录

霍夫曼:就像我说的那样,从小处着手。开始吧!作为思考人工智能的视角,这怎么样?有哪些方面是好的视角?有哪些方面是误导性的视角?在通往人工智能的道路上,它应该如何指导全球思维?

苏莱曼: 你知道,我认为当我们遇到一些根本上全新的东西时,这就像我们以前从未见过任何类似的东西一样,每一次新的技术浪潮确实都会有这种感觉。我的意思是,想想第一次拥有电力是多么神奇和疯狂,甚至通过跨大西洋的电话线与某人交谈,那一定令人难以置信。它为你的世界观增加了对可能性的一种全新的心理表征。

所以每次发生这种情况时,我们都会努力寻找合适的比喻,将其与我们已知的东西联系起来。它最终不会像我们已知的那样,但这是它出现之前我们所能拥有的最好的比喻。我提出这个新的数字物种的比喻,仅仅是因为当你退一步观察这些事物的能力时,即使这会引发许多我们不知道的问题,它也是最接近的对应物。我认为这是一个很好的方式来描述我们不想让它成为什么样的问题。我认为这以正确的方式描述了控制的问题。

我的意思是,这些模型将能够看到你所看到的,听到你所听到的,理解并与文本进行交互,并在实时情况下代表你采取行动。这些能力现在正开始流行。我认为,你知道的,最合适的比喻,我们现在所能找到的最相似的替代物是物种。我认为这提供了一个有益的框架来思考。以及我们也不想让它成为什么。

霍夫曼: 并且你会说,对于这个物种来说,我们真正需要做的一件事是什么,而为了引导数字物种的发展,我们真正需要避免做的一件事是什么……顺便说一句,我推荐Mustafa的书《即将到来的浪潮》(The Coming Wave),这本书也深入探讨了这个问题。

苏莱曼:我认为,这些模型令人难以置信的一点在于,它们不会简单地重复你的输入。我的意思是,这可以说是软件的伟大目标,对吧?我们希望它能告诉我们一些我们不知道的东西。“幻觉”这个词,我觉得用得不太恰当,它并非缺点,在我看来,这恰恰是优点,可以称之为创造力。没错,创造力。我们希望在给定输入的情况下,得到各种各样的可能回应。这种可塑性和模糊性正是我们想要的。

因此,让它们学习自己对事物的表征,而不是我们手工设计这些特征(这是过去15年机器学习的核心动力),这真是太棒了。但我们需要弄清楚的是,这种学习的边界在哪里,对吧?目前,几乎没有,如果存在一定的递归式的自我改进的话。所以,目前并没有一个不需要人类直接监督的自我改进闭环。但我们可以在2025年看到它出现。团队将开始尝试这方面。所以我认为这是值得关注的一个方面,也需要谨慎对待。

另一件事就是纯粹的自主性,对吧?你知道,如果这些模型能够在任意数字环境中交互,启动自己的虚拟机,采取行动——比如访问网页、与API交互,并且完全独立于人类的监督和控制地做所有这些事情,那么风险显然会增加。所以,我们会对这两种能力非常担忧。

那么,积极方面呢?我认为,积极方面是它们将具有极强的创造力。我认为它们将帮助我们与自身最好的一面互动。你知道,如果设计得当,它们不需要刻薄、爱评判或让人感到羞愧。大多数人可能会很粗鲁,对吧?这些模型没有理由变得刻薄。有些人会将一些AI伴侣编程成所有这些样子,但这并非不可避免的结果,这是某些设计师的选择。

而且,我认为,从结构上来说,我们应该竭尽所能限制生态系统中、规范和价值观等方面的这类事情。有些人会这么做。我认为,这些东西完全有潜力帮助我们成为更好的自己。比如,三周前我读了一篇论文,基本上报道说,一群持有真正阴谋论的人——我指的是像“地球是平的”那种级别的阴谋论,有一些这样的理论。

苏莱曼:我认为我们都应该同意,“地球是平的”这种说法很荒谬。那些与聊天机器人长时间(我认为是六周左右)交谈过的人,他们相信阴谋论的倾向降低了。这是因为聊天机器人很有耐心,不评判,不会贬低你,而且坚持不懈,它总是会回到正题,并且通常会引用有证据基础的科学文献。所以我认为,有非常有希望的迹象表明,积极方面真的会非常不可思议。

霍夫曼:所以,实际上,我要跳到一个我本来打算过一会儿问你的问题,但我认为这是一个很好的切入点,那就是,Karen、你和我在创立Inflection时,其中一个创始原则就是EQ和IQ同等重要。谈谈这其中的原因,以及这意味着什么,对Pi来说意味着什么,为什么这不仅仅对Pi很重要,对整个领域都很重要?

苏莱曼:好的。我的意思是,我认为,IQ通常可以被认为是答案的准确性、速度、全面性、相关性以及它对信息的实时访问程度。所有这些方面,我们都在不断进步。我认为我注意到的是,人们(通常是人工智能研究领域的群体)往往忽视了信息传递载体的重要性。这就像一件非常书呆子气的事情,仅仅说,如果我只是陈述事实,那么人们就会清楚地看到这是正确的。是的,工程思维。是的。事实证明,语气、风格,以及这些模型的情商,它们会问你问题,它们是否会以你可能会使用的某种类型的语言进行回应等等,这些实际上都很重要。

对于大多数消费者来说,这种信息的传递载体可能比仅仅客观地重复维基百科的内容更重要。所以我认为,这将是每个人现在开始努力应对的关键能力之一,那就是这种自主的未来不仅仅关乎人们能够清楚地看到的行动,还关乎个性。我非常感兴趣的是我们如何设计个性,因为我认为这正是人们真正会发现,或者我可以预见人们会发现非常有价值的东西。

霍夫曼: 说到自主代理的未来,让我们从一个副驾驶的角度来看待它。你如何看待它?你在未来两到五年内,如何看待智能体在我们的生活中发挥的作用?从物种层面到具体的层面,这些智能体中什么最重要,我们现在应该如何它们一起互动。

苏莱曼: 实现自主代理未来的第一步是,你的副驾驶,或者说你的AI伙伴,必须能够看到你所看到的东西。拥有一个能够真正看到你在屏幕上、浏览器中、桌面上或手机上看到的像素的助手或伙伴,意味着它能够持续地、某种程度上感知你的感官输入,这使得你的伙伴也能观察到你正在看到的东西

然后你就可以说,你可以使用一些模棱两可的指代,比如,“记得我看到的那东西吗?”或者“那些东西在哪里?” 这是一种我们以前从未有过的理解层次。它使你的AI能够代表你采取行动,对吧?这意味着在浏览器中导航,这意味着使用API,预订东西,购买和规划。

我认为,我们目前显然有很多关于这类事情很酷的演示。在我看来,我们距离将这些技术投入生产环境还有一段距离。你可以从之前的几次浪潮中看到这一点,就像GPT-3出现之前,大型公司内部就有模型,大型语言模型等等。那可能是在2020年或2021年左右。而且它们非常不稳定。我认为AI可能正处于这样的阶段。

所以我认为,让事情在50%到60%的时间内运行良好就已经很不错了,而我们需要将它们的准确率提高到99%。你可以从语音识别和听写中看到这一点。这已经有15年或20年的发展历程了。直到最近的二三年,它的准确率才超过了99.5%的门槛,并且实现了个性化,所以你开始看到使用它的人数急剧增加。我认为这是一件非常重要的事情。我认为这是一件非常重要的事情。

霍夫曼: 语音输入与之的交集是什么?生成式AI革命使得它能够参与到对话中,这使得语音输入的效果更好,因为你不知道,你只需要对着它说话,它就能理解你实际上在说什么。这将如何提升自主代理?

苏莱曼: 是的,接口的形态,非常抽象地说,决定了你能输入什么。因为搜索引擎的搜索框就是一个接口,我们学会了用搜索的语言说话,对吧?我们将我们的想法压缩成三到四个或五个单词,甚至都不是一个句子。平均1.6个单词,甚至更短。

苏莱曼: 所以,我认为这些语音体验的有趣之处在于,它在与计算机交互时开启了大脑的另一部分。因为你可以用完整的句子说话,因为你可以自我纠正,你可以向前和向后移动。而且,你知道,你可以添加我们在随口说话时会用到的一切其他内容。然后模型用段落回复你。你突然会想到并谈论一些你以前从未数字化过的事情。我认为这可能是一个很好的,

我的意思是,我认为它很可能是一个很好的框架,它告诉你行动方面可能会发生什么。因为你拥有这个始终可用的AI伙伴,它可以完成你能够完成的任何数字任务。我认为你会要求它做一些你今天自己不会在电脑上做的事情。我认为这是一个巨大的转变。因为完成某件事的门槛即将降至谷底,对吧?这既是因为边际成本为零,也是因为摩擦力大大减小了。因此,你会想到一些你以前没有想过自己去做的事情,因为这太麻烦了。

霍夫曼: 你认为这将如何帮助我们变得更有创造力?比如,与这些代理的互动会产生什么样的创造性、灵感和启发?

苏莱曼: 想想你一天中会有多少个随机的想法或事情,或者问题。如果你真的深入地思考你的潜意识,比如那些让你觉得“我想知道”、“我认为”的时刻,它们几乎是潜意识的。它们通常不会被表达出来,因为你身边并没有一直有人倾听你疯狂的想法,除了你自己。而且你知道,你肯定没有精力一直去打字。

事实上,拿出手机打字是一个相当高的门槛。我想说我搜索很多,但可能一天五到八次。这需要相当大的努力。所以,如果表达这些想法的门槛现在降低了,那么你所能产生的创造性想法的范围,然后在你的AI伙伴的背景下得以实现,肯定也会增加。然后因为它会记住,我的意思是,这将是比行动更早出现的一件大事。

记忆,我们将掌握记忆。我的意思是,我对2025年就能实现永久记忆非常有信心。我的意思是,如果你仔细想想,我们已经在网络上拥有记忆,我们一直相当准确地从网络上检索信息。现在,Copilot 拥有非常好的引用功能。它15分钟前才更新,知道网络上新闻发生了什么等等。所以我们只是在压缩它,为你的个人知识图谱做这件事。然后你可以添加你自己的文档、电子邮件和日历之类的东西。所以记忆将彻底改变这些体验,因为你将可以进行有意义的对话或围绕某个创造性想法进行有趣的探索,然后三四个或五个会话后再回来。如果做不到这一点,会令人沮丧。就像,让我们重新开始,我们完全忘记了我们谈论了什么。

你知道,所以我认为这也将是一个巨大的转变,因为你会知道,它不仅降低了你表达创造性想法的门槛,而且这些想法也不会被遗忘。所以你可以进行这种模糊的交叉引用,回到你想要的东西。我三周前说过的那件事是什么?是的。这与我们之前谈论的事情有什么关系?更像是一场对话,这就像拥有第二个大脑。这就像你思想的延伸。这就是为什么它的情商方面如此重要的原因。

霍夫曼: 现在让我们更深入地探讨一下模型的战术层面,因为我们有很多企业家正在思考,好吧,这就是思考未来几年这一领域如何发展的方式,以及需要考虑的事情。

苏莱曼: 我们应该关注什么?好消息是,模型正在同时变得越来越大和越来越小。这种情况几乎肯定会持续下去。因此,在过去一年中,一种被称为“蒸馏”的新方法开始流行起来。你可以用大型、非常智能、昂贵且推理成本很高的模型来训练小型模型,它们可以从AI反馈中进行强化学习。这种监督似乎非常有效,现在已经有很好的证据证明这一点。所以,规模仍然是游戏的一部分。我们的发展空间还很大,数据也充足。因此,至少在未来两到三年内,我认为大规模模型在性能上不会出现放缓。还可以加入新的模态。当然,我们正在添加视频、图像等等。

但真正让我们感兴趣的难点在于,在复杂的数字服务中,跨越不同动作轨迹的处理。我们正在研究如何做到这一点。我认为这将涉及从浏览器跳转到桌面,然后切换到手机,再从不同的生态系统中切换,无论是封闭的系统还是开放的网络。我们试图理解这些轨迹,收集大量数据,使用监督微调等等。我认为这将带来许多令人印象深刻的结果。

霍夫曼: 显然,还有很多不同的角度来讨论数据。一些经典的讨论,例如,你可以处理哪些数据,以及数据的质量如何?我认为这方面网上已经有很多讨论了。但我认为人们没有花足够的时间去思考的是,新的数据会从哪里来。例如,我认为合成数据的一个有趣之处在于,如果我们拥有这样的数据,我们就可以训练出更好的小模型和大模型。那么,我们如何获得这些数据?我们如何确保数据的整合?创业者应该如何思考这些问题?

苏莱曼: 考虑一下提示,它不仅仅是一个你提出的问题。我认为语言在这里有点混淆了。当你向聊天机器人提问时,这是一个问题,而不是提示。提示是一个三页的风格指南,其中包含一系列需要模仿的示例。然后,你随后会向已经收到提示的模型提出问题。基于此框架,提示就是你的数据。它是你的高质量指令集,指导你的预训练模型以某种方式运行。令人惊讶的是,模型只需几页指令就能表现得与收到不同提示的模型大相径庭。这本身就很疯狂。

但如果你再退一步,为了让模型能够以细致、精确、微妙和礼貌的方式运行,真正遵守你企业的品牌价值或你试图创建的独特产品,你必须展示数万个良好行为的示例。你必须将这些示例微调到模型中,这可以说是预训练过程在高质量数据上的延续,而你知道这些数据是准确的。好消息是,对于许多利基领域或许多特定垂直领域来说,数万个示例很容易获得,对吧?这是一种优势。我认为初创企业在对预训练模型进行高质量微调方面还有很大的发展空间。然后,你将获得对所关心行为策略更稳定的模型遵循。

霍夫曼: 创业者应该如何看待小型模型的应用和部署?显然,他们会使用微软、OpenAI、谷歌和其他公司提供的尖端模型和规模化模型来帮助他们,因为那是数十亿美元规模模型所在的地方。但创业者应该如何思考小型模型带来的机遇?他们如何才能用小型模型做一些有趣而独特的事情?

苏莱曼: 是的,我认为小型模型绝对是未来。因为如果你仔细想想,当你向一个真正的、比如一个前沿模型发出查询时,它会点亮数十亿条神经通路的神经表征,而这些通路与当前的查询无关。疯狂的是,它能以极高的效率做到这一点。搜索或引用数亿个节点(如果你愿意这么称呼的话),在每个生成的标记上,这简直不可思议。但它不需要这样做。如果你有一个明确的用例,我认为接下来会发生的是,我们将知识压缩到更小、更便宜的模型中,这些模型可以放在冰箱磁铁上。是的,我不知道我能想到的最小数字设备是什么。好吧,也许,我不确定它是不是数字化的。

就像,它会在早上欢迎你,和你说话。或者,它会戴在耳塞或可穿戴设备上,或者戴在我的耳环上,或者,在一个带小传感器的花盆里,或者……诸如此类的东西。我认为,环境感知革命即将到来,它已经被许诺了很久了。但这正是压缩轨迹。它会走向极端,你可以拥有非常实用的功能,当然冰箱磁铁不会了解很多量子计算知识,但它会知道早上欢迎你、告诉你天气、告诉你冰箱里可能有什么、提醒你日历安排所需的信息。我认为这可能只有几千万个参数。是的,我们还没有,人们还没有真正尝试这个。然而,对于任何一个,你知道的,两人团队来说,这完全是可行的。

霍夫曼:是的,完全正确,这也是其中一部分,这是一个创业活动,这是关键。因此,我将转向我们最后一个问题的稍长版本,那就是人们在接下来的两天里应该思考什么问题。我会给你一点时间思考一下,因为这个问题我突然抛出来。对我来说,我会从我刚才说的内容进行概括,那就是,作为技术人员,我们需要考虑哪些因素才能设计一个更人性化的未来?人们在思考“更人性化”时,经常会想到一些经典的东西,比如,几千年来人类一直是这样那样的,这很重要,但展望未来也很重要,因为随着我们技术的发展,我们的人性也在发展,我们通过这些技术来发展人性,我们通过马克杯、播客设备等等来发展人性,所有这些都是改变我们作为人类身份的一部分。我们将在未来几年做到这一点,所以记住,我们有情感和激情,是的,当然我们有同情心,但这如何通过我们与技术共舞的方式来表达?这就是我想提出的一个重要问题,即设计。现在,我已经给了你几秒钟的时间来思考这个问题了。

苏莱曼: 我想说,问问自己,你全力以赴了吗?因为这确实是一个转变的时刻,对吧?而且我真的认为,我们现在已经有了足够的证据,过去大约50年的重大技术转型,所有事物结构都被重塑了。我认为这是一个创办公司、扩展公司的时刻。这是一个真正转变职业生涯的时刻,即使你不是企业家,即使你是一个活动家或组织者,即使你是一个学者,这也是一个需要真正关注的时刻,而现在,我们确实有机会共同塑造和影响事物。没有什么事是预先注定的,塑造它确实在我们能力范围之内,为了人类的最大利益。我认为我们非常幸运能在这个时代活着。这感觉令人难以置信地充满力量,而且责任重大。

霍夫曼: 我很高兴能和Mustafa一起开始。让我们感谢他。

参考资料: https://www.youtube.com/watch?v=IZBT57oLKas,公开发表于2024-11-02

👇关注公众号后设🌟标,不错过第一手AI新鲜观点和动态

往期精选

  1. 黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
  2. 李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
  3. PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
  4. 谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
  5. 马斯克:AI将使商品和服务的成本趋近于零
  6. Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据


瓜哥AI新知
紧追AI业界一手观点、访谈、动态,点滴构建AI底层认知
 最新文章