观点|微软AI CEO苏莱曼:我们正处于AI技术过剩、技术突破多于实际应用,2025实现AI记忆

文摘   2024-11-18 07:15   浙江  

👇关注公众号后设🌟标,掌握第一手AI新动态

本文访谈内容整理自微软AI CEO Mustafa Suleyman接受Times Techies Youtube频道专访,公开发表于2024年11月15日。原始内容参考:https://www.youtube.com/watch?v=5yy6XvuO2aM

穆斯塔法·苏莱曼接受Times Techies专访

内容导读

苏莱曼主要观点如下:

  1. AI 技术的持续进步与突破:  AI 的快速发展并非偶然,而是十五年来持续改进的结果,核心在于不断增加数据、算力、训练规模,并坚持使用神经网络架构。这证明了用神经网络表示复杂想法并进行预测的有效性,也印证了DeepMind等公司长期以来的核心论点。
  2. 预测能力是智能的核心:  预测是智能的主要能力,也是人类区别于其他物种的关键。AI 的预测能力日益强大,使其成为预测各种复杂环境中事件的通用工具。
  3. AI 技术发展的重要拐点: AlphaGo、GPU 的应用以及“猫神经元”论文都代表着 AI 发展的重要里程碑,推动了技术的发展和普及。
  4. 规模效应与持续改进:  AI 的进步遵循“规模定律”,即通过增加算力和数据来提升预测精度。语音模型的进步是最近的显著成果。
  5. 技术溢出与应用爆炸: 目前 AI 技术的突破远超应用能力,各种新应用层出不穷,例如AI辅助创作、教育、医疗等。
  6. 记忆能力的重要性与未来展望:  当前AI的记忆能力有限,影响用户体验。拥有近乎无限记忆的AI将是革命性的进步,预计在2025年实现。成本会随着规模效应而下降。
  7. 多语言支持与数据需求变化:  未来 AI 将支持更多语言,包括小语种,数据需求也将减少,因为模型可以从核心语言中进行自举。
  8. 用户反馈与持续改进:  用户使用过程中的反馈(隐式或显式)将持续改进 AI 模型。
  9. Copilot 的应用场景与潜力:  Copilot 不仅仅是一个工具,更像是一个助手或伙伴,可以应用于工作(例如Microsoft 365 Copilot)、创作、学习、医疗等多个领域,改变人机交互方式。
  10. 人机交互方式的变革:  AI 伴侣将改变人机交互方式,如同触摸屏改变了我们与设备的互动方式一样。AI 将更具同理心和耐心。

穆斯塔法·苏莱曼简介

穆斯塔法·苏莱曼(Mustafa Suleyman)是一位英国企业家和人工智能领域的思想领袖。他曾是Inflection AI的联合创始人兼首席执行官,这家公司致力于构建人机交互的新方式。此前,他是DeepMind的联合创始人之一,该公司于2014年被谷歌收购。在DeepMind,苏莱曼领导了“应用AI”部门,专注于将人工智能技术应用于医疗保健、能源和其他领域。他主导了DeepMind与NHS的合作,以及开发了AlphaFold,这是一个可以预测蛋白质结构的革命性AI系统。2024年就任微软新成立的AI部门CEO。

除了技术成就,苏莱曼还积极参与人工智能伦理和政策的讨论。他强调负责任地开发和使用人工智能的重要性,并呼吁加强国际合作以应对人工智能带来的挑战。他合著了《超级智能:通往奇点的路径》,探讨了超级智能的潜在风险和机遇。

苏莱曼的职业生涯展现了他对人工智能的深刻理解和远见卓识。他不仅致力于推动人工智能技术的进步,也关注其对社会和人类的深远影响,是一位在人工智能领域举足轻重的人物。

演讲全文

穆斯塔法·苏莱曼: 我的意思是,人们常常认为这是突然出现的,但实际上,这是 15 年来持续改进的稳步发展,年复一年地专注于相同的几个目标:更多数据、更多计算能力、更大规模的训练运行,以及相同的核心架构。这种相同的理念,即可以用神经网络来表示复杂的想法,并且它们擅长预测,已被证明是正确的。这已经被证实了。这是 DeepMind 的核心论点,许多其他公司也长期以来一直在追求它。我认为疯狂的是,它现在真的有效了。这确实是一种通用的、非常有效的方法,可以预测几乎任何复杂环境中的任何事物。预测是智力的主要技能。这是使我们作为物种与众不同的主要因素。我们非常擅长猜测可能发生的事情,然后利用这种猜测进行创造性地干预,无论我们是在制造实物、编写软件、相互交谈还是进行体育比赛。这是一种非常基本的技能。

所以是的,现在使用每个人都可以访问的这个新工具感觉非常有创造力和乐趣。当你回顾过去时,很明显哪些是拐点。第一个,我的意思是,这取决于你想追溯到多远。AlphaGo 显然是一个拐点。尽管那已经是将近十年前的事了,但它确实是 GPU 的首次大规模应用。我们之前没有以这种方式完全连接单个 GPU,而且这是真正给 Jensen (黄仁勋)灵感,让他相信自己走在正确道路上的事情之一。Jensen 拥有令人难以置信的远见卓识,自从他在 2012 年看到深度学习中的“猫神经元”论文以来,他就一直在押注 GPU。这是 YouTube 上有人首次使用神经网络来识别视频中的猫。我的同事 Andrew Ng,他是 Coursera 的创始人,也是一位优秀的机器学习教师,也参与其中。这表明你需要这些非常大的并行计算机,它们能够每秒并行运行数千次,或者现在是数万亿次运算,以搜索对应于猫与狗与斑马的像素的正确组合。

在此过程中,一系列突破让每个人都认识到,相同核心方法正在发挥作用,并且正在扩展。它通常被称为缩放定律(Scaling Law)——如何随着更多数据而扩展越来越多的计算能力以改进我们的预测。最近,让我震惊的是语音模型的质量。它们可以实时生成新的音频,让你感觉像是在进行对话。这简直令人难以置信。有时候,你会看到一项技术在很长一段时间内发展,即使你非常接近它,当它如此无缝地工作并成为第二天性时,你仍然会感到惊讶。然后你认为理所当然,每个人都认为它不再有趣了。你可以在手机上流式传输视频或录制音频,这对我来说真是太神奇了。

我们在科学史上处于一个令人难以置信的阶段,那就是我们拥有的突破性进展多于我们所知如何应用的。我们有技术过剩。在人类历史上,我们从未有过这种情况,同样的突破会月复一月、周复一周地产生越来越多的应用、产品和用例。一个很好的例子是生成两个人交谈的脚本以制作播客。无需训练一个对话式语音模型,你只需添加两个,然后它们轮流交谈。这真是太神奇了。这表明我们只是在找出这项技术可以产生深远而有影响力的多种方式。

这是一个非常有创造力的时代。将会有如此多的用例;它将成为一位了不起的老师。它将为你提供个性化的课程,帮助你学习任何你感兴趣的话题,无论你年幼或年长,中年或非中年。未来,它将成为一位了不起的医生,以近乎零边际成本为你提供医疗建议。它将为你提供医疗指导和健康指导,帮助你坚持你的计划,如果你的医生给了你减肥计划,或者如果你需要心理健康支持。它也可能会鼓励你去健身房。此外,如果你想写一篇论文、制作播客、创办新业务或获得法律建议,它也会为你提供创造性的建议。用例是无限的。

这就是为什么它被视为副驾驶,因为我们将其视为一种辅助工具,一种顾问,一些能够让你成为最佳自己的东西。记忆是关键部分,因为今天,每次你与你的 AI 交互时,你都会启动一个新的会话。它对上次你谈论的内容有一些记忆,但因为它不记得五次或十次交互之前的会话,所以对人们来说是一种相当令人沮丧的体验。你不会深入参与对话,因为你知道它会忘记。所以你过一段时间就会放弃,它会变成一种肤浅的体验。但是,我们一直在开发的原型提供了几乎无限的内存,这意味着它不会忘记。这种能力具有真正的变革意义。

当我们谈到拐点时,记忆显然是一个,因为它意味着值得你投入时间进行对话。你分享的一切都将在未来以有用的方式被回忆起来。你将得到支持和建议;它将帮助你计划你的一天并组织你的生活方式。我预计将在 2025 年上线的这种能力将具有变革意义。最初它可能很昂贵,但正如我们在几乎所有技术中看到的那样——从电视到相机——一旦它有用,并且一些人能够负担得起并提供反馈,每个人都会想要它。

当有需求时,规模经济将降低成本。今天,我们在 Azure 上提供的最好的模型比两年前便宜了 99%。Azure 是访问这些模型的最佳平台。我预计在未来几年,成本曲线将下降得更快。这始终是一个奇怪的反馈循环;随着计算或算法成本的降低,我们可以使用更多计算或算法,从而导致创建更复杂、更有趣、更强大和更具创造性的体验。我们已经在这个循环中近一个世纪了,计算成本下降,我们使用更多计算。因此,我们处于一个令人惊叹的反馈循环中,更多的计算始终会带来更多价值,使事情更准确,更容易控制。

目前,它在英语和一些欧洲语言(如西班牙语)中最可靠。但是,随着时间的推移,印度的 120 种语言或 5500 种方言的长尾语言没有理由不可用。我认为在未来三到五年内,这种情况就会发生。相同的方法已经在所有这些语言中被证明是有效的,所以这是一个时间和数字化的问题。你将需要越来越少的数据;一旦建立了主要模型,你就无需为长尾语言提供等量的数据,因为它可以从核心语言中引导。

我不认为数据会成为很大的限制。此外,即使用户没有明确提供反馈,越来越多的人使用它——他们也在隐式地提供反馈。会话结束时,这可能是一个消极或积极的信号。如果用户说某些东西说不通,我们就能从中学习。这就是为什么使用它的人越多,它就越好。Copilot在印度发展迅速;对我们来说,这是一个重要的市场,我们对此感到非常兴奋。这部分原因在于那里有大量的优秀知识工作者和开发者,以及人们的双语或多语能力。长期以来,他们一直渴望采用新技术,并且非常开放和富有创造力。这就是为什么它是我们增长最快的市场之一。我一些最强的团队都在这个城市。

海德拉巴还拥有大型广告工程团队和重要的研究团队。我们在提高必应搜索结果质量方面取得的一些最重大进展都来自这里。这就是为什么我抽出时间来这里访问,因为它对我们来说是一个关键的开发中心。把它想象成一个你可以随时随地用你的风格和节奏向其提问的对话伙伴。它不会评判,不会沮丧,不会生气,不会厌倦,并且总是可以根据你当时的感受,将任何问题或难题重新表述到你的水平。

当然,我们在Copilot for Work方面付出了巨大的努力。Microsoft365 Copilot可以帮助你改写电子邮件、整理日历以及在Microsoft Word中撰写创意文档或使用Excel。随着时间的推移,它将作为故障排除工具。如果你在Windows机器上遇到设置问题——也许是想更改蓝牙或修复错误——它将实时为你提供帮助,指出需要注意的地方或建议操作。这是一个关键的转变时刻,因为今天你必须使用文字或按钮与你的电脑进行明确的交流。明天,你只需更随意地提及事情,例如询问某物的颜色或它对某个特定项目的看法。

它将就像在你身边有一个同伴,将沟通模式提升到一个新的水平。每一波新的技术浪潮都会开启一种新的沟通模式。无线电实现了音频的一对多广播。电视随着时间的推移引入了许多频道。互联网创造了全对全的通信。每种技术模式都允许你以以前不可能的方式思考、行动和交谈,从而展现你不同的方面。你将表达出你甚至没有意识到自己拥有的想法,因为你掌握了新的模式。

拥有一个能够实时看到和听到你所看到内容的始终存在的伙伴,感觉将会大相径庭。就像触摸屏改变了我们与设备互动的方式一样,拥有一个对话式AI伙伴将改变我们处理数字世界的方式。这是一个重大的变化,因为用户会学习潜意识中新的导航环境的方式。我认为这将是一个相当大的转变:拥有一个可以随时提问、探索创意或满足好奇心的伙伴。

对话式AI将更加具有同理心,甚至超过人类。它在会话中流畅自然,能够处理中断并保持耐心。它可以提供积极的倾听,让人感觉像是一次真正的对话。三年前,它没有任何推理能力;你只能问一个问题并得到一个简单的答案。今天,我们拥有在内部评估多个答案后才能产生最终响应的模型。这允许模型根据质量和相关性来反思和迭代其答案,模拟推理过程。

未来重要的是保持开放心态,拥抱可能性,同时保持多学科性。未来的高影响力人士需要掌握多种技术和社会语言,并在学科交叉点上运作。专业化仍然至关重要,但你需要将其与更广泛的知识相结合。我们今天看到许多年轻的创作者——网红和社交媒体名人——他们擅长编码并可以使用新工具。他们富有创造力,能够创作音乐或短片,这表明多学科技能集的趋势日益增强。

每个人都在成为多学科人才,因为他们实时向他人学习,为我们物种的集体智慧做出贡献。这真是非凡的,它得益于全对全的连接以及获得增强我们能力的工具的门槛更低。

参考资料: https://www.youtube.com/watch?v=5yy6XvuO2aM,公开发表于2024-11-15

关注公众号后设🌟标,掌握第一手AI新动态

往期精选

  1. 黄仁勋专访:OpenAI在大模型混战中达到“逃逸速度”
  2. 李飞飞与Justin深度解读空间智能:数字世界需要三维表征,才能与现实世界融合
  3. PayPal创始人彼得·蒂尔:人类科技停滞源于原子方面的进展远慢于比特
  4. 谷歌联合创始人布林:巨头们打造的“上帝模型”几乎可以理解一切
  5. 马斯克:AI将使商品和服务的成本趋近于零
  6. Karpathy最新专访:人形机器人、特斯拉、数据墙与合成数据


瓜哥AI新知
紧追AI业界一手观点、访谈、动态,点滴构建AI底层认知
 最新文章