Kevin Weil 深入讲解了 o1 模型在复杂问题推理中的应用,特别是在面对多维度的编程问题时表现出色。同时,他强调了“防御深度”概念,认为模型的安全性不仅体现在模型本身的设计上,也与具体的应用场景密切相关。
Kevin 强调了迭代部署的价值,即通过逐步扩大模型的使用范围,让其在真实世界中接受挑战和反馈,从而提升模型的安全性与实用性。这种开放、透明的方式体现在 OpenAI 对外发布的模型规范上,并通过全球社区的反馈不断优化。
他相信,随着模型的智能水平不断提升,开发者有巨大的机会利用 AI 来解决特定行业的挑战,特别是在专有数据和特定领域知识的应用上。
以下为这次对话的全部内容,enjoy~
Robert Nishihara:
你之前领导过许多公司的产品管理,那么在 OpenAI 的产品管理有什么不同吗?
Kevin Weil:
你知道,从某种程度上来说,产品管理在不同公司确实有所不同。很多时候这取决于创始人和公司的文化。
Twitter 的共识文化非常强,可能因此我们本可以行动得更快。在 Instagram,有 Kevin Systrom,我认为他是全球最顶尖的产品思考者之一。
而在 OpenAI,显然,Sam 是一位有远见的领导者,他激励我们放眼大局,但同时也给我们足够的空间去探索和确定我们应该构建哪些产品。
但实际上,最大的不同在于,在我之前工作的所有地方,你大致上有一个固定的技术基础,然后试图用它来构建最好的产品,理解用户及其问题。
在 OpenAI 以及整个 AI 生态系统中,技术基础是不固定的。每隔一两个月,计算机可以做一些从未能做到的事情,而且你无法完全预测这些技术会何时出现。
有时你可以预感到下一代模型可能会有某些新能力,它们就像是从迷雾中浮现出来一样,但通常直到模型真正成熟之前,你并不知道它到底能做到多少。是 80%?还是 95%?又或者是 99%?
根据不同的正确率,构建产品的方式会完全不同。因此我们大多是在摸索中前进,技术变化得如此之快,这虽然是个巨大的挑战,但也是非常有趣的挑战。
Robert Nishihara:
不仅仅是对你们来说,对你们的客户也是如此,对吧?那些在你们平台上开发的开发者们。
Kevin Weil:
是的,我最近和我们的一位企业客户开会时,他们问我能否提前 60 天通知他们即将发布的所有功能更新,因为这样会对他们帮助很大。我当时就说,我也希望能提前 60 天知道这些事情。
Robert Nishihara:
这的确是个好问题。你刚提到了企业客户,OpenAI 不仅为消费者提供 ChatGPT 服务,也为开发者提供 API 服务。既然这是一个开发者的场合,我们来谈谈你们面向开发者的路线图策略吧。
Kevin Weil:
是的,昨天我们刚举行了开发者日,非常激动,有很多重要发布。总体而言,我们的理念是更多的 AI 对世界更好。所以我们希望把 AI 交到开发者手中,让他们用它做出惊人的事情。
因此,我们会尽可能将我们最前沿的模型放入 API 中,带来新的能力,比如昨天我们刚发布了实时语音 API。
Robert Nishihara:
恭喜你们!
Kevin Weil:
谢谢!我们对此非常兴奋。昨天我们还发布了模型蒸馏功能,可以将大型模型压缩为擅长特定任务的小型模型,从而以更低的成本运行它们。
总体来说,我们希望带来更多的智能,让它更便宜、更快、更安全,并交给 300 多万使用我们平台的开发者。你们会帮助推动 AI 的普及,而这对全世界的人来说都是一件根本性的好事。
Robert Nishihara:
这些发布中,哪一个是你最兴奋的?
Kevin Weil:
我认为蒸馏功能会是一个至关重要的进步,因为它将开启更多的 AI 应用。这个领域的发展趋势非常疯狂。
如果你回头看看最初的 API 发布,比如 GPT-3,再对比今天的 GPT-4,最强的模型之一现在的成本仅为 GPT-3 发布时的 1%。它变得更智能、更安全,而且在不到两年的时间里成本下降了 99%。
我不知道还有哪些行业能够实现这样的变化,但这很棒,因为 AI 变得越便宜,就会有更多的应用场景,我们就能一起解决更多的问题。
因此我们只是希望把 AI 交到更多人手中。我认为蒸馏功能是一个很大的进步,先进的语音模式也非常令人兴奋。我可以谈论它的应用场景一整天。
Robert Nishihara:
我想补充你的观点。我们在 Ray 中也看到,每当你能让某个东西速度快一个数量级或者成本低一个数量级时,你就会解锁更多的应用场景。
Kevin Weil:
我几周前在首尔和东京,与那里的客户开了很多会议。我们有翻译人员帮助会议交流,但在会议后的闲聊中,有些人我不懂韩语或日语,而他们也不会说英语,我们之间没有共同语言。
我就拿出 ChatGPT,用我们的新语音模式对它说:“我希望你当我的翻译。当你听到我说英语时,把它翻译成韩语,当你听到韩语时,把它翻译成英语。”
这个功能如果你有 Plus 订阅,现在就可以使用。它成功地帮我完成了交流,我和对方不仅能说上两句话,甚至进行了完整的业务对话。这真的令人震撼。
你可以想象,这不仅在商业中有用,还可以应用于旅行和旅游业。如果人们不再害怕去那些他们完全不懂语言的地方,会发生什么?就像一个“通用翻译器”的概念。
Robert Nishihara:
你已经参与了这个领域很长时间了。它一直在发展。
Kevin Weil:
对,就像《星际迷航》一样,曾经这类技术只是科幻,现在你随身携带的设备就能实现它。
Robert Nishihara:
我记得好像在 2015 年或者稍早的时候看过一些相关的备忘录。这确实令人难以置信。我们来聊聊竞争格局吧。开源模型对 OpenAI 的业务意味着什么?
Kevin Weil:
我很高兴有开源模型存在。我认为这并不是非此即彼的问题。从哲学使命的角度来说,这是关于让更多人接触 AI,我认为这很好。
我也与 Mark 合作了很多年,对他非常尊重,他的策略非常聪明,特别是对 Meta 而言。我们也做了一些开源项目,比如我们的 Whisper 模型,它可以做转录,而且是完全开源的。
所以,我认为让更多的人接触到 AI 是很好的,最终人们会寻找最具能力、价格最优、同时也最安全的模型,更多的选择是一件好事。
Robert Nishihara:
如果你考虑 OpenAI 最好的模型和最好的开源模型之间的差距,你预计这个差距会扩大还是缩小?
Kevin Weil:
你知道,我们当然会尽最大努力让这个差距扩大。
Robert Nishihara:
你怎么看待与云服务提供商的竞争?他们拥有构建优秀模型所需的资源和数据。
Kevin Weil:
是的,它们都很不一样。在某种程度上,竞争是不可避免的,因为这可能是世界上增长最快的市场之一。你得分别看待不同的云服务提供商。
Microsoft 是我们的深度合作伙伴,当他们做模型相关的事情时,通常是通过我们的模型。Google 更像是一个直接的竞争对手,而 Amazon 则像是走不同路线,他们通过 Bedrock 平台与 Anthropic 合作开发模型。
但更多的竞争和选择会让我们所有人变得更好。因为这个领域有大量的竞争,你们将获得更好的 AI 模型,这对世界来说是件好事。
而我们要做的是一些那些大云服务商无法做到的事情,比如更快地行动,承担更多的风险,特别是在产品方面,以及对新模型能力的深入探索。这是我们要做的。
Robert Nishihara:
我对 o1 和推理模型的发布印象深刻。你能分享一下将这个模型变成产品时遇到的挑战吗?
Kevin Weil:
谁使用过 o1?只是好奇问一下。哇,太棒了,几乎每个人都用过了。关于 o1 有很多有趣的挑战。
其中之一是,o1 对于那些还没玩过它的人来说,传统的模型训练模式是你从 OpenAI 的 GPT-1、GPT-2、GPT-3、GPT-4 甚至未来的 GPT-5,一步步训练,将更多的计算资源用于更大的预训练数据集,进行大规模的预训练。
这种模型通常很广泛,积累了大量的事实和知识,但依旧是类似系统一的思维方式,你问一个问题,它给你答案。
o1 的不同之处在于,它实际上已经学会了推理。如果你允许我把它拟人化一下,当遇到一个问题时,它不会直接给出答案,而是思考。
它会生成假设,然后测试这些假设,确认或否定它们,再根据结果生成新的假设。这就像你遇到一个难题时,可能会在脑海中构建不同的假设,最终得出结论。而 o1 在后台做的就是类似的事情。
所以它不仅仅是依赖已学到的知识,而是能够通过推理进入新的领域。这是一种根本不同的方式,不再仅仅是依赖更大的预训练,而是通过更多的推理能力在问题解决时进行运算。这是扩展模型的一种根本不同的方式。
它在科学、推理和数学等纯推理的领域表现特别好。我们最初并不确定它在这些领域外的普遍适用性,比如它在编程或创意写作中的表现。它是一个针对特定领域的有用工具,还是能够在更广泛的场景下展现价值?
此外,它需要时间来思考。因此,如何正确地呈现它的思维过程也是个问题。最终我们选择了让它在解决问题的过程中展示它的思维方式,并且给出总结性的答案。这个过程让用户能够看到它是如何得出结论的。
在开发过程中遇到了许多新问题和挑战。好消息是,市场反馈非常好。我们也把它应用到了 API 中,这让我们感到非常兴奋,因为我们知道开发者将面对一些最具挑战性的应用场景。而且我们已经看到了 o1 能够完成一些令人鼓舞的事情。
Robert Nishihara:
是的,其实就你刚才提到的关于它的广泛适用性,我觉得像治愈癌症这样一些最困难的科学研究任务,可能需要具备非常强的推理能力的模型。
而在光谱的另一端,像总结新闻文章这样的任务,可能不需要那么多的推理能力。如果我们展望未来,你觉得大多数任务会落在哪个光谱位置上?
Kevin Weil:
是的,这确实很有趣。如果你考虑到今天一些最具经济价值的任务,o1 模型目前还是有上下文窗口的限制。但随着时间的推移,这种窗口会延长,它将能够进行更多的思考。现在它可以思考 60 到 90 秒。
有时我觉得很有趣,我问它一个难题,它思考五秒钟就给出答案,我想,哦,看来我没能给它足够的挑战。
但你可以想象,未来你可能会问它如何治愈某种癌症,然后让它思考五小时、五天甚至五个月。有些问题需要大量的时间去思考。
而像“请帮我总结这封邮件”这样的问题,则需要较少的思考。我认为即将发生的变化是,我们习惯于模型的聪明程度。我们很快适应了它的进步。
我之前读到一篇文章,有人第一次使用 Waymo ,最初 10 秒钟内,他们还在紧张,担心车辆能否避开自行车手。
10 分钟后,他们觉得这太酷了,20 分钟后,他们已经无聊地在手机上查看邮件了。这说明我们多快地适应了世界上惊人的新技术。
Robert Nishihara:
事实上,对于那些从外地来的人,在离开旧金山之前,你应该体验一下自动驾驶汽车。
Kevin Weil:
你一定要试试,这太神奇了。不过我们仍然习惯于逐一给 AI 下达任务指令,比如“请帮我总结这封邮件”,然后再做其他处理。
我认为未来我们将从 AI 回答问题的世界,转向 AI 为我们在现实世界中完成任务的世界。这些任务不仅仅是 5 分钟的工作,可能是 5 小时甚至 5 天的任务。
甚至一些日常事务、商业流程效率等都需要 AI 进行更多推理,制定复杂的计划并执行,同时定期与你沟通。因此我认为 o1 模型及其推理能力将在未来发挥更大的作用。
Robert Nishihara:
这是否意味着每个基于这个模型开发产品的开发者都需要重新思考他们产品的用户体验,以适应这些增强的能力和可能出现的延迟?
Kevin Weil:
我认为这几乎是一种更根本的哲学转变。我们习惯了系统一类型的 AI 思维,即问一个问题然后得到答案。
而未来你将能够要求 AI 为你做事,它会变得更加自主。这是一种完全不同的产品构建方式。因此,是的,UI 确实会改变,因为任务将更具异步性。
但更重要的是,以前无法实现的产品现在变得可能了。如果我是开发者,或者正在创办公司,我会考虑那些 AI 今天刚刚能够处理的任务,并为这些用例开发产品。因为三到六个月后,AI 的能力将提升,你将领先于所有竞争对手。
Robert Nishihara:
你对在场的开发者有任何建议吗?什么时候应该使用 o1 模型而不是其他模型?比如,编程是适合使用 o1 模型的任务吗?
Kevin Weil:
是的,实际上 o1 是一个非常出色的程序员,尤其是在面对复杂问题时。如果你只是想让它写一个 Python 函数来排序列表,任何模型都可以做到。
但当你有一些需要经过推理并做出许多权衡的复杂编程问题时,o1 模型表现得非常好。我认为在这个快速发展的世界里,关键是思考 AI 目前还无法完全做到的事情。
当你围绕这些问题构建产品时,你可能会发现它今天还无法完美运作,但三个月后它会运作得非常好,而这会是非常令人兴奋的事情。
Sam 曾多次提到,如果你在构建某样东西时,担心 OpenAI 或其他公司的下一个模型发布会让你的产品失效,那么你可能没有在构建正确的东西。
如果你正在构建的东西,期待下一个模型发布会让它变得好十倍,那你就处于一个非常好的位置,因为你正在推动智能的前沿,进入以前不可能的产品领域。
Robert Nishihara:
这是个很棒的判断标准。那么其他公司什么时候会赶上 o1 模型的步伐?
Kevin Weil:
明天?明年?12 个月后?谁知道呢?这也是这个行业有趣的地方,仍然有很多东西等待被发现。各大实验室都在做非常出色的基础研究,有时会专注于不同的领域。
有些实验室可能在某些领域领先,另一些则在其他领域领先。这也是一个让人兴奋的地方,竞争激烈,每个人都要尽力而为,并快速行动。
我们知道其他实验室最终会掌握我们构建 o1 的技术,一些技术会逐渐扩散开来。我们的任务是在他们赶上之前,已经领先三步。
我们确实感觉 o1 代表了一个新的维度,这是一种不同的扩展模式,不再依赖大规模预训练,而是在推理时间上进行扩展。
我们认为我们目前正处于类似 GPT-2 的阶段,能看到很多可以快速改进的低垂果实。因此,当其他人赶上时,我们将努力再领先三步。
Robert Nishihara:
引入额外推理时间计算的复杂性,这对于这个在场的观众特别重要,尤其是如果你们考虑为此提供服务的系统时。
Kevin Weil:
是的,绝对会更复杂。
Robert Nishihara:
现在我们来谈谈消费级产品。你参与了构建一些全球最成功的消费级产品,比如 Twitter、Instagram 等。最终,社交媒体通过广告实现了盈利。那么,面向消费者的 AI 最终如何实现盈利呢?是通过每月 20 美元的订阅费,还是其他方式?
Kevin Weil:
这是个非常有趣的问题。我先说,我们现在没有所有的答案。目前我们没有计划通过广告盈利,特别是随着模型变得越来越智能。
你可以想象,有律师事务所的高级律师告诉我们,他们让 o1 为他们写了一份法律简报,本来需要一个每小时 1,000 美元的助理花 6 小时完成的工作,而它用了 5 分钟完成。
这意味着你突然可以用 3 美元的 API 费用完成 8,000 美元的工作。所以我们还不知道所有的答案。
此外,我们的使命之一是让 AI 普及到每个人。全球有很多地方我们提供免费的产品,而且我们将始终这样做。
我们深信这一点,并且真的在努力让 AI 越来越便宜,以便我们可以在免费产品中提供更多功能。但也有很多人会选择每月 20 美元的订阅服务。世界上也有很多人负担不起 20 美元的订阅费。
因此,如何在一方面分享我们创造的价值,比如将一项以前需要 8,000 美元完成的工作转化为几分钟内用少量费用完成,同时也能将 AI 带给那些可能负担不起的人,这仍然是一个开放的问题。
Robert Nishihara:
你觉得未来会如何发展?这些技术会最终只值 3 美元的 API 代币,还是你认为可以收取接近 8,000 美元的费用?
Kevin Weil:
我不太确定。我认为世界会发生变化。如果能够用 3 美元做这些事情,你也无法长期收取 5,000 美元的费用,因为很快就会有人来收取更低的费用。
最终,这些价格会接近实际生产成本。所以这是一个完全不同的世界。我们所有人在座的各位都在一起创造这个世界,我们都有机会塑造它。
Robert Nishihara:
在规划 ChatGPT 的路线图时,你会不会使用某些产品类比来帮助思考,比如将它比作搜索引擎或类似于消息应用?
Kevin Weil:
有趣的是,实际上我个人找到的最好类比是把这些系统想象成另一个人。我举个例子,可能以 o1 模型为例,它会思考一段时间,对吧?
你可能有 30 到 60 秒的时间,当有人问了一个问题,它正在思考答案。那么在 UI 中该怎么做呢?如果我问你一个难题,你不知道答案,大多数人不会开始胡言乱语或者不停地说出自己的想法。
大多数人也不会直接沉默,转头发呆 60 秒。通常你会给出一些阶段性的更新,比如“我在思考,可能是这样,等一下。”你会进行类似的逐步反馈。所以我们最终决定在产品中也是这样做的。
还有,比如在语音模式中,当你和某人交谈时,实际的感觉与书写时是完全不同的。我不知道你是否曾经为自己准备过演讲稿,然后把它大声读出来,听起来非常生硬。
至少对我来说是这样的。所以为了让它听起来自然,我必须改变写作方式。在开发高级语音模式时,我们遇到了类似的挑战。
最初,它会在回答完一个问题后,继续提出另一个问题,显得有些“粘人”,像是想延续对话。因此,通过模拟人类的行为,我们找到了模型应该如何在这些场景下表现的指引。
Robert Nishihara:
这确实是一个非常有趣的见解。书面英语和口语英语是两种不同的语言。
Kevin Weil:
是的,至少对我来说,如果你把我们的对话直接数字化并读出来,我可能听起来完全不自然。
Robert Nishihara:
因此用户体验(UX)在这里非常重要。你提到了许多 UX 突破,聊天界面是一个巨大的突破,语音模式是另一个。还有哪些你们还没有推出但认为非常重要的 UX 突破吗?
Kevin Weil:
我认为非常明确的一点是,模型的响应需要变得更丰富。现在大多数是文本往返交互。我们认为,你应该能够以与人与人互动的所有方式来与模型互动。
比如我今天早上和你进行了很多打字交互,这也是大多数人今天与 ChatGPT 互动的方式。
但我也会说话,我也会看到东西。我们希望你能与模型对话,它也能与你对话。我们希望你能举起手机,向模型展示你看到的东西,并就现实生活中的情况向它提问。
我们已经讨论了 Sora,它能够即时生成视频。所以所有这些互动方式都需要像人与人之间的互动一样自然和完全整合。
Kevin Weil:
还有就是,我觉得聊天界面可能依然会存在,尽管未来我们会看到更多自主行为和长期任务。因为就像人类之间的协作,聊天和对话实际上是我们今天如何合作的方式之一。如
果你把自己看作是与越来越智能的 AI 合作,聊天作为一种对话模型是可以扩展的。因此,未来如何演变还是很有趣的事情之一。
Robert Nishihara:
换个话题,人们对模型是否左倾、右倾或过于政治正确提出了担忧。你认为这些价值观是由研究团队在训练或后期处理过程中决定的吗?还是在产品层面进行的?
Kevin Weil:
这是非常有趣的问题。其实如果我们询问在场的所有人,可能每个人的看法都不同。有些问题,比如政治立场,显然模型不应该采取立场。
但对于像“地球是平的吗?”这样有 99% 的共识的问题,模型是否应该采取立场?如果是 80 对 20 的问题呢?
这些都是难题。所以我们发布了模型规格,并给出了大量示例,说明这是我们指导模型遵循的规范,并且公开征求意见。
如果模型的行为与你的期望不符,可能有两种原因:1,模型没有遵循规格,这是个错误,我们应该修正。2,你可能不同意这个规格。在后一种情况下,我们可以进行讨论,但至少我们有一个公开的规格,可以作为社会辩论的基础。
我们认为这是一种更好的方式,而不是简单地说“我不喜欢这个回答,OpenAI 快去修复”。这是我们采取的办法。
Robert Nishihara:
这对那些基于模型构建产品的人来说是一个很好的方法。很多人在这里不仅是在构建模型,而是围绕你的模型构建系统。
当我们考虑安全问题时,安全当然可以有很多不同的含义。如果我要思考安全问题,正确的分析单位是什么?是模型本身,还是模型周围的系统和产品?
Kevin Weil:
我们的观点是两者都是重要的,这是基于一种“深度防御”的方法。有些事情我们希望模型永远不要做,永远不要回答。而有些事情会根据应用的具体场景发生变化。
比如在 ChatGPT 中,我们会有一套特定的观点。而在 API 场景下,你作为用户可能有更多的自由,可以采取不同的观点,比如你是一名核聚变科学家,有些问题我们不希望 ChatGPT 回答,但可能在你的工作中它是合理的。
因此,有些地方我们会坚守立场,认为模型不应该做某些事情,因为它们是非法的,或者从根本上讲,不是我们希望自己构建的产品能做的事情。而在其他地方,它将更多地依赖于上下文,我们也希望允许这种灵活性。
Robert Nishihara:
这非常有趣。我很好奇,当你们撰写这个规范时,参与者中哪些技能最重要,才能做好这项工作?
Kevin Weil:
实际上,我们雇用了很多作家,帮助模型更好地表达自己,帮助它在情感上做得更好。还有一点,在 Twitter 早期的时候(像是 100 年前),EV 说过一句话,一直影响着我,这个理念也贯穿在 OpenAI。
他说,无论你有多少聪明人在公司里,墙外总有更多的聪明人。这句话在任何社会变革中都是真理,在 OpenAI 尤其相关。
我们相信迭代部署的理念。对于新技术和它带来的各种社会问题,从安全到更日常的事务,我们的信念是,通过逐步将模型暴露给更广泛的群体,实际上是让它们变得更安全的方式,也是推动世界逐步积极变化的方式。
这就是我们在这里采取的方法。这就是为什么我们的模型规范是公开的,它在那里,我们征求全世界的反馈,并根据这些反馈不断改进,而不仅仅是依赖内部团队的反馈。
Robert Nishihara:
这在 OpenAI 的背景下非常合理。我们在 Ray 的开源社区也从许多不同公司的贡献中受益良多。
Kevin Weil:
是的,完全同意。
Robert Nishihara:
在结束之前,你能分享一下你对未来的展望,以及你最期待的是什么吗?
Kevin Weil:
我觉得未来会很有趣。我举了 ChatGPT 作为我个人翻译工具的例子,这个体验让我大开眼界。我也对每个孩子都能有个性化导师这样的事情感到兴奋。
我有点惊讶这件事今天还没有实现。Khan Academy 在这方面做了一些有趣的事情,但似乎还没有真正普及。我猜今天大多数孩子还没有在使用 AI 个性化辅导,更不用说那些对 AI 不太敏感的全球其他地方了。但这几乎是不可避免的。个性化辅导的结果与传统学校教育相比,效果差距是巨大的。
Robert Nishihara:
这确实很有趣。我可以问你一个问题吗?在个性化教育这个领域,你觉得有多少空间可以在 OpenAI 的模型基础上创造价值?还是说下一个模型的出现会让之前的工作变得过时?
Kevin Weil:
哦,我觉得有巨大的空间可以发挥。我认为我们已经达到了一个临界点,或者说我们已经不再是“智能受限”,而是“评估受限”。
模型本身已经具备处理各种事情的智能能力,现在更多的挑战是如何将它应用到具体的用例中。你可能有一些私人数据,这些数据是经过多年的业务积累而得的,能让模型在特定任务上表现出色。
我们不可能去做所有这些事情,这也是为什么我们与 Khan Academy 合作,为什么我们建立 API。我们希望像你们这样的开发者能够构建出许多惊人的产品,因为我们相信,AI 越早走向世界,世界就会越早变得更美好。
所以我对此非常兴奋,而且模型的进步速度非常快,这意味着我们面前有巨大的机会。
✦ 出海活动 ✦