Sam Altman 也不得不服谷歌的这款 AI 应用？OpenAI CEO 对话 CPO，揭秘产品开发背后的故事

文摘 2024-10-08 16:04 北京

Sam Altman：现在的 O1 还在“GPT-2 时刻”。

作者 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

最近，谷歌的 NotebookLM 是彻底火了。

一开始听到这个应用的名字，还是在《谷歌 AI 产品经理：“软件工程师现在能够处理比过去复杂十倍的问题，Gemini 已成为性价比最高的 AI 开发首选平台”》的这篇采访里，听谷歌自家的产品经理 Logan 自吹自擂。

后来，AI 领域大神 Andrej Karpathy 也发话了：“谷歌的 NotebookLM 的播客生成功能，可能会成为 AIGC 领域的下一个 ChatGPT 时刻。”

结果一发不可收拾，NotebookLM 的热度逐渐高涨，推特（X）上的很多开发者博主也开始分享这款应用，总结了以下几大特点：

自动生成播客式对话：无论上传任何内容，都能够创建一段双人播客式的对话。
深度分析与个性化响应：由谷歌的 Gemini 1.5 Pro 模型驱动，能够深度分析本地文档，创建一个基于个人笔记和文档的定制化 AI 聊天机器人。
多格式文件支持：支持上传包括 PDF、Google Docs、Slides、TXT、Markdown 等多种文件格式。还能通过 URL 直接抓取网页内容，也可以粘贴文本到源页面。

再结合最近 OpenAI Sora 联合负责人 Tim Brooks 离职跳槽谷歌的新闻，实在不能不为 OpenAI 首席执行官 Sam Altman 捏把汗。

事实上，在 OpenAI 这个月的开发者日（Dev Day）上，Altman 还真就一改平时对谷歌“咄咄逼人”的态度，盛赞了 NotebookLM 是他心中最惊艳的 AI 应用实例。

这场开发者日的对话由 OpenAI 现任的首席产品官 Kevin Weil 主持，用他自己的一句玩笑话来说，这就是“对老板问一些让自己工作不保的问题”，整场内容涉及了 OpenAI 对 AGI 的具体定义、OpenAI 内部的研发文化、OpenAI 内部对提前新产品发布的权衡（据传，这也是几位高管离职的核心原因）等等。

全程视频（含中英双语字幕）：

以下为对话全文，经过 CSDN 精编处理。

还有很多类似 O1 的研究突破即将到来

Kevin Weil：大家好，最近怎么样？很高兴见到大家，感谢各位的到来。我想大家都互相认识。对于还不认识我的人，我是 OpenAI 的首席产品官 Kevin Weil。我很荣幸能把我们研究团队的杰出成果转化为你们每天使用的产品和你们构建的基础 API。

先来个现场互动。在数到三的时候，我希望你们说出今天看到的所有发布中最想集成的第一项是什么？这是你们最期待构建的部分。准备好了吗？一，二，三——

观众：—— 实时 API（Real-time API）！[异口同声]

Kevin Weil：我个人则是对接下来的模型蒸馏（Model Distillation）产品非常兴奋，我认为这将会非常有趣。同时我也很期待看到大家利用实时 API 和视觉微调以及高级语音模式能创造出什么。

好的，现在我们的 CEO、我的老板 Sam 就坐在这里，看看我能否向他提出一个影响自己饭碗的问题。[笑声]

Sam，我们从一个简单的问题开始。我们离 AGI 还有多远？[笑声]

Sam Altman：每次我们完成一个系统时，我们都会讨论它在哪些方面还不是 AGI。在以前，这么做很容易。比如，你可以做一个能完美处理魔方的小型机械手或是一款 Dota 游戏的机器人。你会说，哦，它能做一些事情，但显然不是 AGI。但现在显然更难判断了，AGI 这个词已经被过度使用了。

所以我们不再泛泛地谈论 AGI，而是创建了一个分级系统。我们用一级代表聊天机器人，二级代表推理者，三级代表智能体，四级代表创新者，五级代表组织者。我认为我们显然已经达到了二级，或者至少说 O1 模型达到了二级。它可以执行相当令人印象深刻的大规模任务。这是一个非常聪明的模型。但在几个重要方面，它还不像 AGI。

不过，如果我们再进一步，使其更像智能体——这是我们的三级定义，我认为我们将在不久的将来实现——这将会让人感到非常强大。尽管可能大部分人还不认为这是 AGI。但无论如何，这将是一个重要的进步。然后从这一步跃进到能够加速新科学发现的速度，对我来说，这是拥有 AGI 的一个重要标志，对此我稍微没那么确定，但也不会太久。我认为这一切现在都将很快发生。如果你看看过去十年到现在的模型能力的变化，你会发现进展非常迅速。接下来的一年将是飞速的进步。接下来的两年也会是飞速的进步。超过这个时间就很难确定了。但我会说，情况会有所不同。在这个阶段，定义真的很重要。这些定义如此重要这一事实意味着我们正在接近目标。

Kevin Weil：以前总感觉 AGI 这个概念是二元的，有一天睡前还没有 AGI，第二天醒来可能突然就有了。我不认为我们现在还会这样看待它，但你的观点究竟是如何演变的？

Sam Altman：我认为我们会进入一个模糊期，在这个期间，AGI 是否已经到来会变得很模糊，或者说什么时候才是那个点？这将是一个平滑的指数曲线。可能大多数人回顾这段历史时都不会同意里程碑是在何时达成的。我们会意识到那其实是个愚蠢的事情。

即使是图灵测试——我一直以为那是一个非常明确的里程碑，但也有一个模糊期。它就像嗖的一下过去了，没有人关心。但我认为正确的框架就是这样一个指数曲线。也就是说，如果我们能够开发出一个人工智能系统，它在所有方面都比 OpenAI 更擅长进行人工智能研究，这对我来说像是某种重要的突变。也许这样想仍然是错误的。也许它仍然是一个平滑的指数曲线。但那感觉像是一个好的里程碑。

Kevin Weil：OpenAI 是否依然像早期那样致力于研究？研究是否仍将是推动我们发展和产品开发的核心？

Sam Altman：是的，我认为比以往任何时候都更加重视。在我们的历史上有一个时期，坚信正确的做法就是扩大计算能力。我们有着一种精神，即我们会做任何有效的事情。我们有着使命，想要建造 AGI，找出共享利益的方法。如果答案是堆砌 GPU，我们会去做。而现在答案依然是，再次推动研究。

我认为你可以从 O1 看到这一点。那是我们长期从多个角度钻研的巨大研究突破，最终它以非常强大的方式结合成今天的样子。我们还有很多这样的巨大研究突破即将到来。但我认为 OpenAI 最特别的地方是我们真正关心研究，并且知道如何经营这样一种文化，能够推动前沿发展，这非常难。但我们喜欢这样做。我认为我们必须再做几次。

Kevin Weil：对我来说，从外部，从普通的科技公司来看，OpenAI 对研究的重视程度的一个极限测试是，在 OpenAI 构建产品从根本上不同于我在其他任何地方的经历。通常你对你的技术堆栈有一些概念。你对自己必须处理的技术和计算机的能力有一定的了解，然后你试图构建最好的产品。你在了解你的用户是谁，他们有什么问题，以及你能如何帮助解决这些问题。

在 OpenAI 也有这种情况，但同时计算机的功能状态每两三个月就会发生变化，突然之间计算机拥有了前所未有的新能力，而我们正努力弄清楚如何构建优秀的产品，并向开发者和我们的 API 展示这些功能。你完全不能预测接下来会发生什么。它往往是在迷雾中逐渐成形。这与我曾经工作过的任何公司都根本不同。

Sam Altman：这是最让你惊讶的事情吗？

Kevin Weil：是的。有趣的是，即使在内部我们也不总是有感知。你可能会想，好吧，我认为这种能力即将来临，但它会在下一个模型中达到 90% 的准确性还是 99% 的准确性？因为这种差异确实改变了你能构建什么样的产品，你知道你会达到 99%，但你不知道什么时候能达到，而在这样的世界里如何制定路线图真的很有趣。

Sam Altman：是的，我们必须仅仅跟随科学，让科学决定我们下一步的工作方向以及我们要构建什么产品，这一点，我认为很难传达。我们对事物的发展方向有猜测。有时我们是对的，通常不是。但如果某样东西开始起作用，或是某样我们认为会起作用的东西没有起作用，我们愿意说，我们将转变一切，去做科学允许的事情，并且你不能选择科学允许什么，这一点确实令人惊讶。

Kevin Weil：几周前我和一位企业客户交谈时，他说，“你知道，我们真正想要的一件事”——这一切都很棒，我们很喜欢——“我们真正想要的一件事是在你们推出新产品前六十天得到通知。”

我当时心想，“我也想提前得到通知。”

随着时间推移，会逐步放松语音模式限制

Kevin Weil：下一个问题是——很多对对齐（Alignment）有兴趣的人都担心 OpenAI 现在只是表面上关注对齐。你能给我们一个保证吗？

Sam Altman：是的。我认为我们对对齐的看法可能和某些互联网论坛上人们想的不太一样。但我们确实非常重视构建安全的系统。我们有一个基于目前经验的方法来实现这一点。回到之前的问题，即你不能选择科学的方向。我们希望弄清楚如何构建随着时间越来越安全的强大模型。几年前，我们并没有想到草莓或 O1 范式会像现在这样起作用。而这带来了一整套新的安全挑战，同时也带来了安全机遇。而不是计划在超级智能出现时制定十七条原则，我们的方法是了解能力发展的方向，然后努力使该系统安全。

O1 显然是我们迄今为止最强大的模型，但也是我们对齐程度最高的模型。随着这些模型变得更加智能、推理能力更强，无论你怎么称呼它，我们用来对齐它们的方法以及构建整个堆栈的安全系统的工具集也在不断增加。因此，我们必须构建被普遍认为是安全和稳健的模型才能将其投入实际应用。当我们刚开始 OpenAI 时，我们对对齐的理解和我们认为需要解决的问题实际上并不是我们现在面临的问题。

此外，当我们训练 GPT-3 时，如果你问我那些当时能使我们现有的系统被广泛认为是安全和稳健的技术，它们并不是最终奏效的技术。通过迭代部署的想法，我认为这是我们最重要的安全性立场之一，并且面对现实，我们取得了很大进展，并期望取得更多进展。我们不断发现新的问题需要解决，但我们也不断找到新的技术来解决这些问题。

话虽如此，我认为担心这些科幻小说中的糟糕情况同样重要。我们有人在思考这个问题。这有点不太清楚该如何下手。有时候你会回头很多。但我不认为只关注眼前的问题是可怕的。我们确实需要考虑未来的发展，我们也在这样做。我认为如果从两个方向同时推进这个问题，一方面看下一步要做什么，我们想部署这个，需要发生什么，另一方面，如果这条曲线继续下去会怎样？这对我们来说一直是一个有效的策略。

Kevin Weil：我也要说这也是我喜欢我们迭代部署哲学的一个地方。当我还在推特的时候——这已经是老黄历了——埃文（Evan Williams, 推特联合创始人）跟我说过一句话，让我一直铭记在心，那就是“无论围墙内有多少聪明人，围墙外总有更多的聪明人。”

当我们尝试获取——如果我们只是说我们要在围墙内想办法找出所有可能出现的问题，那就只有我们和我们能雇佣的红队成员等等来做这件事。我们确实这么做了，并且在这方面非常努力。所以通过迭代部署、谨慎发布并从像你们这样的人使用过程中学习什么是对的、什么是错的，我认为这是我们正确处理这些问题的重要方式。

Sam Altman：我也认为当我们进入智能体在世界上行动的世界时，这将变得非常重要。随着这些系统变得越来越复杂并在更长的时间范围内活跃，来自外界的全面测试将变得至关重要。

Kevin Weil：接下来我们可以谈一谈你如何看待智能体如何融入 OpenAI 的长远规划。我认为这是一大重点——我的意思是，令人兴奋的是这一系列模型，特别是 O1 及其后续版本，将使这一切成为可能，因为你终于有了推理的能力，能够将复杂的问题分解为简单的问题，并对其采取行动。我认为 2025 年将是这一切真正爆发的一年。

Sam Altman：聊天界面的交互体验非常出色，我认为它在未来将占据极其重要的位置。想象一下，当你向ChatGPT或者类似的智能体提问时，不仅能获得即时回复，而且还能超越简单的即时反应——比如不只是在经过短暂的几秒钟思考后给出一段代码或其他信息。更重要的是，如果能够为这些模型提供一个多步骤的交互环境，让它们能够进行相当于人类几天甚至更长时间深度思考后的高质量处理，那么由一个非常聪明且有能力的人来完成的任务就能瞬间实现。

我们常常谈论着，“好了，可以开始下一个项目了，新的功能即将推出，这将带来全新的变革。”我们仿佛在期待着下一代模型的进化。我敢肯定，尽管我们尚未完全了解这些技术将带来怎样的具体变化，但可以预见的是，人们会迅速适应这些新技术。人类总是能够快速接受并融入新技术，而这将在短期内极大地改变世界的运行模式。

Kevin Weil：我记得以前有人聊到类似话题的时候提了个趣事——当时本来是在说 Waymo 的，他们讲到，在刚开始用的头十秒，人们心里七上八下的：“这玩意儿遇到自行车会不会出岔子啊？”

可是才过了十分钟，心态就变了：“自动驾驶太酷了！”

再过个十分钟，这些人已经开始低头玩手机了，完全把自动驾驶当成家常便饭了。——真是令人惊讶，人的内心会如此快速地更新适应这些新事物。

Sam Altman：我认为人们会让智能体为他们做一些需要一个月才能完成的事情，而在一个小时之内就可以完成，而且效果很好，然后他们会同时有十个这样的任务，然后会有上千个这样的任务，到了 2030 年左右，我们会回首过去，说，“是的，这就是人类应该具备的能力，这就是人类过去几年甚至许多人类过去几年一直在努力做的事情，而现在我只是让电脑来做，一个小时就完成了——为什么不是一分钟就能完成呢？” [笑声]

Kevin Weil：是的。这也是拥有一个优秀的开发者平台的好处之一，因为我们将会实验，并且会构建一些智能体相关的东西，当然，我们已经在推动今天可能性的边界。你有像 Cognition 这样的团队在做令人惊叹的事情，还有 Coding, Harvey 和 Case Text，Speak 在语言翻译方面做得很好，我们已经开始看到这些东西发挥作用，我认为随着我们继续迭代这些模型，它们真的会开始起作用。

Sam Altman：开发者平台有一个非常有趣的地方是能够观察到人们构建这些体验时的难以置信的速度和创造力。开发者们对于我们来说是非常亲近和宝贵的，所以开发者平台是我们最早发布的东西之一，我们很多人都是从在平台上构建东西开始的，但这些模型的大量能力和出色体验是由在平台上构建东西的人们创造的。我们会继续尝试提供出色的第一方产品，但我们知道这只会是应用程序或智能体等人们在全球构建的一小部分。看到过去十八到二十四个月里世界发生的情况，实在是令人惊讶。

Kevin Weil：继续讨论智能体方面的问题。你觉得当前计算机控制智能体的主要障碍是什么？

Sam Altman：安全性和对齐性。如果我们真的赋予智能体操作你电脑的能力，那么系统必须达到很高的稳健性和可靠性标准，并且对齐性也要很高。从技术角度来看，我认为我们在能力方面已经很接近了，但智能体的安全性和信任框架将是长期的挑战。

Kevin Weil：现在我要问一个与前面问题相反的问题。你认为安全性会不会因为误判而实际上限制公众接触那些可以使世界更加平等的关键工具？

Sam Altman：坦率地说，这种情况有时确实会发生。我们会尽力找到平衡。但如果完全不顾安全性和对齐性，我们是否可以更快地推出 O1？是的，我们能做到。但这会带来风险。可能会出大问题。我很自豪我们没有这么做。

对于 O1 来说，虽然代价可能是可控的，但到了 O3 或类似的版本时，可能就变得不可接受了。所以我们从保守的角度开始，我认为人们并不会抱怨说，“语音模式为什么不说冒犯的话？我希望让它冒犯我。” 事实上，如果你试图让 O1 说些冒犯的话，大多数情况下它应该听从用户的指令。

回顾历史，每当我们将新技术引入世界时，我们总是从保守的角度开始，会尽量给社会适应的时间，并尽量理解真正的危害在哪里，而不是仅仅是理论上的危害。这是我们对待安全性的方法的一部分。并不是所有人都喜欢这种方法。我自己也不总是喜欢。但如果我们认为这些系统将会像我们预期的那样迅速变得强大，那么我认为这样开始是有道理的。随着时间推移，我们会逐步放松限制。

NotebookLM 是真正的“新东西”

Kevin Weil：对于以 AI 为核心功能的初创公司来说，它们接下来最大的挑战是什么？

[沉默良久]

Kevin Weil：我其实有点想法。

Sam Altman：那你先说。

Kevin Weil：我认为其中一个挑战也是 OpenAI 面临的问题，因为我们也在基于自己的模型构建产品，那就是试图找到边界。你想构建的——这些 AI 模型发展如此迅速。如果你构建的是当前 AI 模型擅长做的事情，那今天可能会很好，但明天就会显得过时。所以你想构建的是 AI 模型刚刚还做不到的事情，也许早期采用者会接受，其他人则不会，但这意味着当新的模型出来时，随着我们持续改进，那些刚刚还做不到的应用场景你将成为第一个实现的人，那将是令人惊叹的。但找到这个边界非常困难。我认为最好的产品将由此诞生。

Sam Altman：我完全同意。我还想补充的是，人们往往倾向于认为一项技术就能成就一家初创公司，而这几乎从来不是真的。无论一项新技术或新标题多么酷炫，都不能免除你需要做的所有建立一家伟大公司的艰苦工作，这家公司要有持久力或随着时间积累的优势。我们听到很多初创公司的反馈，我发现这是一个非常普遍的现象，即“我可以做这个令人惊奇的事情，我可以提供这项不可思议的服务。”这似乎是一个完整的答案，但它并不能免除你遵守任何商业的基本规律。你仍然需要在一个良好的战略位置上建立一家好公司。我认为在这个令人难以置信的 AI 兴奋和上升趋势中，人们很容易忘记这一点。

Kevin Weil：这是一个有趣的问题。语音模式就像是直接接入人类的 API。如何确保这种具有明显操控能力的强大工具的伦理使用？

Sam Altman：语音模式对我来说非常有趣。这是我第一次感觉自己被 AI 真正地“骗”到了。当我在试用它的首个测试版时，我根本停不下来。虽然我还会说“请附上 GPT”，但在语音模式下，我不由自主地使用了平常的礼貌用语。我当时几乎确信“啊，这可能真的是个人。”显然这只是 AI 在模拟我大脑中的某种反应，但我确实感受到了那种真实感。现在我偶尔还是会这样觉得。

我认为这是一个我们即将面临的更普遍问题的例子，即随着这些系统变得越来越强大，并且我们努力使它们的交互更加自然，它们会触动我们大脑中那些为了应对他人而进化出来的部分。有些明确的界限是我们不愿意跨越的。有一些奇怪的性格成长黑客手段，我认为是社交操控性的，我们可能会做。但还有一些事情并不那么明确。我们总希望语音模式尽可能自然，但一旦越过“恐怖谷效应”，至少对我来说，它会引发某些反应。我想这确实揭示了我们在所有这些事情上必须开始处理的安全性和对齐性问题。

Kevin Weil：让我们回到具体问题上。O1 何时会支持函数工具？

Sam Altman：你是产品官，你来回答。

Kevin Weil：在今年年底前。有三个我们真正想为 O1 加入的功能。[掌声]

我们会告诉研究团队，具体将如何实现。有几个功能我们确实想加入到 O1 中，同时这也是一个平衡问题，我们是应该早点把它推向市场并开始从中学习，学习你们如何使用它，还是应该推出一个完整的产品，具备我们之前所有模型的功能。我很期待看到诸如系统提示、结构化输出和函数调用等功能加入到 O1 中。我们将在今年年底前实现。这对我们也非常重要。

Sam Altman：除此之外，模型将会变得更好更快。我们才刚刚开始。现在 O1 也许还在 GPT-2 时刻，但就像之前实现 GPT-4 一样，我们已经有基本的东西来实现 O1 的 GPT-4 时刻。除了计划构建所有这些功能之外，还要计划模型迅速变得更聪明。希望你们明年再来时，会感觉这一年比从 GPT-4 到 O1 的进步更大。[掌声]

Kevin Weil：你最欣赏竞争对手的哪个功能或能力？

Sam Altman：我认为谷歌的那个 Notebook 功能非常酷。它叫什么来着？

Kevin Weil：NotebookLM。

Sam Altman：是的。今天早上我起来，在 Twitter 上看到了一些示例，觉得太酷了，这是一个很棒的功能。我觉得世界上新颖的东西还不够多，大多都是类似的事物。但这个功能，确实给我带来了许多乐趣。真的做得不错。

Kevin Weil：我非常欣赏它的几个特点，首先是产品概念本身就很有趣，但他们还成功地实现了播客风格的声音。他们使用了非常好的麦克风，声音效果也很棒。正如你们所见，Twitter 上有人提到一个很酷的做法是把你领英上的简历做成 PDF，然后交给 Notebook LM，你会得到两个播客主持人来回谈论你的成就。

我认为 Anthropic 在产品方面也做得非常好。他们的做法与我们使用 GPTs 的方式有所不同。GPTs 更持久，你可以反复使用。而他们的 Artifacts 则是同样的理念，但更加临时便捷，旨在短时间内使用，然后就可以转移。不同的心理模型会产生差异。我认为他们在这一点上做得非常好。

只要不断推动智能的发展，

人们就会利用这些能力创造出令人惊叹的东西

Kevin Weil：好了，我们快要进入观众提问环节了，大家可以思考一下想要问的问题。那么在 OpenAI，你们是如何平衡用户可能需要的与他们今天实际需要的关系？

Sam Altman：这也是一个问题吗？

Kevin Weil：是的，我认为这回到了我们之前所说的，即尝试构建模型刚好能做但又还没完全做到的事情。但这也是一种平衡，因为我们每周支持超过两亿人在 ChatGPT 上使用。你也不能说，“没关系，像这样的 Bug 你可以忍受三个月或这个问题你可以忍受。我们有一些很酷的东西即将到来。你得解决今天的需求。”

还有一些非常有趣的产品问题。我现在是对着一群非常了解 AI 的人讲话。但想想世界上从未使用过这些产品的大部分人，他们才是大多数。你基本上给他们一个文本界面，另一边是一个不断进化的陌生智能，他们从未见过或互动过。你要教会他们所有可以用它做的事情，以及它如何帮助整合进你的生活，解决你的问题。

人们不知道该怎么做。他们会进来输入“嗨”，它回应“嘿，很高兴见到你，我能怎么帮助你？”你会想，“好吧，我不知道该说什么。”然后转头走开，想着“我没发现其中的魔力。” 因此，找出如何让人们使用的方法是一个真正的挑战。我们都有上百种不同的方式使用 ChatGPT 和其他 AI 工具，但教会人们这些可能性，并随着模型每月的变化而引导他们，模型的能力增长速度远超人类获取新能力的速度，这是一个非常有趣的一系列问题，我知道你们也有很多不同的解决方法。

Sam Altman：我发现一个问题。有多少人觉得自己已经花了很长时间与 O1 相处，并且认为“我绝对比那个东西更聪明”？你觉得到了 O2 你还会这么认为吗？[笑声] 如果我能打败一个聪明的 O2，谁愿意打这个赌？我们面临的一个挑战是，我们知道如何做出至少可能比我们都聪明的模型，但我们仍然需要修复 Bug 并解决“嗨，你好吗？”这类问题。主要我们相信，如果我们不断推动模型智能的进步，人们会用它们做出不可思议的事情。我们希望建立世界上最聪明、最有帮助的模型，然后人们会找到各种各样的方式来使用和发展这些模型。对我们来说，不仅仅是专注于研究，我们还需要修复所有 Bug 并使其可重复使用，我认为我们在平衡这点上做得更好了。但是，作为企业文化的一部分，我们相信只要我们不断推动智能的发展，人们就会利用这些能力创造出令人惊叹的东西。

Kevin Weil：是的，我认为这是核心理念的一部分，你们很好地推动我们始终将智能前沿融入到我们的产品中，无论是 API 还是我们的第一方产品，因为很容易依赖已知且有效的方法，但你们总是推动我们将前沿技术纳入，即使它还不完美，因为它很快就会变得非常好。我一直觉得这是一个很有帮助的推动。

你其实已经提前回答了我清单上的下一个问题：Sam 会不会对模型说“请”和“谢谢”？但我很好奇，有多少人会这样说？（现场多数人举手）这不是很有意思吗？

Sam Altman：那是相当有意思。

Kevin Weil：如果我不说，我甚至会感到内疚。好的，最后一个问题，然后我们将进入观众提问环节。OpenAI 是否有计划专门开发用于智能体应用场景的模型，即在推理和工具调用方面表现更好的模型？

Sam Altman：我们计划开发适用于智能体应用场景的优秀模型。在未来几个月内，这将是我们的重点之一。具体来说，这很难定义，因为我认为这也取决于我们如何不断制造更智能的模型。所以，是的，有一些像工具使用和函数调用这样的功能需要我们去构建，但这主要是因为我们想要打造世界上最好的推理模型。这些也将成为世界上最好的智能体模型。

Kevin Weil：好的。让我们进入观众提问环节。

观众：你们公司在多大程度上使用自己的技术进行内部测试？有什么可以分享出来的内部有趣案例吗？

Sam Altman：是的，在模型训练完成前，我们就会让模型供智能体专用。我们会使用检查站（check point），并尝试让人们尽可能多地使用它们，尝试构建探索模型能力的新方法，并在内部尽可能多地用于自身开发或研究等。我们总是对外界的创造力感到惊讶，但基本上我们通过内部测试来确定下一步要做什么，可以产品化的内容，模型真正擅长的地方。这是我们摸索前进的方式。我们还没有基于 O1 的员工，但在转向智能体的世界时，我们会尝试这样做。我们会在内部系统中部署一些辅助工具。

Kevin Weil：有些应用已经接近这个目标。例如客户服务，我们内部有一些机器人承担了大量的外部问题解答和内部人员在 Slack 上的问题咨询等工作。由于这些机器人的帮助，我们的客户服务团队规模可能只有原本所需的一半大小。

我们的安全团队详细讨论过内部使用模型自动化大量安全事务的各种方式，将原本手动的过程转变为模型区分信号和噪声，并突出显示需要人工查看的信息。内部有很多这样的例子，也许人们低估了——你们可能不会对此感到惊讶——不仅仅是单个模型的使用，而是多个模型组成的链条，它们擅长不同的任务，并连接在一起形成一个高效的整体流程，即使单个模型存在缺陷和错误。

观众：我想知道你们是否有计划分享可以离线使用的模型，因为通过蒸馏技术我们可以生成自己的模型，但在很多应用场景中，你确实需要一个可以本地运行的版本。

Sam Altman：我们对此持开放态度。不过这在当前路线图上的优先级不高。如果有更多资源和带宽，我们会去做这件事。有很多原因让你需要本地模型，但这不会是今年的重点。

观众：你们对开源有什么看法？无论是开放方式，还是总体讨论，你们对开源的态度如何？

Sam Altman：我认为开源是非常棒的。如果有更多资源，我们也会参与其中。我们曾多次考虑启动大型的开源项目。然而，最大的挑战在于优先级的选择；我们总是把其他事情排在前面。部分原因是目前已经有很好的开源模型存在，我们更倾向于专注于开发高质量的本地模型。我认为这一领域已经得到了很好的服务。我们希望将来能够有所作为，但我们希望找到那些如果没有我们，世界不会改变的领域，而不是仅仅做一个稍好一点的东西。从理念上讲，我支持它的存在，并积极寻找贡献的方式。

观众：为什么语音模式不能唱歌？作为后续问题，如果是版权等法律问题，能否在你们自己的平台上处理安全问题时，给我们开发者一些许可，让我们可以让高级语音模式唱歌？你能谈谈这个问题吗？

Kevin Weil：有趣的是，Sam 当时也问过同样的问题：“为什么她不能唱歌？我明明在发布会上看到她唱歌了！” 实际上，有些歌曲是由于版权问题，导致它不能演唱，因为我们没有相应的许可证。但是也有一些歌曲是可以被演唱的，例如《生日快乐》。我们确实希望实现这一点，但正确处理版权问题是复杂且具有挑战性的。因此，目前我们正在逐步解决这些问题。我们同样期待模型能够具备歌唱的能力。（掌声）

Sam Altman：公众对于语音模式的发布已经等待许久，这是可以理解的。我们本可以进一步等待，直到解决了版权音乐与非版权音乐的分类问题，但我们决定先行发布，再逐步完善其功能。

Kevin Weil：其实 Sam 在这期间向我询问过四至五次了。

Sam Altman：至少成果不错。

观众：能否谈谈你们对未来上下文窗口的看法及其发展时间表，尤其是关于上下文窗口增长与 RAG（信息检索）之间的平衡？

Sam Altman：我认为有两个重要的视角。一方面，何时能够实现正常的长上下文支持，比如达到一千万标记长度或类似规模，使得用户可以自由地添加内容并且处理速度令人满意。我预期在这个领域将会有迅速的进步，这似乎是一个自然演进的过程。虽然目前长上下文的应用并不广泛，但我认为这背后有多重原因。另一方面，何时能够达到上下文长度不再是百万而是亿万级别？何时能够将一个人一生所接触的所有数据都纳入上下文中？

这是一个全新的课题。显然，这需要一些研究上的突破，但我相信无限上下文终将成为现实，并且这一进程不会超过十年。这将彻底改变我们利用这些模型的方式。即便是在短期内实现一千万标记长度的上下文支持，我相信这将在几个月内实现，人们将会以多种方式加以应用，这将是巨大的进步。但非常长的上下文支持终将实现，这十分令人兴奋。

观众：随着语音和其他用户自技术发布以来经历的变化，你们如何看待新的交互层、形式因素以及我们如何实际与这项技术互动以改善我们的生活？

Kevin Weil：这是一个我喜欢的问题。事实上，这也是我们常常自问的一个问题。我认为开发者在此可以发挥重要作用，因为存在通用性和特定性之间的权衡。例如，几周前我在首尔和东京与一些语言不通的人交谈。以前我们无法沟通，但现在通过手机上的应用程序，我可以进行完整的商务对话。这种技术的进步不仅影响商业，还影响旅游和个人体验。在 ChatGPT 中，这仍需手动配置，但未来的数字翻译器应该能够自动识别并执行这样的任务。

我们努力构建的应用程序能够适应各种需求，并且跟随技术发展的步伐。同时，我们看到一个巨大的机遇，即富有创意的群体可以解决我们尚未预见的问题。最终，让更多人利用 AI，世界将更加美好，这也是我们为之自豪的原因。

Sam Altman：我想补充的是，设想在未来几年内，我们将看到众多技术的融合。在某个时刻，人们只需面对一块屏幕，表达需求，而背后的系统将是一个极其强大的推理模型。这将整合视频流，提供定制的界面来响应每一次请求。无论所需为何，都将实时渲染成视频，用户可以与之互动，发出进一步指令，处理那些过去需要人类多年才能完成的任务。这种方式将极大地改变我们使用计算机的习惯，并在现实世界中实现许多非凡的事情。

大模型刷新一切，让我们有着诸多的迷茫，AI 这股热潮究竟会推着我们走向何方？面对时不时一夜变天，焦虑感油然而生，开发者怎么能够更快、更系统地拥抱大模型？《新程序员 007》以「大模型时代，开发者的成长指南」为核心，希望拨开层层迷雾，让开发者定下心地看到及拥抱未来。

读过本书的开发者这样感慨道：“让我惊喜的是，中国还有这种高质量、贴近开发者的杂志，我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容，这些内容既真实又有价值。”

能学习到新知识、产生共鸣，解答久困于心的困惑，这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。

http://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247582733&idx=1&sn=114364391d536aefc37fa5f84177dda9

AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。