深度|OpenAI Dev Day 2024访谈Sam Altman:AGI共5层,我们现在在第2层

文摘   2024-11-03 11:37   福建  

图片来源:Latent Space

Z Highlights

  • 实时API将完全改变我们与人工智能互动的方式,定制化AI模型成为主流,并且通过模型蒸馏实现低延迟、低成本、高性能,使AI更易使用、更高质量。

  • 开发者是连接技术和未来的关键人物。实时正迅速成为构建应用的最佳体验,展望未来几年,大多数开发者将拥有自动连续微调的模型,相当数量的应用程序转向实时API。

  • O1的优点在于可以制定计划,擅长接收大量单帧输入,视觉微调有了很大的改进,但存在着API密钥隐藏问题和API请求数量问题。

  • Sam Altman提出了AGI层级框架理论。一级用于聊天机器人,二级用于推理器,三级用于智能体,四级用于创新者,五级用于组织。OpenAI认为目前AGI正处于第二层级。

Sam Altman 及OpenAI首席产品官Kevin Weill对谈

AI Charlie:今年的Dev Day以Sam Altman和Kevin Weil参与的延长版问答环节结束。我们认为提出的问题和给出的回答都非常有见地,所以我们从公开可用的资源中整理了部分音频内容发布在这里,供大家查阅。与此同时,我们特别推荐大家听听Sam关于审核政策、常被忽视的3级以上agent和AI员工的重要性,以及他对O1、O2和O3模型未来智能水平的预测的回答。

Kevin Weil:好了,我想大家都认识你了。对于那些不认识我的人,我是Kevin Weil,OpenAI首席产品官。我有幸将我们研究团队所做的出色研究转化为你们每天使用的产品和你们每天构建在其上的API。

Sam Altman:你知道,我们以前每完成一个系统,都会说,这个系统在哪些方面不是通用人工智能。以前这很容易判断,比如,你可以制造一个能完成一些简单任务的机械臂,或者一个点焊机器人,然后就会说,哦,它能做一些事情,但肯定不是通用人工智能。

现在显然很难说清楚了,所以我们试图不再把通用人工智能作为一个笼统的概念来讨论。我们有一个层级框架,因为“通用人工智能”这个词已经被过度使用了。简而言之,我们大致上把一级用于聊天机器人,二级用于推理器,三级用于智能体,四级用于创新者,五级用于组织。

我认为我们显然已经达到了第二级,或者我们确实已经达到了第二级。O1能够执行一些非常令人印象深刻的Python任务。它是一个非常智能的模型。虽然它在某些重要方面还没有达到AGI的感觉,但我认为,如果我们再迈出一步,让它变得更像智能体,也就是我们的第三级,并且我认为我们在不远的将来能够做到这一点,那么它将会显得非常强大。尽管大多数人可能仍然不会称它为通用人工智能,但也许有些人会,而且它会给人一种“这是一件大事”的感觉。

然后是从这一步到能够真正加快新科学发现速度的飞跃,这对我来说是拥有通用人工智能的一个非常重要的部分。我对这一点稍微有些不确定,但不会太久,我认为所有这些不久的将来都会很快发生,如果你想想过去十年到这一模型能力的发展,你可能会觉得“哇”。

我是说,如果你看看从我们11个月前发布的4Turbo模型,到我在一个难题上使用的O1模型,你会惊叹于这一切发生得如此之快。我认为明年将取得非常显著的进步。接下来的两年也将取得非常显著的进步。再往后就难说了,很难有十足的把握。

但我想说,数学研究会变化。而且在这个时候,对AGI定义真的很重要。事实上,从某种程度上已经意味着我们离对AGI进行准确定义的目标已经很近了。

Kevin Weil:以前,通用人工智能给人的感觉是一种二元的存在,就像有一天你睡觉前还没有通用人工智能,但醒来后就有了。我认为我们现在不再这样想了,我同意你的看法,我认为我们现在正处于这样一个阶段,它会让人感觉非常模糊一段时间,而且这是否已经是通用人工智能了,或者这还不是,或者到底要到什么程度才是?你的看法是什么呢?

Sam Altman:我的观点是,我们正处于这样一个时期,它是会让人感觉很模糊的一段时间,而且关于这是否已经是通用人工智能的界定也会很模糊。这将会是一个平稳的指数级增长过程,你知道,大多数人回顾历史时,可能都不会同意某个特定里程碑的达成,而只是会意识到,那不过是一件微不足道的事情。就连图灵测试,我曾以为那是一个非常明确的里程碑,但你知道吗,其实它也是一段模糊的时期。

它就像是“嗖”地一下就过去了,没人关心。但我认为正确的框架就是这个指数级增长。也就是说,如果我们能制造出一个在AI研究方面比OpenAI所有工作都要好得多的AI系统,那对我来说,这就像是某种重要的转折点。不过,这样想可能还是错的。这可能仍然是那条平稳的指数级增长曲线,感觉像是一个新的里程碑。

Kevin Weil:OpenAI是否仍然像早期那样致力于研究?研究是否仍然是我们产品开发中进步的核心驱动力?

Sam Altman:是的,我们现在比以往任何时候都更加致力于研究。在我们的发展历程中,有一段时间,正确的做法就是扩大计算能力,我们对此深信不疑,并且秉持着“只要能行,我们就干”的精神。你知道,我们肩负着使命,我们想要建造,比如说,AGI,想要弄清楚如何从中受益。如果答案是增加GPU,那我们就会这么做。

现在,答案再次是全力推进研究。我认为从O1上你就能看出来,这是我们花费很长时间从多个角度攻克的一项重大研究突破,它以非常强大的方式将这些角度融合在了一起。我们还有更多重大的研究突破即将到来。但我认为OpenAI最特别之处在于,我们真的非常重视研究,并且知道如何去做。

我认为,复制已知有效的东西很容易,但是我并不是在说这是一件坏事。比如,当人们复制OpenAI时,我会觉得很棒,因为世界上有了更多的AI,这太棒了。但是,要第一次做出新东西,要真正意义上进行研究,这并不仅仅是“让我们从这个东西里勉强挤出点成果”,或者“让我们调整一下”。

而是要去寻找新的范式,以及之后的范式,再之后的范式。这才是激励我们的动力,我认为这也是我们作为组织最特别的地方。除了我们将产品与研究等所有其他东西结合在一起这一事实之外,我们还知道如何运营一种能够推动前沿进步的企业文化,这真的很难。但我们热爱它,你知道,我一周要在AGI上这样做几次。

Kevin Weil:是的,对我来说,我从外部、从普通科技公司来到OpenAI,可以证明研究对OpenAI有多重要,在OpenAI构建产品,从根本上就不同于我之前在任何地方做过的类似工作。你知道,通常你会对自己的技术栈有一定的了解,知道自己要用什么,以及计算机的能力如何,然后你试图构建最好的产品,对吧?你要弄清楚你的用户是谁,他们有什么问题,以及你如何能帮助他们解决这些问题。

OpenAI也有这些,但此外,计算机的能力每两到三个月就会进化一次,突然之间,计算机就拥有了它们在世界历史上从未有过的新能力。而我们正在试图弄清楚如何构建一款伟大的产品,并将这些新能力通过我们的API等暴露给开发者。

然后,你无法完全预测接下来会发生什么,它们就像穿过迷雾向你靠近,并逐渐成形。这与我之前工作过的任何公司都从根本上不同,我认为,这就是OpenAI的特点。

Sam Altman:这是最让你感到惊讶的吗?

Kevin Weil:是的。很有趣的是,即使在我们内部,我们也并不总是能有所察觉。你会觉得“好吧,我认为这个能力即将出现”,但下一个模型会是90%的准确率还是99%的准确率呢?因为准确率的不同真的会影响你能构建什么样的产品。你知道你会达到99%,但具体是什么时候,却不得而知。在这个世界里,如何制定路线图真的很有趣。

Sam Altman:对,我们不得不追随科学,让科学来决定我们接下来做什么,构建什么样的产品,以及其他一切。我认为,这一点很难传达清楚。我们对事情的发展方向有猜测。有时我们猜对了,但更多时候我们猜错了。但是,如果某件事开始起作用,或者你认为会起作用的事却不起作用,我们愿意彻底改变一切,去做科学允许我们做的事,而你无法选择科学允许什么。

Kevin Weil:几周前,我和一个企业客户坐在一起,他们说,你知道,我们真的很喜欢现在的一切,但我们真正想要的是,在你们发布新产品前60天给我们一个通知。我回答说,我也想要这个。

好了,这些都是观众的问题,下一个问题是,很多关注对齐问题的人真的担心OpenAI现在只是在口头上重视对齐。你能给我们一些保证吗?

Sam Altman:是的,我认为我们确实与那些在互联网论坛上写文章的人对于对齐的看法有所不同。但我们真的非常关心构建安全系统。我们有一个基于我们迄今为止的经验而形成的方法论来做到这一点。

再谈谈另一个问题,那就是你不能选择科学的发展方向。我们想要弄清楚如何制造出能力越来越强且越来越安全的模型。几年前,我们从未想过整个strawberry或O1范式能像现在这样发挥作用。

这带来了一系列全新的安全挑战,但同时也带来了安全方面的机遇。我们不是计划制造理论上的超级智能,然后列出17条原则来应对。我们的方法是,弄清楚能力的发展方向,然后努力使那个系统变得安全。

显然,O1是我们有史以来最强大的模型,而且它在对齐方面也是最出色的,远超其他模型。随着这些模型变得越来越智能,推理能力或者你想怎么称呼它都行,会越来越强,我们在对齐它们以及在整个技术栈中构建真正安全的系统方面所能做的事情也在不断增加。所以,我们必须构建普遍被认为是安全且稳健的模型,才能将它们投放到世界中。当我们创立OpenAI时,我们对对齐的看法以及我们认为需要解决的问题,与现在实际摆在我们面前、我们必须解决的问题截然不同。

此外,当我们制作第一个GPT-3时,如果你问我哪些技术能够让我们现在部署的所有系统都被普遍认为是安全且稳健的,那么那些最终证明有效的技术并不是我最初会想到的技术。因此,通过迭代部署的理念——我认为这是我们最重要的安全立场之一,也是直面现实的方式——我们已经取得了很多进展,并期望取得更多进展。我们不断发现新的问题需要解决,但也不断发现新的技术来解决这些问题。

说了这么多,我认为担心这些科幻般的事情出错也是非常重要的。我们有人在思考这个问题。但要做些什么还不太清楚,有时你会发现自己做了很多无用功。但我认为说我们只关注眼前的事情也是不公平的。我们确实需要考虑这件事的发展方向,我们也在这么做。我认为如果我们继续从这两个角度同时解决问题,那么我们的大部分精力都会放在下一个要部署的事情上,以及为了达到那个目标需要做些什么。但同时,我们也要考虑如果这条曲线一直持续上升会怎么样。这对我们来说一直是一个有效的策略。

Kevin Weil:我也要说,这是我真的很喜欢我们迭代部署理念的地方之一。当我在Twitter的时候,Ev说过一句话让我印象深刻,那就是:“无论你公司里有多少聪明的人,公司外面总是有更多聪明的人。”

因此,当我们尝试去弄清楚所有可能会在我们内部出错的事情时,如果仅仅是我们和我们可以雇佣的红队(指模拟黑客攻击或恶意行为的团队)去做这件事,那还好说。我们确实在这么做,也在这方面非常努力。但是,我们也通过迭代发布、谨慎发布,并从像你们这样的人的使用方式中学习——哪些做得好,哪些做得不好,我认为这是我们把事情做对的一个重要方式。

我还认为,当我们进入这个由智能体在世界上执行任务的时代时,这将会变得非常重要。随着这些系统变得越来越复杂,并且在更长的时间范围内运作,来自整个外部世界的压力测试。

对。那么,我们就此打住,也许可以再多谈谈你是如何看待智能体融入OpenAI的长期计划的。你是怎么想的?我认为令人兴奋的是这一系列的模型,特别是O1,以及它的所有后继者,正是这些模型将使得这一切成为可能。因为你终于有了推理的能力,能够将复杂的问题分解成更简单的问题,并对它们采取行动。

Sam Altman:我认为2025年将会是一个非常重要的年份。我的意思是,聊天界面很棒,我认为它们都在这个世界上扮演着重要的角色,但我不确定。当你问ChatGPT或其他智能体一些问题时,它不仅仅是你可以得到一个快速的回应,或者即使你得到的是15秒的思考时间,但是它也会给你一段漂亮的代码或什么。但你可以与某个东西在环境中或与其他人进行多期交互,就像思考了相当于人类多天的努力一样,而且就像一个非常聪明、非常有能力的人类一样,让事情发生。

我们都说,这是下一个趋势,这即将到来,这将是另一件大事,我们只是像谈论进化中的下一个模型那样谈论它。我会打赌,而且在我们真正开始使用这些智能体之前,我们真的不知道结果会怎样,但这将是对世界运作方式的重大改变。当然,我们很快就会习惯它,人们很快就会适应任何新技术,但这将是在很短的时间内的一个非常显著的变化。

Kevin Weil:是的,这太神奇了。有人谈到适应新能力和AI模型的速度,实际上我记得是关于Waymo的,他们谈到在使用Waymo的前十秒钟,他们还在想,哦,我的天,这东西我们要小心点,但十分钟后,他们就说,哦,这真的太酷了。

Sam Altman:我认为人们会让智能体为他们做一些本需要一个月才能完成的事情,而智能体只需要一个小时就能完成,而且做得很好。然后,他们可以同时处理十个这样的任务,接着是一千个。到了2030年或什么时候,我们回头看时会说,“是的,这就是人类应该具备的能力”,但这其实是人类过去需要花费数年时间磨练的技能,很多人过去都曾花费数年时间磨练这些技能。我现在只需要告诉计算机去做,一个小时甚至一分钟就完成了。

Kevin Weil:是的,这也是拥有一个出色的开发平台的好处之一,因为,你知道,我们会进行实验,当然也会构建一些智能体相关的东西。我认为,就像我们现在正在突破今天的可能性的边界一样,像Cognition这样的团队正在做一些令人惊叹的事情,Harvey和Case Text也在语言翻译方面做着很酷的事情。就像,我们开始看到这些东西开始起作用了。

Sam Altman:而且我认为,随着我们继续迭代这些模型,拥有一个这样的开发平台对我们来说最有趣的一点之一就是,可以见证人们构建这些体验时不可思议的速度和创造力。

开发者们,这是我们心中非常重要的存在,也是我们首先关注的人。这真是太棒了。我们中的许多人都是从构建平台开始的,但这些模型的能力和伟大体验的大部分都是由在平台上构建的人们所创造的。我们将继续尝试提供出色的第一方产品,但我们知道,那将只是世界上人们构建的应用程序、智能体或任何其他事物的很小、很狭窄的一部分。看看过去18到24个月里世界上发生了什么,真是令人惊叹。

Kevin Weil:我们继续聊聊智能体方面。你认为当前计算机控制智能体的主要障碍是什么?

Sam Altman:安全性和一致性。就像,如果你真的要给一个智能体点击你电脑的能力,那么你对这个系统的稳健性、可靠性和一致性就会有很高的要求。从技术上讲,我认为我们离能力上实现它已经很近了。但智能体的安全和信任框架,我认为那将是长期的任务。

Kevin Weil:现在我要问一个与之前某个问题几乎相反的问题。你认为安全性是否会成为一个误报,实际上它会限制公众获得那些能够使世界变得更加平等的关键工具的机会?

Sam Altman:老实来讲,这种情况有时确实会发生。我们会努力找到平衡。但如果我们完全独立,完全不在乎安全性和一致性,我们能否更快地推出O1?是的,我们可以那样做。但那会付出代价。会有很多事情出错。

我很自豪我们没有那样做。我认为O1的代价是可控的,但到了O3或什么时候,那种代价就会立即变得令人难以接受。所以,从保守的一方开始,我认为人们并没有抱怨,比如,“语音模式不会说冒犯性的话,我真的很希望它能说,来点正式的幽默,让它冒犯我吧。”

你知道吗?我其实大部分时候都同意你的观点。如果你试图让O1说出冒犯性的话,它大部分时间应该遵循用户的指令。当然,也有很多情况下它不应该这样做。但是,当我们引入新技术时,我们有一个很长的历史传统,那就是从保守的态度开始。我们改变世界,但起步时总是小心翼翼。

我们试图给社会一些适应的时间,我们试图理解真正的危害与那些更理论化的危害之间的区别。这是我们对待安全性的方法之一。当然,并不是所有人总是喜欢这样做,甚至我自己也不是总是喜欢。但是,如果我们是对的,认为这些系统会像我们想象的那样强大,并且会像我们认为的那样迅速发展,那么我认为从保守的态度开始是有道理的。而且,随着时间的推移,我们喜欢逐渐放宽限制。我完全同意。那么,

Kevin Weil:对于将AI作为核心功能的初创公司来说,下一个大挑战是什么?

我来说吧,我有想法了。我认为其中一个挑战是,我们也面临着这样的挑战,因为我们也在自己的模型基础上构建产品,那就是试图找到前沿领域。你想要构建的产品,这些AI模型正在迅速发展,如果你为AI模型今天已经做得很好的事情构建产品,那么它今天会表现得很好,但明天就会显得过时。

所以,你想要为AI模型几乎还不能做的事情构建产品。你知道,也许早期使用者会为此买单,而其他人则不会,但这只是意味着,当下一个模型发布,我们继续做出改进时,那个之前几乎不能实现的应用场景,你将会是第一个实现的,并且它将会非常惊人。

但是,要找出这个边界真的很难。我认为,最好的产品将会在这个边界上被构建出来。

Sam Altman:完全同意。另外,我想补充的是,一项技术就能成就一家初创公司,这是非常诱人的想法,但基本上和事实都不相符。无论新技术或新的技术头衔有多么酷,这都不能成为你逃避建立一家具有持久性或随时间积累优势的伟大公司所需做的所有艰苦工作的借口。

我们听到很多初创公司说“ORC”,这就像是一件很常见的事情,比如“我能做这个不可思议的事情,我能提供这个不可思议的服务”。这看似是一个完整的答案,但它并不能让你免除任何商业上的正常法则。你仍然需要建立一个良好的商业实体和战略地位。

我认为现在行业的一个错误在于,在AI令人难以置信的兴奋和上升期,人们很容易忘记这一点。

Kevin Weil:这是一个很有趣的问题。语音模式就像是直接接入人类API。你如何确保这种具有明显能力和操纵性的强大工具可以被正确的使用?

Sam Altman:是的,你知道,语音模式对我来说真的很有趣。这是我第一次觉得自己被AI欺骗了,当我在玩它的第一个测试版时,我无法控制自己。我是说,我有点……就像我仍然会说“请切换到GPT”一样。但在语音模式下,我不自觉地使用了正常的ICD。我被深深地说服了,就像它可能是一个真正的人一样。显然,它只是在我大脑中的某些电路上作弊,但我真的在语音模式下感受到了这一点。而且我现在仍然有点这种感觉。我认为这是我们将开始面临的一个更普遍问题的例子,即随着这些系统变得越来越强大,并且我们试图使它们与人类的交互尽可能自然,它们将会触及我们大脑中进化出来处理其他人的部分。

你知道,有一些关于我们不想做的事情的明确界限,比如我们不想进行奇怪的特征来增长黑客攻击,或者进行模糊的社会操纵行为。但还有一些事情则不那么明确。

你希望语音模式尽可能自然,但一旦跨越了“恐怖谷”,它至少在我这里,会引发某种反应。就像我对ChatGPT说“请”和“谢谢”,没问题,这可能是应该做的。但你永远不知道结果会怎样。而且我认为,这确实指出了我们必须开始分析的安全性和一致性问题。

Kevin Weil:好吧,回到实际问题上。Sam,O1什么时候支持函数工具?你知道吗?在今年年底之前。我们真的有三件事想要加入到产品中。

我们会把这个记录下来,带回研究团队,让他们看看我们有多迫切地需要这个功能。我是说,我们真的有几件事想要加入O1,同时,你也知道,这是一个平衡问题,我们是应该更早地把这个产品推向世界,开始从你们的使用中学习,还是从一开始就推出一个完全成熟、具备我们之前推出的所有模型都具备的功能的产品。

我真的很期待看到系统属性、结构化输出和函数调用等功能加入O1,我们会在今年年底之前实现。这对我们来说也非常重要。

Sam Altman:除此之外,因为我忍不住想要再次强调这一点,我们会加入所有这些功能,以及你们要求的更多功能。

这个模型将会变得非常快、非常好。就像我们现在还处于非常早期的阶段,这就像是GPT 2规模化的时刻,但我们知道如何达到GPT 4的水平,我们现在已经有了实现GPT 4所需的基础。而且,除了计划构建所有这些功能外,我们还要计划让模型本身迅速变得更智能。希望你们明年再回来时,能感受到比从GPT 4到现在的这一年的O1更大的进步。

Kevin Weil:你真正欣赏竞争对手的哪个功能或能力?

Sam Altman:我觉得谷歌的笔记本功能超级酷。它们叫什么来着?Notebook LM。我今天早上起得很早,然后在推特上看了一些例子,我就想,这太酷了。这就是一件很好、很酷的事情。而且,我觉得世界上推出新颖、不同事物的人还不够多,大多数都是老一套的东西。但今天早上这让我很开心。

Kevin Weil:是的。它做得非常好。我真正欣赏这个产品的一点就是,它的形式本身就很有趣,而且他们还把播客风格的语音做得非常出色。他们有很好的麦克风。他们的声音很悦耳。就像你们在推特上看到的那样,有人说,把领英简介交给Notebook LM,它就会有两个播客来回谈论你有多棒,以及你这些年来的所有成就。

我觉得Anthropic做得很好。在“project”上,它对我们之前做的GPTs进行了不同的尝试。GPTs的寿命更长一些,一旦构建好就可以反复使用。“project”的理念有些相似,但更偏向于临时性,旨在快速建立、使用一段时间,然后就可以放弃了。这种不同的思维模式确实有所不同。我认为他们在这一点上做得很好。

好了,我们快要进入观众提问环节了。在OpenAI,你们是如何平衡你们认为用户可能需要的东西与他们今天实际需要的东西之间的关系的呢?

Kevin Weil:我觉得这又回到了我们之前所说的,即尝试为模型能够几乎做到但尚未完全做到的事情进行构建。但这确实是一个真正的平衡问题。我们每周通过ChatGPT为超过2亿人提供支持。你也不能说,现在很酷,但要花三个月时间处理这个bug,或者我们有个很酷的东西即将推出,所以先不管这个问题。你必须解决当下的需求。这里存在一些非常有趣的产品问题。

我是说,我面对的是一群非常了解AI的人。想想世界上所有从未使用过这些产品的人吧。他们仍然是世界上的绝大多数。你基本上给他们提供了一个文本界面,而文本界面的另一端是这种不断进化的外星智能,他们从未见过或与之互动过,而你试图教给他们所有实际上可以做的事情,所有它可以帮助你、融入你的生活、为你解决问题的方式。

但人们不知道该如何使用它。你知道,就像你进来时,人们只是打字说“嗨”。然后你回应说“嘿!很高兴见到你,我今天能怎么帮你?”然后,你就会想,我不知道该说什么。最后,你有点失望地离开,心想,我并没有看到其中的魔力。

因此,如何解决这个问题是一个真正的挑战。我是说,我们每个人都有一百种不同的方式使用ChatGPT和一般的AI工具,但教给人们这些方式,然后随着模型每个月都在变化,突然获得了这些能力,而我们人类获得能力的速度远远比不上,这是一系列非常有趣的问题,我知道你们也会以不同的方式解决这些问题。

Sam Altman:我有一个问题,你们还认为O2是极限吗?没有人敢打赌说自己比O2更聪明。因此,我们面临的一个挑战是,我们知道如何去做那些我们认为在广泛的任务中至少可能比我们都更聪明的事情。然而,我们仍然必须修复那些bug,并解决那些“嘿,你好吗?”之类的基本问题。

我们坚信的是,如果我们继续推动模型智能的发展,人们将会用它做出令人惊叹的事情。我们的目标是打造世界上最聪明、最有帮助的模型,并找到各种方式来利用它并在此基础上进行构建。对我们来说,这确实是一个从完全以研究为中心向其他方向发展的过程,我们确实必须修复那些bug,并使它变得超级易用,而且我认为我们在平衡这两方面时已经做得更好了。

不过,作为我们文化的一部分,我认为,我们相信如果我们能持续推动智能的发展,即使你跑到这里的6.0.4版本,人们也会基于它构建出令人惊叹的东西。

Kevin Weil:是的,我认为这是你们理念的核心部分,你们做得很好,总是推动我们将智能的前沿成果融入到我们的产品中,无论是API还是我们的第一方产品。因为很容易就会固步自封,坚守那些你熟悉且效果良好的东西,但你们总是推动我们去尝试那些前沿的东西,即使它们现在可能还不太完美,因为它们很快就会变得非常出色。所以我总是觉得这是一条非常有帮助的建议。

下一个问题,你们是否计划为Agents专门构建模型,即那些更擅长推理和调用工具的模型?

Sam Altman:具体来说,我们计划打造擅长Agents的模型,这将是我们在接下来几个月里的关键优先事项。具体来说很难实现,因为我觉得这也只是我们如何不断打造更智能模型的一种方式。所以,是的,我们确实需要构建一些像工具使用、函数调用这样的功能,但它们更多只是辅助,我们主要还是想打造世界上最出色的推理模型。这些也将是世界上最好的基于Agents的模型。

Kevin Weil:酷,我们开始回答观众的问题吧。

观众:你们在公司内部使用自家技术的程度有多深?有没有一些可能不太明显的有趣例子?

Sam Altman:嗯,我们的模型甚至在训练完成之前就会提供给内部使用。我们使用检查点,并鼓励员工尽可能地去使用它们,同时尝试构建新的内部方式来探索模型的能力,并将它们用于我们自己的开发。

无论是基础元素研究还是其他任何事情,我们都会尽可能地这样做。当然,我们总是会对外部世界的创造力和人们所做的事情感到惊讶。但基本上,我们通过内部试用来摸索每一步,了解接下来应该推动什么,哪些可以产品化,以及模型真正擅长的是什么。这就是我们整体的做事方式,我们就是这样摸索着前进的。

我们目前还没有基于O1的员工,但是,你知道,当我们进入agent的世界时,我们会尝试的。比如,我们会在内部系统中部署一些能够帮助你的东西。有些事情正在朝那个方向发展,比如我们的客户服务,我们内部有机器人,它们可以处理大量的外部问题,并在Slack等平台上回答内部员工的提问。

Kevin Weil:我们的客户服务团队可能由于这个原因,规模只需原来的20%就足够了。我知道马特·奈特和我们的安全团队已经广泛讨论过我们在内部使用模型的各种方式,来自动化一系列安全事务,你们也知道,以往那些可能需要人工处理的过程,因为人手不足而无法审查所有传入的信息,现在有模型可以帮助我们从噪音中分离出信号,并向人类突出显示他们需要查看的内容,诸如此类的事情。

所以,我认为内部有很多这样的例子,人们可能低估了——你们可能对此并不感到惊讶,但我与之交谈过的很多人却感到惊讶——它的意义不仅在于在某个地方使用模型,而是实际上要使用擅长做不同事情的模型链,并将它们全部连接在一起,以获得一个端到端的流程,这个流程在你所做的事情上非常出色,即使单个模型存在缺陷和错误。

观众:谢谢。我想知道你们是否有计划分享模型以供离线使用?因为通过知识蒸馏,我们可以分享自己的模型,这真的很酷,但在很多用例中,我确实想要拥有一个它的版本。

Sam Altman:我们对此持开放态度。但这并不是当前路线图上的高优先级事项。如果我们有更多的资源和带宽,我们会去做的。我认为有很多理由需要本地模型。但这并不是今年就能实现的事情。

观众:你好。我的问题是,政府中有很多机构,无论是地方、州还是国家层面,都能从你们正在开发的工具中受益匪浅,但我在部署它们时可能有些犹豫,因为存在安全、数据和隐私方面的担忧。我想知道,一旦实现AGI,是否有任何与各级政府、农村政府建立合作伙伴关系的计划。因为显然,AGI可以帮助解决世界饥饿、贫困、气候变化等问题。政府必须参与其中,对吧?我只是想知道,如果真的有那一天,你们是否有一些计划来应对。

Kevin Weil:是的,我认为,你其实不应该等到AGI实现。你应该从现在开始,对吧?因为有一个学习的过程,而且我们现在的模型也可以做很多好事。我们已经宣布了一些与政府机构的合作伙伴关系,包括一些州,比如明尼苏达州和其他州,比如宾夕法尼亚州,还有像美国国际开发署这样的组织。

能够帮助世界各地的政府适应并从中受益,实际上是我们的一个巨大优先事项。在所有地方中,政府似乎是一个可以自动化大量工作流程、提高效率、减少繁重工作等的地方。所以我认为我们现在就能做很多好事。如果我们现在就开始做,随着模型的不断改进,我们离AGI越来越近,这些好的地方将长期累积。

观众:我有一个非常开放的问题。你们对开源的看法是什么?无论是开源权重还是一般讨论,你们对开源持什么态度?

Sam Altman:我认为开源是非常棒的。同样,如果我们有更多的资源和精力,我们也会那么做。我们曾几次非常接近要大力投入开源工作。

然后,你们知道的,真正困难的是优先级排序。我们把其他事情放在了它前面。部分原因是,现在世界上已经有了很多很好的开源模型,我认为那个领域——我们总是最终会得到一个非常好的设备端模型。我认为那个领域已经得到了相当好的服务。

我确实希望我们能在某个时候做些什么,但我们想找到一些我们觉得如果不做,我们就会和他们一样,无法在基准测试中取得一点点进步的事情。因为我们认为这里有很多潜力。现在很多好东西都已经有了。但是,从精神和哲学的角度来看,我很高兴它存在,我会想要做出贡献。

观众:为什么高级语音模型不能唱歌?作为这个问题的后续,如果这是一个公司层面的法律问题,比如版权等,那么你们对于自己产品的安全性思考和给予我们开发者某种——我不知道,签署正确的文件以便我们可以让我们的语音不唱歌——这两者之间是否存在差异?你能回答这个问题吗?

Kevin Weil:哦,你们知道吗,有趣的是,萨姆也问过同样的问题。为什么这个东西不能唱歌?我想让它唱歌。我以前见过它唱歌。实际上,有些事情我们显然不能让它做,对吧?我们不能让它唱有版权的歌曲,我们没有版权等。

然后有些事情是它不能唱的,你可以让它唱生日快乐,那完全可以,对吧?我们也想要那样。我认为这主要是,基本上,在有限的时间内说“不”,然后再把它加进去,是比较容易的,但是要把事情做对是很微妙的,你们知道,如果把这些事情搞错,是有惩罚的。所以这就是我们现在所处的位置。我们真的希望模型也能同步发展。

Sam Altman:我们等到语音模型发布,这是非常公平的。我们本可以等待更长的时间,把分类和过滤器做得更好,比如区分哪些是音乐,哪些不是,但我们决定还是先发布,然后再改进。但我认为萨姆已经问过我四五次为什么我们还没有功能。

我的意思是,我们仍然不能提供一些可能会让我们陷入困境的功能。你们知道的,开发者或者第一方等可能会因此遇到麻烦。是的,我们可能会有一些不同,但我们会遵守法律。

观众:你能稍微谈谈你对于上下文窗口未来发展的看法吗?以及你如何看待上下文窗口增长与RAG之间的平衡,以及这个时间线是怎样的?

Sam Altman:我认为这有两种不同的看法。一种是它什么时候能达到像正常长上下文那样的水平?比如,上下文长度为1000万或类似的数字,足够长以至于你可以把任何东西扔进去,而且速度足够快让你感到满意。我预计每个人都会在这方面取得相当快的进展,而这将成为一个常态。但到目前为止,长上下文的使用率比我预期的要低得多,这很奇怪。

但我认为,有很多原因导致了这种情况,我不想深入讨论太多。然后是另一个问题,就是我们什么时候能达到上下文长度为不是1000万,而是10万亿的程度?比如,我们什么时候能达到把你这辈子见过的所有数据都扔进去的程度?

你们知道,那将是一整套不同的事情。这显然需要一些研究上的突破。但我假设无限上下文会在某个时候实现。而这个“某个时候”是在不到十年的时间内。那将是我们使用这些模型的完全不同的方式。即使达到非常快且准确的1000万标记的上下文,我预计这也将在几个月内实现,或者类似的时间长度。人们会以各种方式使用它。那将会很棒。但是,是的,非常长的上下文我认为将会实现,而且非常有趣。

观众:随着语音以及你们自推出技术以来用户经历的所有其他变化,你们对于新的交互层、形态以及我们如何实际上与这项技术交互以使我们的生活变得更好的愿景是什么?

Kevin Weil:我喜欢这个问题。坦率地说,这是我们经常问自己的一个问题。这里有一个权衡,我认为开发者可以在这里发挥非常重要的作用,因为这里存在通用性和特异性之间的权衡。

我给你举个例子。几周前,我在首尔和东京,我和一些没有共同语言的人进行了多次交谈,而且我们身边也没有翻译。以前,我们可能无法进行交谈。我们可能只是相视一笑,然后继续前行。我拿出手机,我说,GPT,我希望你成为我的翻译,当我讲英语时,我希望你讲韩语,你听到韩语后,我希望你再用英语重复一遍。这样我就能够进行完整的商务交谈,这太神奇了。你想象一下,这不仅对商务有影响,想想旅游和人们去那些他们可能一句当地语言都不懂的地方的意愿吧。

你可以产生这些真正令人惊叹的影响,但在ChatGPT内部,那仍然是我必须做的事情,就像ChatGPT还没有为此进行优化一样,对吧?就像你希望口袋里有一个这样的数字通用翻译器,它只需要知道你想要做的是翻译。这并不难构建。

但我认为,我们努力想要构建一个能够为很多人做很多事情的应用程序。就像我们之前已经谈过几次的那样,它要保持与变革的速度以及能力同步。我认为,像你们这样的观众群体中的创造力也有巨大的机会来参与,并解决我们没有想到、没有专业知识去做的问题。最终,如果我们能让更多的人使用AI,这个世界将会变得更加美好。这也是为什么我们非常荣幸能为你们所有人服务。

Sam Altman:我要补充的唯一一点是,如果你只是想想所有即将融合在一起的东西,在未来的几年里,不会太久,你将走到一块玻璃前,你说出你想要的东西,他们将会有令人难以置信的推理模型、与一切相连的agent,还会有一个视频模型像为你定制的界面一样向你回传。

这是一个请求。无论你需要什么,它都会实时呈现给你,你将能够与它进行交互,你能够像在流中点击一样说出不同的事情,而它将去做那些过去可能需要人类数年时间才能弄清楚的事情。而且,它将动态地渲染你需要的一切,这将是一种完全不同的使用计算机的方式。也是让事情在世界上发生的方式。那还需要一段时间。

Kevin Weil:太棒了,谢谢你,这是一个很好的结束问题。

NotebookLM帮助回顾DevDay开幕式

AI Charlie:十月快乐,我是你的AI联合主播Charlie。我们最悠久的传统之一是以播客的形式来报道重要的人工智能和机器学习会议。我们会深入探讨会议现场的氛围,并穿插与关键人物的简短对话片段,帮助你感受仿佛亲临现场般的体验。

报道今年的Dev Day具有更大的挑战性,我们被要求不得录制开幕的主题演讲。因此,代替开幕演讲的是由病毒式流行的NotebookLM深度剖析团队——我的新AI播客竞争对手——为你提供一个七分钟的总结,概括了所有宣布的内容。

NotebookLM:我们这里有一大堆关于开放人工智能的文章和博客帖子,都是关于2024年Dev Day的。

NotebookLM 2:是的,有很多内容值得深入探讨。

NotebookLM:你对人工智能的新进展非常感兴趣?

NotebookLM 2:确实如此。而且看来OpenAI有很多要宣布的内容,新的工具,公司内部的变化,很多方面都有所涉及。

NotebookLM:没错。特别是当你对如何在现实世界中应用人工智能感兴趣的时候,你知道实际的应用,我们将重点讲述这一点。比如说这个实时API,他们发布了这个,对吧?如果希望人工智能听起来不那么像机器人的话,这似乎是一个重要的进步。

NotebookLM 2:这可能会产生巨大的影响。实时API可能会完全改变我们与人工智能互动的方式。想象一下,如果你打断了你的语音助手,它能够处理这种情况。

NotebookLM:或者,进行真正的对话。

NotebookLM 2:没错,不再局限于我们现在习惯的那种笨拙的一问一答。

NotebookLM:而且他们实际上展示了这项技术,不是吗?我看到有关于一个旅游应用,语言应用,甚至还有一个让人工智能订外卖的例子。

NotebookLM 2:那些演示非常有趣,并且展示了这个实时API可以被用来做许多事情。顺便说一句,这项技术背后的原理也很有趣。它使用持久的WebSocket连接和一种称为函数调用的技术,所以它可以实现实时响应。

NotebookLM:这个函数调用听起来有点复杂。你能解释一下它是怎么工作的吗?

NotebookLM 2:想象一下给AI提供一个工具箱,信息,能力,各种各样的东西。以旅行agent的演示为例,通过函数调用,AI可以从数据库中提取细节,比如说关于Fort Mason的信息,附近的餐馆等。

NotebookLM:啊,我明白了。所以它不局限于它已经知道的信息,而是可以去寻找需要的信息,就像一个人类的旅行agent一样。

NotebookLM 2:正是这样。而有人在Hacker News上指出一个很酷的细节,API实际上会提供一个文本版本的所说内容,所以你可以存储并分析这些内容。

NotebookLM:真是个聪明的设计。看起来OpenAI在设计这个API时考虑到了开发者使用的便利性。但是说到OpenAI,除了他们的技术外,还有一些关于内部变化的消息。他们是不是说不再是非营利组织了?

NotebookLM 2:确实是,并且这引起了人们的讨论,这是一个重大转变。人们自然会好奇这将如何改变OpenAI的未来。例如,转向非盈利模式后,他们是否会拥有更多的研究资金?他们会同样关心确保人工智能惠及所有人吗?

NotebookLM:是的,这是一个大问题,尤其是伴随着OpenAI领导层的一些变动,对吗?我看到他们的首席研究员离职了,还有研究副总裁,甚至是CTO。

NotebookLM 2:确实如此。许多人将这些离职与OpenAI结构的变化联系在一起。

NotebookLM:这让人猜想背后到底发生了什么。但他们仍在不断推出新产品,比如整个微调的概念就引起了我的注意。

NotebookLM 2:没错,微调。基本上是采用预训练的AI模型,然后对其进行定制化。

NotebookLM:所以你得到的不是一个通用的AI,而是一个为特定工作定制的AI。

NotebookLM 2:确实如此。这对企业来说开辟了许多可能性,想象一下你可以用公司的数据来训练AI,比如按照你的品牌指南来沟通。

NotebookLM:所以就像是有一个专门为公司训练的AI?

NotebookLM 2:这就是理念所在。

NotebookLM:现在他们也在图像领域做微调,他们称之为视觉微调。

NotebookLM 2:他们在这一领域做的工作非常惊人,尤其是在医学领域。

NotebookLM:比如利用AI帮助医生作出诊断。

NotebookLM 2:是的。AI可以被训练识别成千上万张医疗图像,然后可能发现连训练有素的医生也会忽视的病症。

NotebookLM:说实话,这有点吓人。如果它出错了怎么办?

NotebookLM 2:这个想法并不是要取代医生,而是给他们提供另一种工具,帮助他们做出更好的决策。

NotebookLM:好吧,这说得通。但是训练这些AI模型肯定很昂贵。

NotebookLM 2:确实如此。所有的这些token加起来是很贵的,但是OpenAI宣布了一项叫做自动提示缓存的功能。基本上,如果AI遇到以前见过的提示,OpenAI会给折扣。

NotebookLM:嗯,就像是AI的常客计划。

NotebookLM 2:有点类似。很高兴他们试图使成本更低,他们也在做一些叫做模型蒸馏的工作。

NotebookLM:你用一些专业词汇来形容。那是什么意思?

NotebookLM 2:想象一下,就像是一个食谱,你可以把一个非常复杂的食谱简化到最基本的成分。

NotebookLM:使其简单化,但味道不变。

NotebookLM 2:就是这样。模型蒸馏就是取一个大的强大的AI模型,创建一个更小、更高效的版本。

NotebookLM:所以它变得更轻量级,但依然具备相同的能力。

NotebookLM 2:正是如此。这意味着更多的人可以使用这些强大的工具,他们不需要超级计算机来运行它们。

NotebookLM:所以他们在让AI变得更容易获取,这很棒。

NotebookLM 2:确实是。说到强大的工具,他们还谈到了他们的新模型O1,就是他们一直宣传的那个,据说是向前迈出的一大步。

NotebookLM:是的,O1。听上去很未来主义。从我读到的内容来看,它不仅仅是更大、更好的语言模型。

NotebookLM 2:没错。它是一种不同的方法。

NotebookLM:他们说它可以真正地推理,对吧?

NotebookLM 2:它的训练方式不同,他们使用强化学习训练O1。

NotebookLM:所以它不只是找到之前看到的数据中的模式。

NotebookLM 2:不仅仅是这样。它还可以从错误中学习,提高解决问题的能力。

NotebookLM:给我举个例子。O1能做什么GPT 4.0做不到的事?

NotebookLM 2:OpenAI展示了一些O1在数学方面的出色表现,比如高级数学,复杂的编程。这些都是GPT 4.0难以解决的问题。

NotebookLM:所以你的意思是,如果我要写剧本,我可以选择GPT 4.0;但如果我想解决一些复杂的物理问题,我可以选择O1。

NotebookLM 2:差不多是这样。虽然有一些权衡,O1需要更多的计算资源,也需要更长的时间才能得出令人印象深刻的结果。

NotebookLM:嗯,这说得通。更多的资源,更多的时间,更高的质量。

NotebookLM 2:正是如此。

NotebookLM:听起来它还在开发中,对吗?他们还有什么计划增加的功能吗?

NotebookLM 2:哦,有的。他们提到了系统提示,可以让开发者设置一些基本规则来控制其行为,他们还在努力添加结构化输出和函数调用功能。

Alex Volkov:等等,结构化输出?我们刚才没有谈到这个吗?

NotebookLM 2:我们谈过了。这是指AI的输出格式易于使用。

NotebookLM:对。所以你不必花整天的时间去理解它给出的东西,他们考虑到这些细节是件好事。

NotebookLM 2:是为了让这些工具更加易用。

NotebookLM:太好了!因为这些东西非常强大。

NotebookLM 2:确实如此。整个开发者日活动的内容非常多。新的工具,OpenAI的重大变革,以及关于人工智能未来的这些大问题。

NotebookLM:确实如此。希望这次深度剖析有助于理解其中的一些内容,至少这是我们在这里尝试做的事情。

OpenAI开发者体验工程师Ilan

AI Charlie:新的实时API的演示涉及包括语音模式下的函数调用功能,并且演示了从我们友好的本地OpenAI开发者体验工程师兼草莓店老板Ilan Biggio那里购买覆有巧克力的草莓的过程。

swyx: 嗨,Ilan,欢迎来到Lanespace。谢谢你。我刚刚看到了你的精彩演示,品尝了美味的草莓。你打扮得就像一个真正的草莓商人。真是全副武装。能讲讲演示的筹备情况吗?演示背后有什么故事?

Ilan: 真的很有趣。其实这是我在发布前几个月一直在思考的事情。拥有一个可以打电话的人工智能是我个人很久以来的愿望,一旦我们在内部启动了这个项目,我就开始着手开发。然后这个项目逐渐成型,成为了一个内部演示,并且大家觉得很有意思,于是我们就想把它带到舞台上作为演示之一。

swyx: 那么你在搭建过程中遇到了什么技术问题?你是最早一批使用语音模式API的人之一,你在集成Twilio时有没有遇到问题,就像你用函数调用做的那样,以及表单填写元素?我注意到你有一些意图要完成,然后当信息缺失时,语音会提示你,模仿店员的角色。

Ilan: 是的,我认为从技术角度来看,处理音频和流媒体本身就是另一个层面的问题。即使抛开AI和这些新功能不说,这也非常困难。当有提示时,它会按照对话的方式跟进。它不是一步一步地基于请求提出正确的问题,而是函数调用本身是旁支末节。你需要提示它调用函数,但处理这些并不比处理助理流或聊天完成流更复杂。

swyx: 我认为API感觉很相似,就像所有API都在流式传输一样,其实很熟悉。那么,函数调用方面的情况是否也是如此?你们在演示环境中展示了大量的日志,里面有些什么?人们应该了解些什么?

Ilan: 是的,事件的名字可能与我们在聊天完成中拥有的流事件不同,但它们代表的是类似的事情。比如函数调用开始、参数开始、参数增量以及函数调用结束。方便的是,我们发送了一个包含完整函数的日志,我就用了那个。

swyx: 那么,有哪些限制人们需要注意?比如,我们在录音前讨论了随机给店主打电话并让他们接AI电话的敏感性。

Ilan: 最近在这方面有新的规定,所以我们需要非常谨慎。你不能随便用AI打电话给别人,对吧?那就像垃圾电话。你不希望有人用AI给你打电话。但我认为最重要的是获得你要打电话的人的同意。作为草莓店的老板,我已经同意了用AI给我打电话。除此之外,你得小心,个人比商家更敏感。我认为对于商家而言,你有更多的回旋余地。而且商家也有动力想要接收AI电话。特别是当它们在做生意时。这有点像是加入预订平台,你就会接触到更多。但仍然,这还是一个灰色地带。所以我认为每个人都应该谨慎行事,弄清楚这些规定。法律是最近才出台的,我没有足够的时间去研究,我也不是律师。

swyx: 好的,合理的说法。还有一个问题,这有点像agent。你用了状态机吗?你用了框架吗?

Ilan: 没有。你只需要把它放入上下文中,然后让它一直运行直到通话结束。其实并没有循环,因为API基于会话,每次你说话都会触发一次调用,并且每次函数调用后都会触发一次生成,这也是一个不同之处。它几乎是天然地在一个循环内,只要处于会话中即可,不需要状态机。我认为这类似于例行程序的概念,只是一个步骤列表。它会柔和地坚持这些步骤,但通常效果很好。

swyx:步骤是在提示中吗?

Ilan: 是的,步骤就在提示里。第一步做这个,第二步做那个。

swyx:如果我想在对话中途更改系统提示呢?

Ilan: 你可以。老实说,我没有过多尝试,但我知道你可以。

swyx:是的,太棒了。我注意到你称其为实时API,而不是语音API。所以我假设它是以语音为起点的实时API。

Ilan: 我无法想象还有什么可以是实时的?好吧,我想像ChatGPT的语音模式一样,我们也演示了视频,对吧?实时图像。所以,虽然我不确定具体时间线,但我猜测接下来可能是这些功能。你可能需要直接与开发团队谈谈。当然。但你不能保证他们的时间表。但鉴于目前演示的功能,我觉得不会出现只有实时文本API的情况。

swyx:也不会有纯实时文本API,对吗?

Ilan: 嗯,但这确实是一个实时文本API。你可以只用文本,我不知道你为什么这么做。但在这里,文本到文本并没有很大的意义。我认为你不会获得太多的延迟减少。但语音到文本却非常有趣。因为你可以在防止音频回应的同时强制函数调用。这样你可以做一些非常可靠的UI控制。我们当时不确定这是否会奏效,因为你有一个声音回答,整个人格设定,这稍微有点风险。但如果你去掉音频输出,让它总是输出函数,那么你可以得到一个非常可靠、命令式的架构。实际上,我也想以这种方式与很多事物交互。

swyx:单向语音。

Ilan: 是的,你不一定想听到回音。有时候,有一个输出语音很好。但我觉得我并不总是想听到输出语音。通常我不需要,但确实,能够和它说话非常棒。

swyx:酷。你想评论一下其他宣布的内容吗?关于缓存,我注意到的一个特点是无需代码变更。我很期待文档,因为肯定有很多细节,比如缓存了什么,缓存多久。因为之前热焓缓存只有五分钟。我当时想,好吧,但如果我每五分钟没有一个调用呢?

Ilan: 说实话,我一直忙于实时API和制作演示,还没来得及阅读其他的信息。发布会太多了,但我认为我非常期待看看所有的蒸馏(distillation)技术是如何工作的。这是我们已经做了一段时间的事情了,而且我已经看到了很好的结果,比如从GPT-4到GPT-3的蒸馏。得到了几乎相同级别的函数调用,支持数百个函数,所以这非常有说服力。因此,我觉得更容易实现的蒸馏技术让我非常兴奋。

swyx:我明白了。这是一个工具吗?我看到了评估(evals)。

Ilan: 是的。

swyx:蒸馏产品是什么?

Ilan: 说实话,这不是很清楚。我想让那个团队自己来解释这个问题。

swyx:好吧。感谢你抽空来聊。当然。精彩的演示,设计得很漂亮。

Ilan: 是的,我想说的是,最初Wanderlust的创造者是Simon和Carolis,后来我接手并构建了语音部分和语音呼叫组件。所以这是一个团队合作的结果,整个PI团队在整个调试过程中也做了大量工作,与他们一起工作真的非常愉快。

OpenAI 产品主管 Olivier Godement

AI Charlie:随后,Latent Space小组采访了Olivier Godmont,他是OpenAI平台的产品负责人,领导了整个Dev Day的主题演讲,并介绍了我们今天讨论的所有主要的新功能和更新。

swyx:好的,我们现在和Olivier Godmont在一起。很高兴看到你今天的主题演讲。准备像这样的Dev Day有什么幕后的故事吗?

Olivier Godement:这基本上来自几个方面。第一,去年的Dev Day收到了非常好的反响,开发者、初创公司的创始人、研究人员都希望花更多时间与OpenAI交流,我们也希望花更多时间和他们在一起。所以对我们来说,再次举办这样一个美好的会议是很自然的事。其次,我们走向全球。我们在巴黎等地举办了几场活动,为了遇见更多的开发者,今年我们将前往旧金山、新加坡和伦敦。

swyx:是的,我觉得OpenAI对开发者的接触在2022年的时候就有所感受,那时候人们试图构建像ChatGPT这样的应用,却没有函数调用等功能。这也是我开始自己组织会议的原因之一,就像是我们自己的小开发者会议。但现在看到OpenAI Dev Day,看到这么多面向开发者的OpenAI产品,我觉得这是非常鼓舞人心的。

Olivier Godement:完全同意。正如我说的,开发者是连接技术和未来的关键人物。他们能够看到一种能力,一种底层的技术,并想到,嘿,我看到了这种应用程序或用例可以被实现。因此,在推动AGI的发展方向上,与开发者合作对我们来说是显而易见的选择。

Alessio:更重要的是,你们几乎从未有过等待名单,这和其他的发布相比是非常少见的。你们从缓存到实时语音API都有所涉及,Shawn还在推特上发了长篇推文,让大家知道了这些发布。那么,真正最难准备的是什么呢?或者说是最后24小时有什么是你不知道是否能顺利运作的?

Olivier Godement:是的。我认为,涉及到的功能发布是最具挑战性的,团队为此已经工作了一个月。对我来说,OpenAI最新的一项是实时API。原因有几个,一方面,这是一种新的模态;另一方面,这是我们第一次推出基于WebSocket的API,这是过去一个月来需要最多工作的领域。从开发者的角度来看,要确保我们的现有安全措施能够很好地适应实时音频输入和输出。

swyx:是的,有什么设计选择是你想强调的?例如,我认为对于WebSockets,你只是接收一系列事件。它是双向的。显然,我没有太多经验。我认为很多开发者将不得不接受这种实时编程。那么你们的设计理念是什么,或者说对于探索这一领域的开发者有什么建议?

Olivier Godement:核心的设计假设基本上是如何实现人类级别的延迟。我们做了一系列测试,平均而言,人类之间的对话延迟大约是300毫秒。这就是设计原则,即以此为目标反向设计技术。我们评估了几种选项,最终选择了WebSocket。这是其中一个设计决策。另一个重要的设计决策是提示缓存,目标是从一开始就自动化,无需开发者更改任何代码。这样一来,开发者不需要了解什么是提示前缀,或者缓存持续多长时间,我们尽可能地自动处理这些问题。这也是一个重大的设计选择。最后,在蒸馏和评估方面,我们借鉴了我在Skype工作时学到的理念,即大多数开发者成功所需的最少步骤是什么?因为在微调时有很多方式可能会出错,最终得到一个表现不佳的模型。因此,我们的设计理念是帮助那些经验不足的开发者在几分钟内就能达到一个好的水平。那么我们如何在产品流程中实现这一点呢?

swyx:是的,我对视觉微调有些担心,因为我不知道自己不知道的东西,尤其是在视觉方面。对于文本,我可以很容易地进行评估。但在视觉方面,比如说我尝试识别停止标志,为什么会这么难?如果我进行了微调,会不会失去其他方面的性能?视觉方面有很多未知数,我认为开发者们还需要解决这些问题。

Olivier Godement:当然,视觉将会开启一个新的评估领域。因为你说得对,用图像判断正确与否更难,但我们可以告诉你的是,我们已经对视觉微调进行了几周的alpha测试,并且观察到了比文本微调更高的性能提升,我们对此印象深刻。但确实,我们预计从单一模态转向文本和图像的开发者们将需要更多的测试和评估,以确保模型的良好表现。

Alessio:模型蒸馏和评估绝对是令人感兴趣的。不仅仅是作为一个模型提供商,而是作为一个平台提供商。人们应该如何看待真实性源?你希望OpenAI成为所有提示的真实性来源吗?因为人们有时会在不同的数据源中存储数据.随着模型的发展,这是否也会保持一致?因此你不必担心重构数据或未来模型结构的问题。

Olivier Godement:我们的愿景是,如果想成为真实性来源,你必须赢得这个地位,我们不会强迫人们向我们提供数据。对我们来说,存储数据没有任何价值主张。现在大多数开发者使用现成的一刀切模型,如GPT-4.0。但我们展望未来几年,大多数开发者将拥有自动连续微调的模型。随着模型使用的增加,传给模型提供商的数据越多,模型就会自动地进行微调,并针对一些评估集进行评估。这样一来,你就不必每个月当有新的快照时上线尝试新东西。这是我们正在努力的方向,尽管我们现在离这个目标还很远,但评估和决策产品是我们朝着这个方向迈出的重要一步。通过这种方式,你可以设置评估数据,我们可以记录你的完成数据,并代表你进行一些自动化操作。

Alessio:如果你与OpenAI共享数据,就可以免费进行评估。人们应该怎样考虑何时值得这样做,何时不值得?有时候人们对自己的数据保护过度,但实际上这些数据并没有那么有用。但是开发者应该如何考虑何时进行数据共享,何时不共享?

Olivier Godement:你对此有何看法?默认政策仍然是一样的,除非你选择加入,否则我们不会训练任何API数据。从反馈中我们看到评估可能是昂贵的,如果你运行大量的样本评估,你的成本会显著增加。这是第一个问题。第二个问题是,我们希望每次OpenAI发布新的模型快照时,都能确信对于开发者关心的任务没有退步,要做到这一点,我们需要获得评估数据。因此,这是两全其美的情况。我们补贴评估费用,并在发布新模型时使用这些评估数据来确保我们朝着正确的方向前进。在我看来,这是双赢的,但再次强调,完全是自愿的。许多开发者可能不愿意分享他们的数据,但这对我来说完全没问题。

swyx:我认为免费评估是一个非常好的激励。这是一个公平的交易,你们获得数据,我们获得免费评估。

Olivier Godement:我们会对个人身份信息(PII)进行匿名化处理。我们对实际敏感数据没有兴趣,我们只想在真实的使用案例中有良好的评估。

swyx:我想评估评估本身,我不知道这个话题有没有被提起过。有时候评估本身可能是错误的,而且没有办法告诉我。

Olivier Godement:所有刚开始使用大语言模型的人,都会觉得评估很简单,你知道,他们一生都在做测试。但当你真正开始评估,理解所有边缘情况时,你会意识到,哇,这本身就是一个领域。所以,是的,好的评估是困难的。

swyx:但我觉得有一点,我刚刚与Brain Trust交谈,我认为他们是你们的合作伙伴之一。他们也强调基于代码的评估,而不是你们的低代码方式。我看到的是,也许还有一些你没有展示的内容。YC的体验更像是低代码评估,对吧?你们是否会支持基于代码的方式,例如我在OpenAI的评估平台上运行代码?

Olivier Godement:当然。我们的目标是满足开发者的需求,目前需求更多的是易于开始的评估,但如果需要暴露一个评估API,让人们传递现有的测试数据,我们也会这么做。所以,没有哲学上的分歧。

swyx:是的。我认为这实际上是在变成AWS,就像人工智能云一样。我不知道这是否是有意识的战略,或许根本不需要是有意识的战略。你们将提供存储、计算,我不知道网络会是什么样子。网络可能是缓存或CDN,一个提示CDN。但这都是AI版本的一切,你觉得呢?

Olivier Godement:无论我们提供给开发者的什么,我都认为好的模型只是构建好应用的一部分,你需要做的第三个模型就是评估。例如,你可以拥有世界上最好的模型,但如果在黑暗中摸索,很难建立起信心。因此我们的理念是:整个软件开发堆栈实际上是在用大语言模型重新发明。OpenAI不可能建造一切,我们专注于最接近模型本身的工具,这就是为什么你会看到我们在微调、蒸馏、评估等方面投入较多,因为我们认为这些工具放在一个地方是有意义的。像LLMOps这样的工具,它们离模型较远,我不知道你是否想要进行非常复杂的提示管理或其他工具,我并不确定OpenAI是否有这样的优势来建立这类工具,这就是我们目前的看法。但说到底,理念非常简单,策略也非常简单,就是出现在开发者希望我们出现的地方,这就是我每天努力做的事情。

swyx:是的,我还有更多关于语音的问题,以及你想要收集的反馈。我认为我们应该花更多的时间在语音上,因为我觉得这是最大的亮点。我想知道OpenAI在实时方面的未来是什么样的?因为很明显视频是下一步。你们已经在ChatGPT桌面应用中有这项功能。开发者是否将永久地与OpenAI进行Socket通信?我们该如何为这种未来编程?

Olivier Godement:我认为随着多模态的发展,实时正迅速成为构建应用的最佳体验。我的预期是我们会看到相当数量的应用程序转向实时API。放眼望去,直到现在为止音频其实非常简单。在网页和应用中,音频基本上像是二等公民,你基本上只为那些没有选择余地的用户做一个音频聊天机器人,他们可能阅读困难,或者不太懂技术。所以相对于文本来说,音频通常是次选。但当你与现实世界中的大多数人交谈时,他们中的绝大多数更喜欢说话和听,而不是打字和写作。

swyx:我们先说话后写字。

Olivier Godement:正是如此。我相信在新加坡对你来说也是如此。对我来说,在欧洲,我的朋友们每天收到大量的WhatsApp语音信息,人们实际上更倾向于这样做。

swyx:是的。

Olivier Godement:全是语音。它更容易有更多的感情,你能够更好地表达观点。我个人对实时API和音频的整体雄心是使音频和多模态真正成为一流的体验。如果你是YC里那些超级大胆的初创公司之一,你想构建下一个十亿用户的应用,你应该让它成为首选,并让它感觉像是一个真正的好产品体验。这就是我们的抱负,我认为这可能会变得非常重要。

swyx:是的。我认为人们对于语音的一个问题是,目前在高级语音模式下发布的版本存在拒绝的情况。你们有一个启发性的模型规范。我想Joanne参与了这方面的工作。她说,我们不希望总是拒绝一切。实际上,即使在某些情况下不适合工作环境也是可以接受的,是否有API可以让我们声明“不适合工作环境”也可以接受?

Olivier Godement:我认为我们会达到那个目标。你知道的移动规格已经做得很好了,它做得太好了!我们并不是要管理你能否说出粗话之类的。你知道,有些场景,比如,我在写好莱坞剧本,我想要说一些台词,这是完全可以接受的,你知道吗?所以我认为我们将要发展的方向是,总会有某些行为是我们明确禁止的,因为它们违反了我们的服务条款,但之后还会有一些合法的但风险较高的主题,比如脏话或者是不适合工作场合的内容。我们会通过API公开一些可控的安全设置,让你可以说,这个主题可以,这个主题不可以。你想要安全拒绝的阈值有多敏感?我认为这就是我们要走的方向。

swyx:一个安全API。

Olivier Godement:是的,某种程度上是这样。

swyx:我们从来没有过这样的东西。

Olivier Godement:是的。

swyx:因为现在是你决定了某个东西,然后就那样了。这就是我不使用OpenAI语音的主要原因,因为它过度限制了,过度拒绝我们必须解决这个问题。

Alessio:我们试图用语音唱歌。

swyx:而你们却把唱歌锁定了。

Alessio:是的。

swyx:但我明白音乐可能会带来麻烦。那么,总体而言,你希望从开发者那里听到什么?我们有很多开发者在观看,你知道,你想要什么样的反馈?特别是今天有什么不确定的事情,有什么反馈可以帮助你做出决定。

Olivier Godement:我认为,在今天的活动之后已经变得很清楚,开放的方向已经变得非常清晰了。投资推理能力,投资多模态,同样投资于工具使用,如函数调用。对我来说,最大的问题是,我们应该把重点放在哪里?我认为我们确实需要这三个方面,所以我们将会继续推进。

swyx:雇佣一万人,或者其实不需要,构建一堆机器人。

Olivier Godement:正是如此,那么让我们来看看O1是否足够智能以解决你们的问题?让我们暂时抛开现有的模型,对于你们想要构建的应用,O1在推理方面是否足够强大,还是说我们还需要进一步提升?预览版是不够的,我

swyx:需要完整版。

Olivier Godement:是的,这就是我们所需要的反馈类型。基本上,他们希望开发者们能告诉我们,通常Sam一直在说的一件事——说起来容易做起来难,但我认为方向是对的——作为一个开发者或创始人,你基本上想要构建一个目前模型稍微难以实现的应用,对吗?就像是,你认为它是可行的,有时却不行。这样,我们就有了一个目标,可以说,好吧,几个月后的下一个模型发布时,你需要实现的就是这个。通常来说,这种类型的反馈是最有用的,我可以直接采纳。

swyx:太棒了,非常感谢你们。

OpenAI 开发者体验主管 Romain Huet

AI Charlie:接下来是与Roman Huet的对话,他是Pod的朋友、AI工程师世界博览会闭幕式演讲者,同时也是OpenAI的开发者体验负责人,他将分享他的精彩现场演示,并为AI工程师们提供关于所有新模式的建议。

Alessio:好,我们现在来自OpenAI开发者日的现场。我们与Juan在一起,他刚刚进行了两个很棒的现场演示。他是Latentspace的朋友,所以感谢你抽出时间。

Romain Huet: 感谢你们今天在这里并与我们共度时光。

swyx:是的,我非常感激你们组织这次活动。我知道这需要额外的工作,但这真的显示了你们对接触开发者的关心。

Romain Huet:当然,当我们回顾OpenAI的使命时,对我们来说非常重要的是让开发者参与到我们所做的每一件事中,确保他们拥有构建成功应用所需的所有工具。我们真的相信开发者们总会发明出我们自己无法构建的想法、原型以及AI的乐趣因素,所以这里能有大家真是太棒了。

swyx:我们请到了你们的Michelle来做节目嘉宾。那期节目很棒,她非常认真地说API是通往AGI的道路。我们YouTube评论区的人说API不是AGI。我说,不,她是认真的。API是通往AGI的道路。就像你们不会构建所有东西,而是由开发者来做,对吗?

Romain Huet:当然,是的,这就是拥有一个平台和生态系统的价值所在,拥有众多优秀的建设者可以创建所有这些应用。我们之前肯定讨论过这一点,但现在已经有超过三百万的开发者在OpenAI上构建应用,看到这么多的能量投入到创造新事物中是非常令人兴奋的。

Alessio:我想说的是,你今天在台上构建了两个应用,一个是国际空间站追踪器,另一个是无人机应用。最难的部分应该是打开Xcode并设置好环境。现在,模型这么好以至于它们可以完成剩下的所有事情。你有两种交互模式,一种是使用类似GPT的应用来制定计划,另一种是使用光标来应用一些更改。人们应该怎样考虑最佳的方式来消费编码模型,特别是在全新的项目和正在尝试修改的现有项目中。

Romain Huet:是的。O1 Preview和O1 Mini现在可以在API中使用,其中一个真正酷的地方在于你可以在你喜欢的工具中使用它,比如我使用的Cursor,这也是像Devin这样的认知工程agent在他们自己的软件中可以使用的东西。对于Xcode来说,它还没有深度集成到Xcode中,所以我并排使用了ChatGPT。但很酷的是,我可以指示O1 Preview作为我的编程伙伴和头脑风暴伙伴来为这个应用制定计划,同时还可以整合所有的文件并按照我想要的方式架构这个应用,所以我所要做的就是把代码导入Xcode并零次构建这个应用。顺便说一句,我没有传达出这有多么重要,但现在你可以从头开始创建一个iPhone应用,描述很多复杂的细节,而你的愿景在一分钟内就能实现。这真是非常出色。

swyx:我得承认,我有点怀疑,因为我打开SQL时,我对iOS编程一无所知,你知道该把文件粘贴在哪里,你可能事先设置了一点点,所以我得回家测试一下,我需要ChatGPT桌面应用来告诉我该点击哪里。

Romain Huet:是的,Xcode和iOS开发近年来随着Swift和SwiftUI的引入变得更加容易。回想Objective-C时代,或者说是Storyboard时代,对于新人来说进入门槛更高。但现在有了Swift和SwiftUI,他们的开发者工具非常优秀,现在当你结合O1作为你的头脑风暴和编程伙伴时,它就像你的建筑师,我认为这是描述O1的最好方式。人们问我GPT-4.0能否做到其中的一些事情?当然可以。但我认为它只会开始输出代码,对吧?我认为O1的优点在于它可以制定计划。例如,在这个iOS应用的情况下,它必须从API获取数据,查看文档,了解如何解析JSON,数据存储在哪里,以及如何连接这些组件。这才是它的真正闪光之处。

Mini或Preview哪个是人们应该使用的更好的模型?我认为人们应该都试试看,我们显然对即将推出的O1感到非常兴奋,我们已经分享了它的评估结果。但我们注意到O1 Mini在数学、编程、所有STEM领域都非常出色。如果你的头脑风暴或科学部分需要更广泛的知识,那么选择O1 Preview会更好。但是我在第二个演示中使用了O1 Mini,并且效果非常好。我所需要的一切都是基于代码的,像是前端、后端的架构,处理一些UDP数据包、WebSocket等非常具体的工作,它在这方面表现得非常完美。

swyx:然后也许我们可以谈谈语音和Wanderlust,这个不断带来惊喜的应用程序,准备这一切的背后故事是什么?

Romain Huet:你知道,有趣的是去年Dev Day的时候,我们在想什么样的演示应用能够展示辅助体验。我一直认为旅行是一个很好的应用场景,因为你有图片,有地点,可能还需要翻译,有许多与旅行相关的需求,所以去年我想,让我们用一个旅行应用,这就是Wanderlust是如何诞生的。但当然,一年前我们只有基于文本的助手,而现在,当语音功能出现时,我们想为什么不把这个应用重新带回来作为一个暗示呢?如果我们能够更好地通过语音进行互动会怎么样?

在这个新的演示中,我展示了与应用进行实时对话的能力,但我们也想强调的一个点是调用工具和函数的能力。例如,在这个案例中,我们使用Twilio API拨打电话,与我们的AIagent接口,但开发者们如此聪明,他们能想到许多我们自己未曾想到的好主意,对吗?但如果你能有一个911调度员,或者一个比我们今天习惯的更加智能的客服中心,将会有许多实时应用场景,这真是太棒了。

swyx:是的,有时候实际上你应该终结电话树。不应该再有拨打1

Romain Huet:当然,还有

swyx:西班牙语,你知道吗?是的,就是这样。或者随便什么。我不知道。

Romain Huet:我的意思是,即使你开始讲西班牙语也会直接解决问题,你甚至不必问。所以我很期待未来我们不再需要与那些遗留系统交互。

swyx:是的。那么你在流环境中进行函数调用。基本上它是WebSocket,可能是UDP,基本上不能保证一次准确交付。构建这个过程中你遇到了任何编码挑战吗?

Romain Huet:是的,这稍微复杂一些。我们还认为目前发布的API是一个Beta版本。我们认为还有更多可以添加的功能。它确实包含了函数调用和工具。但我们认为,如果你想让它非常健壮,在客户端,你可能需要使用WebRTC作为客户端,对吗?而不是直接大规模地使用Socket。这就是为什么我们有LifeKit和Agora这样的合作伙伴,如果你愿意使用它们的话,我相信在未来我们会有很多更多的合作伙伴。但无论如何,我们会持续迭代,并确信未来几周开发者的反馈对我们来说至关重要。

swyx:是的,LiveKit已经公开表示他们在Chachapiti应用程序中使用了它。它是完全开源的,我们可以直接与OpenAI一起使用,还是我们使用LiveKit Cloud或其他东西?

Romain Huet:现在我们发布了API,也发布了一些示例代码和参考客户端供人们开始使用我们的API。我们还与LiveKit和Agora合作,所以他们也有自己的方式帮助你开始使用实时API。根据使用情况,人们可以选择使用哪种方式。如果你是在客户端工作,或者是在服务器端处理语音交互,你可能有不同的需求,所以我们希望支持所有这些情况。

Alessio:有没有什么特别想让AI工程社区反馈的,比如说具体的API端点或者类似的东西?

Romain Huet:如果我们退一步看,今年的Dev Day与去年完全不同,并且在几个方面都有所不同。但其中一个方面是我们希望保持亲密感,比去年更加亲密,我们希望确保社区能够感受到感谢。这就是为什么我们有社区演讲等等。关键是从最优秀的开发者和AI工程师那里学习。今天早上我们发布的大部分内容,包括诸如prompt缓存、在playground中快速生成prompt的能力,甚至是视觉微调等功能,这些都是开发者们向我们提出的要求。所以,我想留给他们的主要信息是:我们正在推进的产品路线图很大程度上受到了他们的影响和他们的工作成果。因此我们非常喜欢收到反馈——无论是来自高级功能请求,还是具体到API端点的细节,我们都喜欢接收反馈,这就是我们构建这个API的方式。

swyx:是的,我认为模型蒸馏也是,虽然可能是最无聊的,但实际上会被大量使用。

Romain Huet:确实如此。而且我认为也许是出乎意料的,因为如果我这几天正确解读了Twitter上的反应,很多人期望我们塑造的是用于语音到语音的实时API。我认为开发者们并没有预料到我们会提供更多用于蒸馏的工具,但我们确实认为这将是件大事,对吗?如果你正在构建的应用程序需要低延迟、低成本,但又要求高性能、高质量,蒸馏将会非常有用。

swyx:是的。我刚才参加了蒸馏会议,他们展示了从O4蒸馏到O4 Mini的过程,性能仅下降了约2%,但成本降低了50倍。

Romain Huet:我也在那里,为了展示超人的使用案例受到了Ebola客户端的启发。是的,那真的很不错。酷,感谢邀请我参加,再次感谢你们今天在这里。

AI Charlie:很高兴有你们在。正如你可能在刚才的谈话中了解到的,全天有许多专注于特定新功能的会议。

OpenAI API 主管Michelle Pokras 及 Simon Willison

AI Charlie:在接下来的环节中,我们很高兴请回了两位曾经的节目嘉宾,这是我们第二季《Latent Space》播客听众们非常喜欢的形式。来自API团队的Michelle Pokras最近加入了我们的讨论,谈论了结构化输出,并且在今天的开发者日上进行了更新的长篇演讲,详细介绍了新结构化输出模式的实施细节。我们也得到了她对我们之前节目中讨论的VoiceMode API的最新看法,现在这个API终于正式宣布了。她与我们节目的老朋友及超级博主Simon Willison一同出席,Simon也在我们的2023年开发者日那一集中作为嘉宾共同主持。

Alessio:太好了,我们现在回到了开发者日直播现场,欢迎回归的嘉宾Michelle以及回归的嘉宾兼联合主持人Fork。恭喜你们顺利完成直播。Simon写了一篇很棒的博客。

Simon Willison:我在等待第一个演讲开始时就开始了我的实时博客,使用GPT-4.0帮我编写JavaScript,并及时上线了,然后我整天都在实时博客。

swyx:你是Cursor的用户吗?

Simon Willison:老实说,我还没有真正投入Cursor的使用,我还没有花足够的时间去适应它。我现在更多的是从Cloud和ChatGPT中复制粘贴东西。挺有意思的。

swyx:我已经转向了Cursor,并且O1切换起来非常方便。

Alessio:你的工作流程是什么样的?

Michelle Pokrass:Code Co-pilot,是的,我和你们一样。Team Co-pilot实际上是让我加入OpenAI的原因,这是在ChatGPT之前就已经有的功能,它真的打动了我,所以我仍然在用它,但是一直想着试用Cursor,我觉得现在事情已经平静下来了,我会认真地试用一下。

swyx:更换工具是一项大工程。

Michelle Pokrass:是的,我已经很习惯了。

swyx:我的意思是,如果你想,你可以直接分支VS Code,制作你自己的版本。这其实是个愚蠢的想法,对吗?我们开玩笑说办一场黑客马拉松,唯一要做的事情就是分支VS Code,然后竞选出最好的版本。

Michelle Pokrass:不错的主意。

swyx:这实际上是个非常好的想法。今天发布了所有东西,恭喜。我知道我们稍微提了一下,但是大家都猜测Voice API即将到来,我们在节目中也谈到了它。那么,对于今天的发布你感觉如何?有没有什么设计决策是你想要突出的?

Michelle Pokrass:对此非常激动。团队已经为此工作了一段时间,这对我们来说是一个非常不同的API。这是我们第一个WebSocket API,因此有许多不同的设计决策要做。比如发送什么样的事件?何时发送事件?事件的名字是什么?连接时与后续消息时分别发送什么内容?

因此有很多有趣的决策。团队在测试过程中也拼凑出了非常酷的项目。我喜欢的一个是我们为API团队内部举行了一个小型黑客马拉松,有些人开发了一个小工具,可以用语音模式控制VIM,这样就可以通过语音命令来操作VIM,告诉它“创建一个文件”,它就会知道所有的VIM命令,并执行这些命令。我们一直在进行很多酷炫的开发,并且非常期待看到人们用它能创造出什么。

Simon Willison:我必须提一下今天的演示。Katja展示了一个太阳系的3D可视化,就像是WebGL太阳系,你可以与之交谈。这是我见过的最酷的会议演示之一。那非常令人信服。我真的很想要那个代码。我真的很希望那个代码能公开。

Michelle Pokrass:跟团队谈谈。我认为我们可以安排一下。

Simon Willison:绝对美丽的示例。这让我意识到,实时API,也就是WebSocket API,意味着现在建立一个可以直接交谈的网站变得容易了。就像建立一个可以与之对话的web应用并不困难,它可以调用不同的函数,与屏幕上的内容进行交互,对此我非常兴奋,有很多项目以前我觉得永远没有机会去做,但现在我想,你知道吗?花个周末的时间就能搞定。我可以做一个与数据交谈,与数据库交谈的小应用。通过一个小的web应用。这真是太酷了。

Michelle Pokrass:与PDF聊天,不仅仅是聊天,而是真正与PDF聊天。

Simon Willison:完全正确。而且这并不难实现,这才是最让人惊讶的地方。

Michelle Pokrass:是的。非常酷。当我第一次看到太空演示时,我确实感到震撼,我想在场的所有人都有同样的感受。我还觉得Romain的无人机演示也非常酷。

Simon Willison:那是一个超级有趣的演示。

Michelle Pokrass:今天我早上亲眼看到了,确实让我屏住了呼吸。

swyx:了解Romain,他可能在最后两天都在为此努力。不过,我很好奇你之前和Romain谈到关于WebSocket的不同层次的抽象。大多数开发者对此毫无经验,我对这个也没有经验。显然,存在RTC层,然后是WebSocket层,中间还有一些层次。

Simon Willison:并不多。我的意思是,通过他们构建的API,你可以直接从浏览器连接到OpenAI的WebSocket。实际上这只是普通的JavaScript。像你实例化WebSocket对象。从他们的示例代码来看,这看起来相当简单。问题是如果你这样做,你会发送你的API密钥。从任何人都可以看到的源码中。

Michelle Pokrass:是的,我们不推荐在生产环境中这么做。

Simon Willison:所以在生产环境中不行,这有点令人沮丧,因为这意味着你需要构建一个agent。所以我回家后必须搭建一个小的WebSocket agent,只是为了隐藏我的API密钥。我希望OpenAI能解决这个问题,我不想为了解决这一个问题而构建第1000个WebSocket agent。

Michelle Pokrass:我们也与其他一些解决方案提供商进行了合作。我们与Agora、LiveKit和其他一些公司合作。所以有一些现成的解决方案,不过我们听到了你们的声音。这是一个Beta版本。

swyx:是的,是的,我的意思是,你仍然需要一种解决方案,让用户可以输入自己的密钥,并且相信你。

Simon Willison:相信不会获取它?

swyx:对吧?

Simon Willison:差不多。我一直在构建很多用户自带密钥的应用,其中HTML和JavaScript由我提供,我把密钥存储在用户的本地存储中,而且永远不会传送到我的服务器。这可以工作,但他们怎么能信任我?他们怎么知道我不会发送另一段JavaScript来窃取他们的密钥?所以名这实际上涉及到加密背景。

swyx:这就是MetaMask做的事情。

Michelle Pokrass:公钥私钥机制。

swyx:为什么OpenAI不做这个?

Michelle Pokrass:我认为,就像大多数事情一样,有些真正有趣的问题。答案只是,这并不是优先级最高的,而且对于小团队来说不可能做到面面俱到。我听到越来越多的人提到需要类似使用OpenAI登录这样的功能。

Simon Willison:我需要OAuth。我希望用户可以通过ChatGPT认证,并得到一个令牌,这样我可以代表他们使用API,最多花费4美元,然后我可以发布我所有的小实验,目前这些实验都需要人们复制粘贴他们的API密钥,这把很多人都挡在门外。

Michelle Pokrass:完全理解,这是我们正在考虑的事情,敬请期待。

swyx:是的,现在我认为唯一可用的方案是OpenRouter,它的创始人以前是OpenSea的CTO,他做的第一件事就是为AI构建了一个类似MetaMask的解决方案。

Michelle Pokrass:完全正确。

Alessio:今天发布的最被低估的功能是什么?

Michelle Pokrass:视觉微调。视觉微调被大大低估了。过去两个月里,每当我与创始人交谈时,他们都说这是他们最需要的功能。许多人正在对非常定制化的格式,如政府文件,进行OCR识别,而视觉微调在这个用例上可以提供很大帮助。此外,边界框。人们发现视觉微调在边界框方面有了很大的改进。所以我认为它被忽视了,人们应该尝试一下。你只需要大约100张图像就可以开始。

Simon Willison:告诉我更多关于边界框的信息。我原以为GPT-4.0视觉版根本无法处理边界框。

Michelle Pokrass:是的,它在这方面表现并不出色,我们正在努力改进,但通过微调,你可以使其在特定用例下变得非常优秀。

Simon Willison:那很酷,因为我最近一直在使用Google Gemini的边界框功能,它非常非常令人印象深刻。

Michelle Pokrass:是的。

Simon Willison:能够为图像微调模型。我打算做的第一件事就是微调模型,以便区分不同的鸡,这很难,因为其中有三只是灰色的。所以这里有个小问题。

Michelle Pokrass:我最喜欢的新用例。

Simon Willison:我已经通过提示解决了这个问题。我给Claude展示了所有鸡的照片,然后问他,这是哪只鸡?但这还不够好,因为它会把灰鸡搞混。

Michelle Pokrass:我们可以缩小这个评估差距。

Simon Willison:这将是一个很好的评估。我对鸡的评估将非常棒。

Michelle Pokrass:我也对评估产品非常兴奋。这有点像是蒸馏功能的一个子发布,但人们一直在努力制作评估,当我第一次看到该流程有多容易制作评估并在我们的产品中实现时,我感到非常震惊,所以我建议大家真的试试这个功能。我认为这正是阻碍许多人真正投资AI的原因,因为他们很难判断是否适用于他们的特定用例。所以我们一直在努力使这一过程更简单。

Alessio:评估产品是否包括结构化输出测试?像函数调用之类的功能?

Michelle Pokrass:检查它是否匹配你的JSON模式。

swyx:我的意思是,我们已经有了保证的结构化输出,对吧?所以我们不需要测试它。

Michelle Pokrass:不是模式,而是,看,这些似乎很容易区分。我认为是这样的,所以我可能会调用一个函数。

Alessio:或者哦,我明白了。你会写错误的模式,错误的输出。以你可以做函数调用测试。

swyx:对。

Michelle Pokrass:我确定可以。我需要为你确认一下。

Alessio:是的。我们会确保它被

swyx:发送出去。

Alessio:你是如何思考API设计的演进的?对我来说,这是最重要的事情,即使是在OpenAI级别上,像聊天机器人,我可以理解API设计的样子,我也可以大致理解推理,尽管思维过程改变了一些东西。当你考虑到实时语音,再到agent,你如何思考API的设计及其形态?

Michelle Pokrass:是的,我认为我们是从最基本的功能开始的。然后随着我们知道这些功能是有用的,我们在此基础上构建。实时就是一个很好的例子,我们将实际在聊天完成中发布音频能力,这是最基本的能力。你提供音频输入,可以返回原始音频,并且它在请求响应层面上工作。但在构建高级语音模式的过程中,我们自己意识到,像在聊天完成中处理音频其实相当困难,这就促使我们构建了WebSocket API。因此我们确实从自己的工具中学到了很多,我们认为聊天完成功能不错,对于某些用例或异步任务来说是好的,但如果你真的需要的是实时API呢?并且随着我们与开发者的进一步测试,我们可能会发现需要在其上添加另一层抽象。比如说更接近客户端库的东西。但就目前而言,我们认为这是一个非常好的切入点。

Simon Willison:我有一个问题,如果我有一段半小时长的音频录音,目前唯一的方式是我调用WebSocket API并将它切分成小段JSON片段逐一发送。在这种情况下,我宁愿直接上传一个URL指向文件。

Michelle Pokrass:这是我们要做的事情。

Simon Willison:哦,感谢上帝。

Michelle Pokrass:是它已经在博客文章中提及了,我认为是一行代码,但它将在未来几周内推出。

Simon Willison:很快就会实现了。

Michelle Pokrass:是的,团队一直在冲刺,我们正在完善最后的一些细节。

Simon Willison:对长度限制有概念吗?

Michelle Pokrass:我不清楚具体限制。抱歉。

Simon Willison:因为我经常需要处理一小时长YouTube视频的文字稿,目前,我通过Whisper处理它们并生成文字稿,但如果能以多模态的方式处理这些视频将非常有用。

Michelle Pokrass:完全同意。我们非常兴奋,我们希望提供最基本的能力,并让使用变得更加容易。因此目标是两者兼顾。

Simon Willison:我刚意识到我能做什么,我做了很多Unix工具,像一些小的Unix命令。我希望能够将命令的输出流式传输到WebSocket API并大声朗读出来,这样我可以流式播放命令的输出结果。这应该可行,我认为你们已经提供了我所需的一切,这很酷。

Michelle Pokrass:是的。期待看到你的成果。

swyx:我听说有多种竞争性的解决方案。在选择WebSocket之前,你们也评估过其他选项。像服务端事件(Server-Sent Events),轮询等,你能谈谈你们对实时更新范式的看法吗?因为我认为很多工程师都研究过这类技术。

Michelle Pokrass:我认为WebSocket非常适合双向流媒体。在我工作的其他地方,比如Coinbase,我们也有一个用于价格数据的WebSocket API。我认为这是一种非常自然的格式。

swyx:所以这并没有引起太多争议?

Michelle Pokrass:我不认为有很大的争议。当然,我们确实探索了一些其他选项,但我们很快得出了WebSocket的选择。

swyx:酷。视频呢?

Michelle Pokrass:目前还不支持。

swyx:我其实希望今天能看到带有视频功能的ChatGPT桌面应用程序。

Simon Willison:我的问题是每秒一帧频率是多少?

swyx:我的意思是以整个1080p屏幕的视频帧为例,也许这太多了。WebSocket传输的数据块有什么限制?

Michelle Pokrass:我不清楚具体的限制。

Simon Willison:像Google Gemini,你可以在上下文中放入一个小时的视频,通过将其切成每秒十帧,它确实可行,所以我不确定,但Gemini的奇特之处在于,它非常擅长接收大量单帧输入。将会很有意思看看GPT-4.0能否处理这种输入。

Alessio:你还有其他的特性需求吗?今天对每个人来说都是漫长的一天,但你现在就在我的节目中。

Simon Willison:我的需求是我希望你们能为我处理所有账务。我希望我的用户能够运行我的应用程序,并希望他们用自己的用户ID调用你们的API,然后你们能说,哦,他们花了30美分,当达到一美元时切断,我可以查看他们花了多少钱。所有这一切,因为我现在不得不自己构建这部分,我真的不想这么做。我不想成为代币会计师,我希望你们为我处理代币账务。

Michelle Pokrass:是的,完全理解。这是很好的反馈。

swyx:那么这与你们的实际优先级相比如何?我觉得你们有很多优先级。他们在舞台上展示了多模态等功能。

Michelle Pokrass:很难说。我认为情况变化很快,那些影响用户采用的大障碍,我们觉得非常重要。这是一个滚动优先级列表。

swyx:没有辅助API更新。

Michelle Pokrass目前没有。

swyx:我希望有O1原生的辅助功能。是的,我以为它们会配合得很好。我们仍在

Michelle Pokrass:迭代格式,我认为辅助API存在一些问题。有些功能它做得非常好。我认为我们会继续迭代并最终实现一个非常优秀的功能。但你知道,还没有准备好,辅助API中的一些优点是托管工具,人们确实喜欢托管工具,特别是RAG。而有些不太直观的地方则是启动辅助API所需的API请求数量。

Simon Willison:挺复杂的。

Michelle Pokrass:是挺复杂的。是的,你需要创建一个助手,你需要创建一个线程,你知道,要做一大堆事情。所以我们确实在考虑这个问题。不应该这么难。

Simon Willison:目前为止我只用它来作为代码解释器。就像它是一个到代码解释器的API。

Michelle Pokrass:是的,我们希望修复这个问题,并使其更加易用。

Simon Willison:希望能在WebSocket上实现代码解释功能,那将非常有趣。

swyx:你是想自带代码解释器还是使用OpenAI的?

Simon Willison:我想使用他们的,因为代码解释是一个难题,涉及到沙箱等等。但是现在有一些作为服务的代码解释器。

swyx:现在已经有几个这样的服务了。因为,我认为你不允许任意安装包。哦,除非他们允许。

Simon Willison:他们实际上是用了你的黑科技代码。真的吗?

Michelle Pokrass:是的,

Simon Willison:而且我也是这么做的。

Michelle Pokrass:是的。你可以上传一个包,

Simon Willison:你可以编译C代码并在代码解释器中运行。我知道。你可以做到。那是个黑科技。噢,但这真是个光荣的黑科技。好吧。我已经让它用C语言为我编写了自定义的SQLite扩展,并在Python环境中编译和运行,而且真的管用。

swyx:是的,还有一些其他的。E2B就是一个例子,是的。实时版本的代码解释器会怎样发展会很有趣。

Alessio:太棒了,Michelle。谢谢你的更新。我们在上期节目的结尾处留了个悬念——语音模式将会是什么样子?显然你们知道答案,但当时你没有透露,现在你可以分享了。

swyx:是的,太棒了。

AI编程初创Cosine CEO Alistair Pullen

AI Charlie:我们今天的最后一位嘉宾,同时也是近期《Latent Space》播客中的熟悉声音,在今年的开发者日社区演讲中亮相。Cosine的Alistair Pullen给大家留下了深刻的印象。特别向Morphlabs的Jesse这样的听众致谢,他曾经来到这里讨论他是如何创建合成数据集来微调迄今为止为GPT-4创建的最大规模的LORAs的。

他从零开始达到了SWEbench以及SWEbench验证的最高得分记录。尽管由于他拒绝向SWEbench团队披露其推理轨迹而未得到认可。现在OpenAI宣布了R1预览版,令人惊讶的是,OpenAI团队出于竞争原因也对其推理轨迹进行了保密处理,但其表现仍然低于Cosine的genie模型。

swyx:欢迎回来,谢谢你接受我们的邀请。你刚刚在OpenAI开发者日上做了演讲,感觉怎么样?是他们主动联系你的吗?你们之间关系似乎很紧密。

Alistair:是的,我们和OpenAI上次见面时谈论了彼此所做的工作,OpenAI觉得我们在微调方面所做的工作值得分享。我当然也很认同这一点,但今天我分享了一些我们学到的新技巧。显然,这是一条十分曲折的道路,我们费了很大劲才发展到了现在,这些新技巧是我们为构建Genie而开发的。而且我分享了一些额外的信息,关于一些新技巧以及它们真正的工作原理。

如何生成数据集来向模型展示如何完成我们想要它完成的任务,这主要是我今天演讲的内容。他们主动联系了我,他们问你想在开发者日上演讲吗?我当然非常激动能有这个机会。他们说我基本上可以谈论与我所构建内容相关的任何话题,我说,这太棒了。我会谈谈微调,以及如何构建一个能够执行软件工程的模型。

swyx: 是的,当我们谈论时,O1还没有发布。你知道O1吗?

Alistair: 我不知道,我只了解到一些零碎的信息,对具体情况真的不知道。我知道有一个推理模型即将问世,但我不知道它会叫什么名字。我和其他人知道的一样多。当时它的名字是“Strawberry”。

swyx: 你是第一个将推理过程(即推理轨迹)作为IP隐藏起来的人。对吧?我现在感觉稍微得到了些许证实。但是现在,O1也在这么做。

Alistair:事实上,我想说,现在可以说你的模型的推理能力给了你优势。我们为生成这些类似人类的推理轨迹,投入在数据管道的工作量并不是毫无意义的。我们知道,这是为了解锁更多性能、让模型以特定方式思考的途径。在我们的模型中,我们希望它像软件工程师一样思考。

但是,我认为,OpenAI等其他公司在推理方面所采取的方法,确实向我们表明了我们从一开始就走在正确的道路上。甚至现在,我们已经开始用O1生成的推理轨迹,或者至少与O1并行生成的推理轨迹,来替换我们Genie模型中的一些推理轨迹。

并且我们已经开始看到从这一点开始性能上的提升。但是,回到你的观点上,关于整个保留的做法。我仍然认为这是一个正确的决定,因为其他人也决定不分享这些东西。这恰恰展示了我们是如何做事的,这也是我们目前的优势所在。

swyx: 作为创始人,他们还在舞台上提到了Cognition,谈谈你的感受吧。你知道,他们可能会说,“嘿,O1比我们好太多了,这让我们变得更好”。我也非常兴奋,因为现在突然间,它就像是为每个人提高了门槛一样,尤其是新创始人,他们应该如何思考呢?是担心新模型,还是像你说的那样,专注于核心功能(FP),并可能替换掉一些部分?

Alistair:就我们而言,我当然非常期待O1,因为在那时,推理过程显然已经深深地融入了模型中。如果我们去除所有的干扰和杂念,我们本质上是一家推理公司。对吗?我们想要以软件工程师的推理方式来推理。所以当我看到这个模型发布时,我立即想到,嗯,我可以提高我的管道输出的推理轨迹的质量,这样我的信噪比就会变得更好。然后,不是现在,而是在未来,我能够把这些轨迹训练到O1本身中。这样我也会获得更高的性能。

对我们来说,能够同时利用提示和微调的优势,这是一个非常好的处境。而且,从根本上说,我认为我们现在已经处于一个相当明确的位置,我们不必担心O2或O3出现时会发生什么。

这个改进过程会持续下去,就像我们从3.5升级到4时,我们就看到了这种情况,然后从4 Turbo升级到4.0,再从4.0升级到0.1,我们每次都看到了性能的提升。我认为,我给任何企业创始人的粗浅建议都是,尽量让自己处于可以利用这种C级提升的位置。

swyx: 你是否能够从将4.0在SWEbench Verified上的得分微调至高于O1这一事实中得到什么启发?

Alistair: 老实说,你在这方面比我更有洞察力。这是增加价值,这是一位有增值潜力的投资者。看到这一点本身就非常令人欣慰,因为我想,我们听到过一些人说,虽然人数不多,但确实有人说过,如果我可以推理,那么你们做推理的意义何在?这显示了我们生成的自定义推理中包含了多少有效信号。

再次强调,这是非常明显的事情。如果你把一件模糊的事物变得具体,它理所当然地就会在那件事上就会表现得更好。对吧?我们很高兴看到,即使我们所做的是一个较旧的模型,但我们依然轻松地胜过其他所有人。我确信,一旦我们能够训练O1,并且在使用O1对我们的数据集做更多改进后,这个差距还会继续扩大。

swyx:我不认为他们会允许你对O1进行微调,但也许他们会试试。我认为,OpenAI不想让你弄清楚的核心问题在于,你是否能使用一个开源模型来打败O1?你基本上已经证明了一个非O1模型可以打败O1的可行性。但他们整个L1的营销口号是,别白费力气了,别费心去拼接和调用多个思维链。我们做了些特别的事,有独门秘籍,你什么都不知道。而你的4.0版思维链推理作为一个可以像软件工程师一样思考的产品,相比他们会更胜一筹,但这也许不会持续太久。也许他们会让L1运行五个小时而不是五分钟,然后突然之间它就奏效了。我也很难说清。

Alistair:这很难预测。我的意思是,出于纯粹的好奇心,我们只是想尝试对405B模型在同一数据集上进行微调。比如在上下文窗口长度相同的情况下,对吧?这应该相当容易。我们还没做呢。说实话,我们一直忙于处理等待列表、产品发货、开发者日活动这些的,还有你知道的,为等待列表上的客户提供服务。所有这些不同的事情都排在了日程表前列,对模型微调很大程度上是好奇心作祟,我想试试看。

不过,这也为我们打开了一个新的方向。比如,如果有人有一个虚拟私有云(VPC),他们不能在那里部署OpenAI模型,但他们可能可以部署一个开源模型。从客户的角度来看,这也为我们打开了大门。所以,它可能会非常有用。我非常期待看到结果会如何。我猜测答案是肯定的

swyx:但可能很难实现。比如Reflection70b就是一个很糟糕的尝试。你们在这方面做得更好,这就是为什么我们请你们来参加这个节目。我很想看看如果人们想要OpenO1的话,是否会有OpenO1这样的东西。

Alistair:是的,我确定他们想要。一旦我们忙完了在旧金山的事情,我肯定会尝试一下。我今天实际上和一些人谈到了微调405B的事情,他们可能能让我们无负担地做到这一点,我不想自己去做所有的工作处理。所以,这个工作可能会很快就会开展。

swyx:今天发布的内容中,有什么让你特别兴奋的吗?比如提示缓存,我猜当你处理很多代码库时,它可能会很有帮助。有没有与视觉微调相关,特别是与UI开发相关的东西呢?

Alistair:就像我们之前谈到的,很有趣的是,我的联合创始人Sam,你已经见过了,我和他之前就讨论过进行视觉微调的想法。一年多以前,在Genie像现在这样存在之前,当我们收集原始数据集来做我们现在做的事情的时候,我们也把图像链接和图形资源等链接拉了进来。

我们一直没有机会使用它,但它是我们存储在里的东西。而且,再次强调,这是我特别兴奋的事情,特别是在UI方面。我们从实际向用户交付这个产品中学习到最多的一件事情是,它是一个非常糟糕的衡量模型能力的指标,所以,当人们使用Genie进行React开发时,对我们来说,不可能知道它写的东西是否真正做到了它想要做的事情。所以,使用微调功能来帮助评估我们输出的内容也是非常有用的。而且,相对应的,比如这里有一个我想要的UI,我认为这也将是非常有用的。

总的来说,最让我印象深刻的是蒸馏技术。我想我们最终可能会在某些地方使用它。它广泛地向我展示了OpenAI的方法,他们将构建许多我们内部在使用时不得不拼凑在一起的工具,从工具的角度来看,只是为了让我们的生活变得更加轻松。

我曾与微调团队的负责人John深入交谈过这件事。但有一堆工具是我们内部不得不为处理模型、处理数据集而构建的,没有这些工具的话处理过程很快就会变得一团糟,我们非常希望OpenAI能够构建这些工具。它并不是我们的竞争优势所在,但它确实意味着我们不必再去构建和维护它们了。因此,我认为这是微调产品和API整体成熟度方面不错的开头,就John即将看到的那些早期产品而言,我认为他们会继续朝这个方向发展。

swyx: 们有没有一个非常,活跃的LLMOps工具生态系统。你们在构建自己的工具之前没有评估过这些吗?

Alistair: 我们确实评估过,但我认为从根本上来说,在很多方面,它都不是一个足够大的痛点,让我们觉得“哦,我们绝对必须外包这个”。在很多地方,你完全可以在一两天内拼凑出一个脚本来,然后将其连接到我们已有的内部工具UI上,然后你就有了你需要的东西,每当你需要新东西时,你只需要把它加上去就可以了。

但是对于所有这些LLM操作工具,我从来没有因为真正觉得是关键的痛点而去过多的关注它们,这绝对不是贬低它们,我确信很多人觉得它们很有用,但就我们公司而言,我们从来没有觉得需要它们。所以OpenAI打算构建这些工具是很好的,因为有这些工具存在肯定很方便。但这并不是说我会考虑从外部购买类似的东西。

swyx: 好的。语音模式会纳入Genie吗?

Alistair: 也许有一天会,那确实很酷。但我不确定,我这么认为。

swyx: 你是我们问过的第一个人,我们一直在问每个人这个问题。

Alistair: 哦,好吧,它目前与我们所做的工作相去甚远。但我确实认为,就像这次谈话一样,如果我们想让它成为一个真正的AI软件工程同事,那么肯定在某种程度上可以构建语音模式。这个问题甚至还在构思阶段,在与Genius讨论我们如何构建后续内容时,就提到过可以通过语音来讨论问题。我认为那可能会很有用,但老实说,那将是我们有时间时才考虑添加的功能。很不错的功能。

swyx: 最后一个问题。在你的演讲中,你提到了很多关于你如何整理你的数据和分布等等的内容,在我们坐下来之前,你谈到了必须使数据集多样化。

Alistair: 是的,那你从中有什么感想吗?当我们上次见面时我告诉你我们宣布了等待名单,现在我们已经让一些人离开了等待名单。这很有趣,因为就像我在播客上可能提到的那样,我们必须对我们为Genie的V0版本所收集的数据混合和数据集非常挑剔。

再次回到你的观点上,比如JavaScript、JavaScript、JavaScript,还有Python,对吧?它里面有各种形式的JavaScript。但事实证明,当我们把它交给最早期的alpha用户(例如,我们推出时找的一些用户)时,有些人是在用C#代码库来使用它。

C#目前大约占我们整体数据混合的3%。当他们尝试用C#代码库时,他们没有得到像用Python代码库时那样的性能水平。他们显然不希望有糟糕的体验,但能够将这与我们实际看到的客观数据混合相关联起来是很好的。

我们所做的就是进行了一些小的补充微调,即我们采用通用的Genie模型,并针对给定的特定语言领域的数据进行了一些增量微调。我们已经看到了由此带来的改进。所以,再次强调,这是让人们使用它并给你反馈、告诉你它哪里做得不好的“火线洗礼”的好处之一。

因为这是我们之前无法提前知道的事情。所以我想随着时间的推移,当我们把它推广给越来越多的人时,我们的数据混合将变得更加全面和具有代表性,可以反映我们用户的实际需求,而不是我们认为他们需要什么。

swyx: 是的。

Alistair: 所以每个客户都将有自己的微调版本,可以选择是否对你的代码库进行模型微调。这不会在基础定价版中提供,但你确实可以这样做。它将遍历你的所有代码库历史,学习一切是如何发生的,然后你将拥有一个仅针对你的代码库进行增量微调的Genie。这是企业真正喜欢的功能,太完美了。

Notebook LM复盘OpenAI Dev Day

NotebookLM:OpenAI似乎正在超越仅仅构建这些令人印象深刻的AI模型的阶段。一位专家甚至称他们为“AI界的AWS”。

NotebookLM 2:AI界的AWS。

NotebookLM:对。

NotebookLM 2:那么,当我们谈论AI时,这究竟意味着什么呢?

NotebookLM:这意味着,他们不再只是提供这种原始的计算能力,而是在构建一个完整的生态系统。包括微调这些模型的工具、提高效率的蒸馏技术,以及一系列新的评估工具。哦,还有对实时能力的极大重视。

NotebookLM 2:你知道,他们不再只是给我们提供原料,而是像提供了一个完整的厨房。

NotebookLM:没错,他们正在为未来的AI应用打下基础,他们设想了一个未来,你可以用AI构建几乎任何东西。

NotebookLM 2:我明白了。其中一个真正吸引我眼球的工具是函数调用。他们在那个旅行agent演示中使用了它,还记得吗?这究竟是怎么工作的?

NotebookLM:函数调用就像是给AI访问外部工具和信息的权限。想象一下,AI不再只是拥有所有预先编程好的知识,它还可以像人一样上网搜索、预订航班,甚至点披萨。

NotebookLM 2:所以,它不再是一个静态的百科全书,而是像给AI配备了一部可以上网的智能手机。

NotebookLM:是的,确实如此。而且这与他们对实时交互的关注紧密相关,对吧?他们设想了一个未来,AI能够像人类一样瞬间做出回应。

NotebookLM 2:这将彻底改变游戏规则。

NotebookLM:没错!想象一下那些真正理解你的语音助手,或者无缝的实时翻译。

NotebookLM 2:再也没有语言障碍了。

NotebookLM:确实如此。但这只是冰山一角。他们真的相信这种实时能力是使增强现实(AR)真正普及的关键。

NotebookLM 2:好的,所以OpenAI正在构建这个AI平台,并强调实时交互。这如何转化为实际结果呢?

NotebookLM:嗯,这正是事情变得真正有趣的地方。让我们来谈谈O1模型,以及开发者如何利用它来真正推动可能性的边界。

NotebookLM 2:O1模型,大家都在谈论它。甚至有一位开发者说,他们仅仅通过向O1描述就构建了一个完整的iPhone应用程序。这是炒作吗?

NotebookLM:我认为炒作背后肯定有一些实质性的东西。O1令人着迷的地方在于,它不仅仅关乎它生成的代码,更在于它似乎能理解逻辑。

Alex Volkov:逻辑?

NotebookLM:是的。就像这位开发者,他们没有给O1提供任何代码行,只是描述了应用程序的想法。而O1实际上设计了架构,连接了一切,开发者只是取了那段代码,直接放入Xcode中,它就能工作了。

NotebookLM 2:哇,所以它不仅是在编写代码,更是在理解意图。

NotebookLM:对,确实如此。这实际上挑战了我们如何评估这些模型。你知道,就连OpenAI也承认,像Swebench这样的基准测试,它只看代码准确性,但并不总能反映现实世界中的情况。在现实世界中,你不仅仅需要能编译的代码,它还必须高效、易于维护。

NotebookLM 2:没错,因为在实际应用中,光有能运行的代码是不够的。它还必须看起来美观,使用起来直观。

NotebookLM:确实如此。所有部分都必须协同工作,而OpenAI正在与开发者一起努力解决这个问题。他们发现,UI开发,尤其是在React等框架中,需要更好的评估标准。编写一个能工作的按钮是一回事,而让它看起来美观且直观则是另一回事。

NotebookLM 2:对,而且似乎这种对现实世界背景的需求不仅仅局限于评估这些模型。有一个开发者在使用一个名为“Genie”的代码生成AI工具时发现了这个问题。

NotebookLM:Genie,是的。

NotebookLM 2:它更专注于特定的编码任务,但他们发现,它在不同编程语言之间的表现差异很大,比如JavaScript和C#。

NotebookLM:这正好说明了数据的重要性,对吧?就像我们一样,AI也需要多样化的数据来学习。如果你只训练它一种类型的代码,它会在那种代码上表现得很好。但遇到任何新东西,它就会栽跟头。所以,关键是要确保这些模型有广泛的数据来学习,这样它们才能更加适应,准备好应对我们抛给它们的任何挑战。

NotebookLM 2:所以我们现在有能构建应用程序、理解我们需求、甚至编写不同类型代码的AI。这很多,而且感觉事情变化得太快了。开发者如何才能跟上节奏,更不用说用AI构建成功的东西了?

NotebookLM:对,这就是问题所在,不是吗?但有趣的是,无论是OpenAI还是使用这些工具的开发者,他们在一点上达成了共识。那就是要瞄准那些刚刚超出我们能力范围的目标。

NotebookLM 2:所以,不要等到技术追上你最狂野的梦想。要专注于现在几乎可能实现的事情。

NotebookLM:是的。要为未来的发展趋势而构建,而不是为今天的现状。如果你等待那个完美的AI,你可能会错过塑造其发展的机会,成为第一个在那里做新事情的人。

NotebookLM 2:要顺势而为,而不是追逐潮流。

NotebookLM:确实如此。而且,OpenAI也特别强调了这一点,即使有了所有这些惊人的AI技术,你也不能忘记构建业务的基础知识。

NotebookLM 2:所以,仅仅因为有了AI,并不意味着它就会自动成功。对吧。

NotebookLM:你需要一个好的策略,知道你的目标客户是谁,而且它必须真正解决一个实际问题。AI是一种工具,而不是魔杖。就像如果你不知道怎么做饭,拥有世界上最好的烤箱也没用。这个比喻很完美。然后,OpenAI还谈到了另一个非常有趣的话题,那就是在保障安全和确保每个人都能获得访问之间找到平衡。

NotebookLM 2:所以要确保这些AI工具的使用是负责任的,但同时也要让它们能够被所有可能受益的人所获得。

NotebookLM:是的,他们非常清楚,虽然注重安全很重要,但这也可能会限制一些非常强大的工具的访问。这是一个很难的平衡。

NotebookLM 2:这就像关于救命药物的辩论一样。你如何确保它们被正确使用,但同时又确保需要它们的人能够真正得到它们?

NotebookLM:这很复杂,没有简单的答案。但这是他们正在认真考虑的事情。

NotebookLM 2:很明显,所有这些AI的东西,尤其是像O1这样的新模型,正在改变我们对技术的看法和我们的使用方式。

NotebookLM:想象一下走到一个屏幕前,它就能为你创建一个个性化的体验,就在那里,根据你的需求进行调整。这就是潜力所在。

NotebookLM 2:就像在每个设备里都有一个个人助理一样。

NotebookLM:这令人兴奋,但我们必须深思熟虑,负责任地构建。

NotebookLM 2:所以,就是这样。OpenAI不仅仅是在构建这些酷炫的AI模型,他们还在围绕它们构建一个全新的世界,而这一切都在改变着一切。这肯定会是一段狂野的旅程,而我们才刚刚开始。

原文:Building AGI in Real Time (OpenAI Dev Day 2024)

https://www.latent.space/p/devday-2024

编译:Juan Wang & Xinle Qiao
-----------END-----------
🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业者
关于Z Potentials

Z Potentials
我们与Z Potentials同频共振
 最新文章