(关注公众号并设为🌟标,获取最新人工智能资讯和产品)
全文约10,000 字,阅读约需26分钟
在最近结束的OpenAI开发者大会(OpenAI DevDay)上,CEO Sam Altman描绘了一幅令人震撼的未来图景。他邀请我们想象这样一个场景:在不久的将来,我们只需走到一块智能玻璃前,说出我们的需求,背后强大的推理模型就会立即连接各种系统,通过实时视频呈现一个量身定制的界面。这个界面会动态展示我们所需的一切信息,我们可以与之互动、点击,或者提出新的需求。更令人惊叹的是,这个系统能够自动完成那些曾经需要人类耗费多年才能解决的复杂任务。
他也表示,OpenAI已经在多个关键领域取得了重大突破,而这些成果只是即将到来的众多创新中的一部分。他特别指出,OpenAI的独特之处在于其对研究的深度关注,以及推动真正创新的能力。在Altman看来,仅仅复制已有的技术并不困难,他甚至欢迎其他人复制OpenAI的成果,因为这能让全球更多人受益于AI技术。然而,OpenAI的核心在于追求全新的突破,不是简单的功能改进或微调,而是不断探索新的范式,推动技术边界的扩展。
正是这种追求卓越和创新的文化,使OpenAI能够整合产品和研究,并在极具挑战性的领域中不断前进。他满怀信心地表示,只要再实现几次类似的突破,人类就可能接近实现通用人工智能(AGI)的目标。
文稿整理
1、AGI有多近
主持人Kevin Wheel: 我个人来说,对我们的蒸馏产品感到非常兴奋,我认为那将会非常有趣。同时,我也很期待看到大家对高级语音调制、实时API以及视觉微调的使用。好吧,现在我有一些问题要问Sam。我们先从一个简单的问题开始吧,我们距离AGI(通用人工智能)有多近了?
嘉宾Sam Altman: 你知道吗,以前每次我们完成一个系统,我们都会问自己:这离AGI还有多远?那时候很容易回答。你可以开发出一个像机器人手或者DOTA对战的系统,然后很容易地说:“哦,它做了一些事情,但绝对不是AGI。” 但是现在这种界定变得越来越困难了。因此我们开始停止谈论AGI这个笼统的概念,转而采用一个分级框架,因为AGI这个词变得太模糊了。简单来说,我们使用了五个等级:一级是聊天机器人,二级是推理工具,三级是代理,四级是创新者,五级是组织。
我认为我们已经明确到达了二级,我们相信o1已经达到了二级,它可以执行相当令人印象深刻的认知任务。这是一个非常相似的模型,虽然在一些重要方面它还不像AGI那样。但是如果你再进一步,使其具备更强的代理能力——也就是我们所说的三级——我认为我们将在不久的将来实现这一点,它会显得异常强大。不过,它可能仍然不是大家普遍认定的ASI(超级人工智能),但它会让你觉得“好吧,这的确是个重大突破”。从那里到能够真正加速科学发现的系统——对我来说,这是AGI的一个非常重要的部分——我对这一点的时间预测感到有些不确定,但我觉得也不会太远了。如果你看看从上次发布会到这次发布会之间模型能力的进展,以及从Turbo 4到o1在一些棘手问题上的表现,你会觉得进展相当快。我认为接下来的一年甚至两年会有更陡峭的进展。再远一些,我就很难有确切的预测了,但我可以说不会太遥远。
Kevin Wheel: 确实,这时候定义的确变得很重要。定义越重要,某种程度上意味着我们离目标越来越近了。
Sam Altman: 没错。过去人们对于AGI的想法是二元的:你今天入睡时没有AGI,醒来时就有了AI。我认为我们现在不再那样看待它了。
Kevin Wheel: 你的观点是如何演变的呢?
Sam Altman: 我同意你的看法。我认为我们正处于一个模糊的过渡期,AGI是否已经出现,或何时出现,可能会让人感到模糊。回顾历史,大多数人可能不会同意那个关键的里程碑何时被跨越,我们可能只会意识到这其实是一个模糊的过程。即使是图灵测试,这个我曾认为非常清晰的里程碑,也在模糊中悄然过去了,似乎没人关心。但我认为更好的框架是看作一条指数曲线。如果我们能够开发出一个系统,在所有AI研究领域都显著超过我们现有的能力,那对我来说是一个重要的转折点。尽管如此,可能仍然不应该将其视为一个不连续的事件,它依然会是一个平滑的指数曲线,但这会是一个真正的里程碑。
Kevin Wheel: OpenAI是否仍然像早期那样致力于研究?研究是否仍然是我们核心进步和产品开发的驱动力?
Sam Altman: 比以往任何时候都更加致力于研究。在我们历史的某个阶段,正确的做法是单纯地扩大计算能力,我们对此有坚定的信念。我们一直有这样的精神:只要行之有效,我们就会去做。我们有一个目标,那就是构建安全的AGI,并弄清楚如何共享其带来的利益。如果答案是堆叠GPU,我们就会这做。而现在的答案是再次全力推动研究。我认为你可以从o1中看到这一点:那是一个巨大的研究突破,我们从多个角度对其进行长期攻坚,最终取得了突破。我们有很多巨大的研究突破即将到来,但我认为OpenAI最特别的地方在于,我们真的非常关心研究,并且我们明白如何做真正的创新。我认为,复制一个已经有效的东西是很容易的,实际上我并不认为这有什么坏处。当人们复制OpenAI的成果时,我会觉得很棒,这样全世界都能更多地获得AI,这是件好事。
但要做一些全新的事情,真正意义上的研究,不是仅仅“让某个功能勉强起作用”或者“微调一下这个功能”,而是去寻找全新的范式,一个接一个地不断前进。这就是激励我们的原因。我认为我们作为一个组织,除了将产品和研究等整合在一起之外,还有一个特别的地方是,我们知道如何运行那种可以推动前沿发展的文化。这非常困难,但我们热爱这种挑战。我认为我们只需要再做几次这样的突破,就会接近AGI。
2、OpenAI构建AI产品方式
Kevin Wheel: 从外部进入,从传统科技公司来到OpenAI,我会说一个判断标准就是,研究在OpenAI的重要性是毋庸置疑的。在OpenAI构建产品的方式与其他任何公司都不同。通常情况下,你对技术栈有一定的了解,知道有哪些能力可以利用,然后你努力构建最好的产品,理解用户是谁、他们有什么问题、你如何帮助解决这些问题。在OpenAI,我们当然也有这些部分,但是计算机能力每两三个月就会发生一次飞跃,突然间,计算机具备了前所未有的新能力。我们需要弄清楚如何基于这些能力构建出色的产品,开发者的API等。你无法完全预测这些能力的到来,它们从迷雾中逐渐浮现,逐渐成形。这与我之前在任何公司工作过的经历都完全不同。
Sam Altman: 这也是你觉得最惊讶的地方吗?
Kevin Wheel: 是的。而且即便是在内部,我们也无法总是明确知道某个能力什么时候会到来。你可能会想,“好吧,这个能力即将到来”,但你不知道它在下一个模型中是90%准确,还是99%准确。而这种差异会极大地影响你能构建什么样的产品。你知道它最终会达到99%,但不确定是什么时候。在这种环境中制定产品路线图是非常有趣的。我们需要完全跟随科学的进展,科学决定了我们接下来要做什么、构建什么产品等。我认为很难让外界理解这种程度的灵活性。我们对事情的猜测有时是正确的,但更多时候是错的。当某件事情开始奏效,或者某件你认为会奏效的事情失败时,我们能够果断地调整方向,去做科学允许的事情。而科学允许的事情并不是我们可以选择的。这非常令人惊讶。几周前我和一位企业客户在一起,他们说,“我们非常喜欢目前的一切,但是我们希望能在功能发布前60天得到通知。”我心想,我也想要这种通知。这些问题都是来自观众的。我们会留些时间让大家亲自提问,等下会有一些工作人员拿着麦克风。大家可以开始思考要问什么问题了。接下来一个问题是,许多对齐社区的人真正担心的是,OpenAI现在只是表面上对对齐问题表示关注。你能让大家安心吗?
Sam Altman: 我认为确实我们对对齐的看法与一些人,特别是在某些网络论坛上讨论的观点有些不同。但我们非常关心构建安全的系统。我们的方法是基于我们到目前为止的经验来制定的。正如之前提到的,你无法决定科学的走向。我们希望找到一种方法,让模型在变得更强大的同时也变得越来越安全。几年前,我们没有想到“草莓”或o1的范式会像现在这样有效,而它的出现带来了一整套新的安全挑战,但也带来了新的安全机遇。而不是从理论上规划出一套“超级智能到来的时候要做的17条原则”,我们的方法是,随着能力的发展,逐步找到解决方案。我们现在的01模型显然是我们迄今为止最强大的模型,同时也是我们上线过的最成熟的模型。随着这些模型的智能和推理能力不断增强,我们有更多方法来对它们进行对齐,并构建真正安全的系统。随着我们的工具集不断增加,我们必须构建出被广泛认可为安全和稳健的模型,才能将它们推向世界。当我们开始开放时,最初对对齐的理解,以及我们认为需要解决的问题,和现在实际面对的问题完全不一样。当我们制作第一个GPT-3模型时,如果你问我有哪些技术能帮助我们现在部署当前的系统,让它们被普遍认为是安全和稳健的,我的回答可能不会是那些最终有效的技术。所以,我认为部署迭代的想法可能是我们迄今为止最重要的安全策略之一。我们面对现实,并因此取得了很多进展,而且我们期待能取得更多进展。我们不断发现新问题,但同时也不断找到新技术来解决它们。
所有这些话说完之后,我还是认为担忧科幻小说中描绘的那些人工智能失控的场景是很重要的。我们有一些人在思考这些问题,但有时这方面的方向不太明确,而且你可能会发现自己常常需要重新审视。但我不认为我们应该只关注眼前的问题,忽视未来的发展方向。我们必须同时思考这个领域的长远未来。我觉得我们如果能够从这两方面同时着手,一方面处理下一步要部署的技术,另一方面思考如果这条发展曲线持续下去会带来什么,这样的策略对我们来说是非常有效的。另外,我真的非常喜欢我们迭代部署的哲学。当我在Twitter工作的时候,埃文·威廉姆斯,Twitter的联合创始人说过一句话让我印象深刻,他说:“无论你公司里有多少聪明人,公司外总有更多聪明人。”所以,假设我们仅仅靠内部的人力来解决所有潜在问题是行不通的,尽管我们确实有红队成员在不断努力测试,但我们还需要通过逐步上线产品,并从用户的实际使用中学习。大家像你们这样的用户能够帮助我们发现问题的正确和错误的地方,这是我们做对事情的一个重要方式。当我们进入一个代理系统在现实世界中执行任务的时代,这种外部的压力测试将变得尤为重要。随着这些系统变得更加复杂,我们需要外部世界的广泛测试来确保它们的安全性。
Kevin Wheel: 好吧,接着聊吧。能否告诉我们更多关于代理系统如何融入OpenAI长期计划的信息?
Sam Altman: 我认为最激动人心的部分是,这一系列模型,尤其是01和它的继任者,将使这一切成为可能。因为我们终于有能力进行推理,能够把复杂问题分解为更简单的问题并加以解决。我相信2025年将是这一技术大规模应用的一年。聊天界面固然很好,它们在这个世界上有重要的位置。但想象一下,当你能像问ChatGPT或其他代理那样提问,不仅仅是得到一个快速回复,甚至也不是等待15秒得到一段漂亮的代码,而是进行多回合的交互,可以和环境或其他人互动,并且能够进行相当于人类数天努力的推理。这就像是一个非常聪明、非常有能力的人类完成了这些事情。我们常说:“是的,代理系统是下一个趋势,它正在到来。”我们总是这样谈论它,仿佛这是下一个技术演进的节点。但我相信,我们在使用这些代理系统时,会迅速适应它们,但它将会在短时间内对世界的运作方式产生非常重大的变化。
Kevin Wheel: 太神奇了。有人提到过我们如何适应AI模型的新功能,以及我们能多快习惯这些新功能。我记得他们是在谈论waymo。刚开始使用的前10秒,他们惊呼“天哪!这是什么东西,快看前面有辆自行车!” 然后10分钟后,他们觉得:“这真是太酷了。” 再过20分钟,他们已经开始低头看手机,觉得有点无聊了。真是不可思议,你的“内在固件”会如此迅速地适应这些新技术。我觉得人们会让代理为他们完成一些原本需要花费一个月时间的任务,而代理会在一小时内完成。接着他们会让代理同时处理10个任务,甚至上千个任务。到2030年左右,我们回头看时,可能会觉得:“是啊,这就是人类应该具备的能力,以前需要花费数年打磨的任务,现在只需要让计算机处理一个小时,为什么不能在一分钟内完成呢?”
Sam Altman: 确实,这也是我们有一个出色的开发者平台如此重要的原因之一。我们当然会尝试并构建一些代理型的应用,实际上我们已经在推动今天可能实现的极限了。比如Cognition团队在代码领域做的出色工作,Harvey和Case Text也在做,Speak在语言翻译方面有一些很酷的成果。我们开始看到这些东西正在发挥作用,而且随着我们不断迭代这些模型,它们将真正开始发光发热。对我们来说,拥有这样一个开发平台的乐趣之一就是看到开发者以惊人的速度和创造力构建这些体验。开发者对我们来说非常重要——这是我们最早推出的功能之一。我们知道,我们自己构建的产品始终只能代表一小部分应用或代理,而真正令人惊讶的事情是我们在过去18到24个月内在世界上看到的变化,真是令人叹为观止。
3、AI代理的难点
Kevin Wheel: 你认为目前计算机控制代理的主要障碍是什么?
Sam Altman: 安全和对齐问题。如果你真的要让一个代理开始操作你的计算机,那么对系统的稳健性、可靠性和对齐的要求将会非常高。从技术上讲,我认为我们在能力方面已经非常接近了,但代理的安全性和信任框架将会是一个长期的挑战。
Kevin Wheel: 接下来我想问一个与之前问题几乎相反的问题:你认为安全性有可能导致“假阳性”,从而限制公众对一些关键工具的访问,进而影响人类进步吗?
Sam Altman: 老实说,这确实会发生。有时候我们会努力去把握好平衡,但如果我们完全不在意安全和对齐问题,我们本可以更早推出01。我们可以这么做,但会有一些代价,可能会出现很多问题。我很自豪我们没有这样做。虽然01的代价是可控的,但到03或以后,问题可能会变得不可接受。因此,从保守的一面开始是合理的。还有人抱怨说语音模式无法说出某些冒犯性的话语,他们希望它能这样做。我大部分时候也同意这些观点。如果你真的想让它说出冒犯性的话语,它应该大多数时候按照用户的指令行事。当然,仍然有一些例外情况。我们在推出新技术时,总是从保守的一面开始,让社会有时间去适应。我们试图理解真正的危害是什么,而不是那些纯粹理论上的问题。这是我们的一部分安全策略,并不是所有人都喜欢它,我自己有时也不喜欢它。但是如果我们认为这些系统会像我们预测的那样迅速变得强大,那么从保守的一面开始是有意义的,随着时间推移,我们会逐步放宽。
Kevin Wheel: 接下来,使用AI作为核心功能的初创企业的最大挑战是什么?
Sam Altman: 我觉得有一个挑战是我们自己也面临的,那就是找到前沿领域。这些AI模型的发展速度非常快,如果你今天基于某个模型的现有能力构建产品,今天可能很有效,但明天就会显得过时。所以,你需要为AI模型刚刚不能做的事情构建产品,这样当下一个模型出来时,那些此前无法实现的用例就会首先被你实现,并且效果会非常惊人。但找到这个边界非常困难,我认为这是最好的产品会被构建出来的地方。另外,我想补充的是,认为技术可以成就一家初创公司是非常诱人的想法,但事实往往并非如此。不管一种新技术或新的技术潮流有多酷,它都不能替代构建一家有持久竞争优势的伟大公司的所有艰苦工作。在AI的巨大兴奋和热潮中,人们很容易忘记这一点。
Kevin Wheel: 是的,语音模式对我来说真的很有趣。这是我第一次感觉自己可能会被AI“骗到”。当我在使用它的第一个测试版时,我根本停不下来。我还会对GPT说“请”,但在语音模式下,我甚至无法不使用礼貌用语。我感觉好像它真的像个人一样,当然,这只是触发了我大脑中的某些回路,但在语音模式下,我真的感觉到了这种错觉,而且现在仍然有这种感觉。我认为这代表了我们即将面临的一类更普遍的问题,随着这些系统变得越来越强大,我们试图让它们的交互尽可能自然,它们会触碰到我们大脑中一些处理人与人互动的神经回路。
有一些非常明确的界限,比如我们不希望做一些奇怪的个性化“增长黑客”,或者一些模糊的社会操控手段,但也有一些并不那么清晰的地方。比如你希望语音模式尽可能自然,但当你跨过“恐怖谷”时,它可能会触发一些反应。至少对我来说,我会对GPT说“请”和“谢谢”,虽然这也许是个好习惯——谁知道呢?
Sam Altman: 我认为这确实指出了我们需要开始关注的安全和对齐问题。
4、 o1的发展计划
Kevin Wheel: 好吧,回到正题,Sam,o1什么时候会支持功能工具?
Sam Altman: 在今年年底之前。我们有三件事情非常想加入到o1中。我们会录下这些内容带回去给研究团队看,让他们知道我们有多么需要这些功能。我们希望在o1中加入的一些功能,比如系统提示、结构化输出、功能调用等,到今年年底都会实现。这对我们来说非常重要。另外,我想强调一下,我们不仅会把这些功能加入,还会加入你们要求的很多其他功能。模型会变得越来越强大,而且速度非常快。我们现在所处的阶段可能类似于GPT-2的规模时刻,但我们已经知道如何达到GPT-4的水平。现在我们已经具备了实现这一目标的基础条件。此外,我们也计划让模型变得更加智能。明年你们回来看时,会觉得这一年的进步非常显著。
Kevin Wheel: 我认为Anthropic在“项目”功能上做得很好,这和我们做的GPTs有点类似。GPTs是更持久的东西,项目则是更临时的,适合短期使用后就可以转移。这种不同的思维模式带来了很大的不同,我觉得他们在这方面做得很不错。在OpenAI,你们如何平衡用户可能需要的东西和他们今天实际需要的东西?
Sam Altman: 这确实是一个平衡。我们在每周支持超过一百万人使用ChatGPT,但你不能对他们说:“哦,抱歉,处理这个问题可能需要三个月,因为我们有更酷的东西即将推出。”你必须解决他们今天的需求,同时也要思考如何为未来建构产品。想象一下,那些从未使用过这些产品的人,他们依然占世界的大多数。你实际上是在给他们提供一个文本界面,而在这个文本界面的另一端,是一个他们从未见过、从未与之互动过的不断进化的“外星智能”。你得教他们如何使用这些工具,如何让这些工具融入他们的生活,帮助他们解决问题。但大多数人可能不知道如何使用它。比如有人会输入“你好”,然后它回复:“很高兴见到你,今天我能帮你做些什么?”然后那个人可能就不知道该说什么,最终离开,觉得没有体验到什么“魔法”。这就是我们面临的真正挑战,如何教会人们AI工具的潜力。
Kevin Wheel: 教人们如何使用这些工具,并且随着模型每个月每个月的变化不断引导他们,这的确是一个非常有趣的问题。因为模型的能力提升速度远超我们人类获取新能力的速度,这会带来一系列有趣的挑战。我知道你们也在用不同的方式解决这些问题。我有个问题,谁觉得自己花了很多时间与o1相处,并且认为自己明显比它聪明?你们觉得等到o2时你们还会这样认为吗?没有人愿意下注自己会比o2更聪明吧?
Sam Altman: 我们面临的一个挑战是,我们知道如何构建出可能在许多任务上比我们所有人都更聪明的系统,但我们仍然得修复一些小问题,比如“你好吗”这类的基本交互。而我们坚信的是,如果我们继续推动模型的智能化,用户将会用它们做出不可思议的事情。我们想构建世界上最聪明、最有帮助的模型,之后人们会发现各种方式来使用它并基于它进行开发。这对我们来说已经是一种演变,不再是纯粹的研究驱动,我们还必须修复那些小问题,让模型变得超级好用。我认为我们在这方面已经做得更好,但仍然是一种平衡。我们相信,如果继续推动智能化,用户将会构建出难以置信的东西。
我认为这是我们哲学的核心部分之一。你确实做得很好,总是推动我们将最前沿的智能整合到我们的产品中,无论是API还是我们的自有产品。因为很容易停留在我们知道的、运作良好的事物上,但你总是推动我们去尝试那些前沿的东西,哪怕它现在只有部分工作正常,因为我们知道它很快就会变得非常出色。这种推动对我们非常有帮助。
Kevin Wheel: 你已经在下一个问题上给了答案。你真的会对模型说“请”和“谢谢”吗?我很好奇有多少人会这样做?
Sam Altman: 是的,我也会。我总觉得如果不说“请”和“谢谢”,会有点不好意思。
Kevin Wheel: 最后一个问题,然后我们进入观众提问环节。你们计划专门为代理型应用场景构建模型吗?比如那些在推理和调用工具方面更出色的模型?
Sam Altman: 我们确实计划构建适用于代理型应用场景的模型,这是我们接下来几个月的重点之一。具体而言,我们要为一些工具使用和功能调用构建模型,这会有所帮助,但总体上,我们的目标是构建世界上最好的推理模型,这也将成为世界上最好的代理型模型。
观众提问
观众1: 你们在公司内部使用自己的技术有多广泛?有没有一些不太明显的有趣例子?
Sam Altman: 我们在模型训练完成之前就会在内部使用它们。我们使用中间的检查点,尝试让大家尽可能使用这些模型进行开发、研究等工作,并探索模型的能力。我们一直对外界的创造力感到惊讶,人们总能想出我们没想到的用途。基本上,我们通过内部使用来发现每一个可以推动的方向、可以产品化的功能,以及模型在某些任务上的真正优势。这是我们探索道路的方式。目前,我们还没有基于01的员工,但随着我们进入代理的世界,我们会尝试让这些代理帮助我们内部的工作。我们已经有一些接近的东西了,比如我们的内部客服机器人,它不仅回答外部客户的问题,还处理内部员工在Slack上的问题。我们的客服团队规模可能因此减少了20%。
此外,我们的安全团队也广泛使用了模型,自动化处理大量安全任务。以前很多是手动流程,现在模型能筛选出信号和噪声,告诉人类哪些问题需要特别关注。我认为公司内部有很多例子,人们可能低估了这一点,但我和很多人聊过,他们对于我们不仅仅是在某个地方使用模型的理解不够深入。实际上,我们是将多个擅长不同任务的模型连接在一起,以完成一个端到端的流程,即使每个模型本身都有缺陷或者可能出错,最终的效果仍然很好。
观众2: 谢谢你。我想知道你们是否有计划共享离线使用的模型?蒸馏模型的功能很酷,因为我们可以分享自己的模型,但在很多场景下,用户可能希望有一个离线版本的模型。
Sam Altman: 我们对此持开放态度,但这不是我们目前路线图中的高优先级。如果我们有更多的资源和带宽,我们可能会去做这件事。我知道有很多原因让人们希望有一个本地模型,但这并不是今年的目标。
观众3: 你好,我的问题是,有许多政府机构,无论是在地方、州还是国家层面,都可能从你们开发的工具中受益匪浅。但由于安全、数据隐私等问题,他们可能会对部署这些工具持保留态度。我想知道,是否有与政府机构合作的计划,特别是在AGI到来之后?因为如果AGI可以解决像全球饥饿、贫困、气候变化这样的问题,政府肯定会介入吧?对此你们有什么计划吗?
Sam Altman: 我认为你不应该等到AGI出现才开始合作,应该现在就开始,因为这也是一个学习的过程。我们现在的模型已经可以带来很多好处。我们已经宣布了一些与政府机构的合作,包括一些州,如明尼苏达州和宾夕法尼亚州,还与一些组织如美国国际开发署(USAID)合作。帮助全球政府适应并从技术中受益,是我们的一个重要优先事项。政府领域是一个非常适合自动化工作流程、提高效率、减少繁琐工作的地方。我认为我们现在能做很多好事,并且随着模型的不断进步,这些好处也会持续累积。
观众4:我有一个比较开放的问题,你们如何看待开源?无论是开源模型还是其他开源项目,你们对此有什么看法?
Sam Altman: 我认为开源是很棒的。如果我们有更多的资源,我们也会做开源项目。我们几次非常接近开展一个大型开源项目,但最终的优先级排序让我们选择了其他的项目。现在世界上已经有很多非常优秀的开源模型了,我们觉得有些领域已经被很好地服务了。我们希望将来能做点什么,但我们希望能找到一个独特的项目,而不是仅仅推出一个在基准测试中稍微好一点的东西。总的来说,从精神和哲学的角度来看,我们非常支持开源,并希望在合适的时候为此做出贡献。
观众5: 感谢你邀请我们参加开发者日,一切都很棒,工作成果令人难以置信。我想问,为什么高级语音模式不能唱歌?这是因为法律问题,比如版权吗?你们对自家平台上的产品安全性考量,与开发者们使用时的考量有区别吗?比如我们是否可以通过签署某些协议,来让我们的语音模型唱歌?
Sam Altman: 你知道有趣的是,我也被问到过同样的问题——为什么语音模式不能唱歌?我也想让它唱歌!实际上,问题在于版权。我们不能让它唱受版权保护的歌曲,因为我们没有获得相应的许可。但有一些歌曲是可以唱的,比如《生日快乐歌》就是没问题的。我们也想让模型能够唱歌。现在问题是,在有限的时间内,禁止模型唱歌比做出适当的细节调整更容易。我们需要确保处理得当,因为做错了会有惩罚。所以这只是我们目前的状态。我们确实希望模型能够唱歌。大家都很期待语音模式的发布,这是完全合理的。
我们本可以等更长的时间,确保对版权音乐的分类和过滤都做好了,但最终我们决定尽快推出语音模式。我想萨姆已经问过我四五次,为什么不能让它唱歌,因为这是一个很棒的功能。不过,无论是开发者还是我们自己,都不能提供一些会让我们陷入法律纠纷的功能。尽管我们可以在某些方面有所不同,但仍然需要遵守法律。
观众6: 你能谈谈你们对未来上下文窗口(context windows)的看法吗?时间线是什么样的?你们如何看待上下文窗口的扩展与信息检索(RAG,Retrieval-Augmented Generation)之间的平衡?
Sam Altman: 关于这个问题有两个方面。一个是,我们什么时候能达到所谓的“正常”长上下文,比如上下文长度达到一千万个token,足够长,可以快速处理很多信息,这个应该会很快实现。我预计大家会在这一领域快速进展,这将成为一种常态。到目前为止,长上下文的使用率比我预期的要低,但这有很多原因,我不打算详细展开。
另一个问题是,什么时候我们能达到不只是千万级的上下文,而是十万亿级的上下文?什么时候我们可以把你一生中所有看到的信息都塞进去?这需要一些研究突破,但我认为无限上下文在某个时候会实现,而且可能不会超过十年。这将彻底改变我们使用这些模型的方式。甚至在上下文长度达到一千万个token,并且能够非常快速、准确地处理上下文时,我预计这会在几个月内实现。人们会以各种方式使用它,这将非常棒。但无限上下文将带来完全不同的体验,这一点非常有趣。
观众7: 我们可能还有时间回答一两个问题。不要担心,这是你最喜欢的问题。随着语音模式和你们推出的其他功能,用户体验了很多变化。你们对未来的交互层(engagement layer)有什么愿景?如何让这些技术真正改善我们的生活?
Sam Altman: 我非常喜欢这个问题,我们也经常讨论这个问题。在这里有一个关于普遍性和专门性之间的权衡。我举个例子,几周前我在首尔和东京与一些不会说同一语言的人进行对话,当时没有翻译员。过去,我们可能只能互相微笑,然后继续自己的事。但这次我拿出手机,对ChatGPT说:“我要你当我的翻译,当我说英语时,请用韩语回答;当你听到韩语时,请用英语回答。”就这样,我得以进行完整的商务谈判。这种影响不仅在商业上,还会在旅游和旅行中发挥巨大作用,能够激发人们去到他们语言不通的地方。不过,在ChatGPT中,这仍然不是最优化的体验。我们希望有一个随时在你口袋里的“数字通用翻译器”,它能够自动识别并翻译对话。这并不难构建,但我们在努力构建一个能为所有人提供多种功能的应用程序时,会遇到一些挑战。我们还需要保持应用的更新,跟上能力的变化,比如代理能力等。我认为,开发者们可以发挥巨大的创造力,解决我们没有想到的问题。最终,世界会因为更多人使用AI而变得更美好,所以我们非常自豪能够为大家服务。
我再补充一点,如果你想象一下未来几年内可能发生的事情,你走到一块玻璃前,说出你的需求,背后会有强大的推理模型,连接到所有的系统,视频模型会实时为你呈现一个专门定制的界面,所有你需要的东西都会动态呈现。你可以与之互动、点击,或者说出新的需求,然后系统会自动完成那些以前需要人类多年才能解决的事情。这将是我们使用计算机和实现目标的完全不同的方式,它会非常震撼。
最后,我想时间差不多了,非常感谢大家的到来!
原视频链接:https://www.youtube.com/watch?v=oX7OduG1YmI&t=2s
素材来源官方媒体/网络新闻
对了,喜欢就别忘了点赞、收藏、转发支持一下!期待在评论区听到你对观点和看法!
往期回顾
1、[万字独家视频专访:斯坦福李飞飞教授回顾20年AI征程,并解读未来每份工作都需要AI技能]
2、[对话扎克伯格:初创公司AI产品开发之路,为什么"试错"是通向成功的唯一捷径?]
3、[演讲总结:未来学家凯文·凯利刚刚亮相2024上海外滩大会,预言AI时代三大趋势,未来所有工作都会使用人工智能]
我们旨在将先进科技与创新想法完美融合!
想要掌握人工智能,但不知从何开始?告诉我们你的需求,学习AI让你抓住这波浪潮
告别昂贵服务和缺人烦恼,再见漫长交付周期
无限创意,分分钟生成专业级产品
感受 AI 带来的全新工作体验!
欢迎各大品牌方、媒体、企业和个人等
请联系负责人微信:Milo-1101
--END--