来源:AI 科技大本营(ID:rgznai100)
译:王启隆
视频链接:youtube.com/watch?v=IxkvVZua28k
作为世界上最强大的两个 AI 模型背后的产品负责人,是一种什么样的体验?
OpenAI 的产品负责人 Kevin Weil 在最新访谈中吐槽:“真希望我能提前 60 天知道要发布什么。” 而 Anthropic 的产品负责人 Mike Krieger 在他身旁补充道:“以前每逢苹果 WWDC 开发者大会,我们都会忐忑不安:苹果推出的新功能会成为新机遇,还是会打乱我们的全盘计划?”
二者不仅在技术实力、人才储备上势均力敌,在商业化道路上也渐行渐近:比方说,Anthropic 预计 2024 年底的年度经常性收入(ARR)将达到 10 亿美元,这一增长轨迹仅比 OpenAI 晚 18 个月。此外,就在 Anthropic 推出能像人类一样使用计算机的突破性功能之际,OpenAI 也在加紧开发新产品,瞄准复杂软件编程任务的自动化。
近日,两家公司的首席产品官(CPO)——OpenAI 的 Kevin Weil 和 Anthropic 的 Mike Krieger 在 Lenny's Podcast 频道与投资人 Sarah Guo 进行了一场播客访谈进行了一场罕见的对话,涉及了多个引人深思的观点:
关于当前模型的局限性:“现在的模型并不是受限于智能,而是受限于评估。它们实际上可以做得更多,在更广泛的领域中更加准确。” 对产品经理角色的新认知:“到了 2024-2025 年,构建 AI 驱动功能的产品经理的工作越来越像研究产品经理,而不是传统的产品经理。功能质量现在完全取决于你在评估和提示方面的水平。” 展望 AI 的未来发展:“主动性和异步是两个关键词。模型将变得更主动,在你授权的情况下,它会监控你的邮件,发现有趣的趋势,为你的会议做准备;同时它也会更异步,可能会说'我需要思考一下,大约一个小时后给你答复'。” 对用户适应能力的惊叹:“ChatGPT 才发布不到两年,当时刚出来时确实让所有人震惊。但现在如果要我们回去用最初的版本,大家可能会说'这也太笨了'。12 个月后,我们可能会说'真难相信我们居然用过那么原始的东西'。”
AI 产品经理和以往有什么不同?
说实话,能吸引我的公司可能本来就只有那么几家。所以反应确实因人而异,取决于对我的了解程度,以及是否见过我半退休的状态——那种状态其实也就维持了六周吧,很快我就在琢磨“接下来该干点什么”了。
编写评估标准将成为产品经理的一项核心技能
主持人:Kevin 刚刚形容得很生动——“在迷雾中窥探新能力”。那么,在你们无法确切预知未来的情况下,还能做规划吗?在发现新功能应该加入产品时,你们的迭代过程是怎样的?
Mike Krieger:我觉得在智能方面,你能大致看出它的发展方向,从而预见你会想用模型做什么,然后围绕这个开始构建产品。
我们可以从三个方面来看:首先是智能本身,虽然不可完全预测,但至少有一个可以观察的发展轨迹。
其次是从产品端决定投入的能力,并与研究团队一起进行微调。比如开发 Cluade 的 Artifacts 功能时,我们投入了大量时间与研究团队合作——我想 OpenAI 的 Canvas 也是一样的流程,对吧?总会有一个共同设计、共同研究、共同微调的过程。这也是在这家公司工作、在这里做设计的一大特权。
第三点就是能力前沿的突破,对 OpenAI 来说可能是语音模式,对我们来说是刚发布的计算机使用(Computer Use)功能,你在设计的时候会想:“60% 的成功率?好吧,可以接受。” 所以我们会尽早让设计师参与进来,但要明白的是,这并不是在下一个稳赢的赌注。研究的目的是为了通过学习积累经验,而不是每次都要做出完美的可发布产品。你的成果可能是一些概念验证或者能激发产品想法的信息,而不是一个完全可预期的产品开发过程,不能指望研究一到位就万事大吉了。
Kevin Weil:研究工作确实很有意思,至少部分研究是非常面向产品的,特别是在后训练阶段,就像 Mike 刚刚所说说的。但有些部分确实更像学术研究。比方说,有时候你会突然听说某个新能力,可能是在开会时偶尔提了一嘴,“要是能做到这个就好了。”
结果研究团队的人会说,“哦,这个我们三个月前就能做到了。”
然后我们就会追问,“真的吗?具体是什么情况?”
他们会说,“我们当时不知道这很重要,所以现在在研究别的东西了。” 这种意外惊喜时有发生,这也让我们在投资决策时要多加考虑。
主持人:如果一个模型在某项任务上的成功率是 60% 而不是 99%,你们觉得这样的模型还能用来做什么?很多任务的成功率确实更接近 60%,但任务本身很重要、很有价值。你们内部是如何评估任务进展的?在决定是靠产品设计来优雅处理失败情况,还是等待模型本身变得更好这个问题上,你们是怎么权衡的?
Kevin Weil:实际上,即使成功率只有 60%,很多事情也是可以做的。关键是要专门为这种情况设计产品。你需要考虑到人类会更多地参与其中。比方说 GitHub Copilot,这是第一个让人们意识到 AI 不仅能用于简单问答,还能创造实际经济价值的产品。我不确定它具体是基于哪个模型构建的,但肯定是好几代之前的版本了。
主持人:应该是 GPT-2 吧,那可是个相当小的模型。
Kevin Weil:即便那时的模型在编程相关的任何方面都称不上完美,它依然能创造价值。因为如果它能帮你完成一部分代码,那也是省下了你亲自编写的时间,你可以在它的基础上修改。这种方式是完全可行的,我们会看到类似的情况发生在向智能体和更复杂任务的转变上。虽然可能做不到完美,但如果能帮你节省 5 到 10 分钟,那也是有价值的。更重要的是,如果模型能够意识到自己在哪些地方没有把握,能够主动询问“这部分我不太确定,你能帮我确认一下吗”,那么人类和模型的配合就能达到远超研究时预计的 60% 效果。
Mike Krieger:说到这个神奇的 60% 数字——这其实是我刚才随口编的。不过这确实说明了一个问题,这可能就是 AI 的及格线。实际上,模型的表现往往是很不均衡的,在某些任务上表现出色,在其他任务上则相对较差。这种特点其实也很有帮助,比如当我们和客户进行试点项目时,经常会在同一天收到截然不同的反馈。
有的客户会说“这简直解决了我们所有的问题,我们试了三个月都没解决的事情,现在一下就搞定了”,而另一家可能会说“差得远了,还不如其他模型好用。”这种反差让我们保持谦逊,你可能有自己的内部评估标准,但真正到了实际应用场景,就像你精心设计了产品,放到一个用户面前,突然发现“哦,原来是这样”。在模型开发中也会遇到类似情况,我们尽可能想要建立可靠的评估机制,但客户有他们自己的数据集、独特的使用方式和特定的提示方法。这就揭示出一个现象:当产品真正投入使用时,效果往往呈现双峰分布。
Kevin Weil:不知道你有没有这种感觉,我觉得现在的模型并不是受限于智能水平,而是受限于评估方法。它们实际上可以做得更多,在更广泛的领域中表现得更准确。关键是要教会它们,它们已经具备了这样的智能,你需要教它们一些特定领域的知识,这些可能不在它们最初的训练数据中,但只要方法得当,它们是完全可以掌握的。
Mike Krieger:没错,我们经常遇到这种情况。大约三年前有很多令人兴奋的 AI 部署,现在那些团队会说“我们觉得新模型更好,但我们从没做过正式评估,因为那时候我们只顾着发布炫酷的 AI 功能了。” 最难的部分是要让人们退后一步,思考“什么样的结果才算成功?你究竟想解决什么问题?” 而且通常到这种时候,产品经理已经换人了。然后新接手的人需要重新思考:“这个功能究竟应该是什么样子?让我们设计一些评估标准。”
我们的经验是,Claude 其实很擅长编写评估标准,也能胜任评分工作。这样我们就能自动化很多评估工作,但前提是你得先明确什么样的结果才算成功。然后我们就可以一起迭代改进。往往这就是把任务从 60% 提升到 85% 成功率的关键。
顺便说一句,如果你来 Anthropic 面试——也许你应该来看看,也许你对现在的工作很满意,但没关系,我就是提一嘴(现场挖人)——你会发现我们面试流程中有一个环节就是让候选人把一个粗糙的评估提示改进成高质量的版本,我们想看到你的思考过程。但市面上具备这种能力的人才还很缺乏。如果说有什么是我们最想教给别人的,可能就是这个。
Kevin Weil:是的,编写评估标准。我觉得这将成为产品经理的一项核心技能。
Mike Krieger:说点内部的有趣变化吧,可能有点像是在讲八卦。我们内部有专门负责模型能力和开发的研究产品经理,也有负责产品界面的产品经理和 API 产品经理。但我们最终意识到,到了 2024-2025 年,构建 AI 驱动功能的产品经理的工作越来越像前者而不是后者。
比如我们最近发布了代码分析功能,现在 Claude 可以分析 CSV 文件并为你生成代码。产品经理可能完成了 80% 的工作,然后不得不把项目交给那些懂得如何编写评估标准、进行模型微调和优化提示词的产品经理。我们发现这其实就是同一个角色,因为你的功能质量现在完全取决于你在评估和提示方面的水平。所以产品经理这个角色的定义正在发生融合。
Kevin Weil:确实如此。我们也专门设置了一个训练营,让每个产品经理都学习如何编写评估标准,理解好的和差的评估之间的区别。当然我们还在不断完善这个过程,需要持续迭代和改进,但这确实是开发优质 AI 产品的关键所在。
主持人:对于那些想在 AI 产品开发领域发展的人来说,我们显然没法都去参加你们的训练营。那么这些人该如何培养对评估和迭代循环的直觉呢?
Kevin Weil:我觉得实际上可以通过使用模型本身来学习,就像你说的,你可以问模型“什么是好的评估标准?” 给它一个具体场景,让它帮你写一个样例评估,它往往能给出相当不错的建议。
Mike Krieger:没错,这确实很有帮助。还有一点,如果你听听 Andrej Karpathy 以及其他在这个领域深耕多年的专家们的建议,没有什么比深入研究数据更重要。
人们经常会陷入这样的思维定式:“根据这些评估标准,新模型只是从 78% 提高到了 80%,甚至性能下降了,所以不值得迭代”。这时我会说:“我们能具体看看它在哪些案例中表现不好吗?” 然后才有可能会发现另一种情况,即实际上新版本更好,只是评分标准还不够准确。
让我说点 Anthropic 内部的趣事。我们每个模型发布时都会有模型卡片,而看这些评估结果时,我们有时会想“这个答案可能不太符合人类的表达方式”或者“这个数学计算似乎有点问题”。想要在评估中得到 100 分真的很难,因为评分本身就是个很有挑战性的工作。所以我建议大家要去看看实际的回答,即便是样例也要认真分析“也许我们应该调整评估标准”或者“虽然评估标准很严格,但整体感觉还不错”。深入了解数据、真正掌握数据的本质,这一点至关重要。
Kevin Weil:随着我们向更复杂的任务和智能体方向发展,这个问题会变得更有意思。比方说,假如有一个评估测试的内容是“我给你一个数学题,你能准确计算四位数的加法”,人类评审员很容易判断对错。但当模型开始处理更长篇、更模糊的任务,比如“帮我在纽约订一个酒店”,那什么才算是正确答案?这个问题很大程度上需要考虑个性化因素。如果你让两个完全称职的人来完成这个任务,他们很可能会给出不同的答案。所以评分标准必须变得更加灵活。
Mike Krieger:我想我们两家实验室对 AI 能力的发展都有类似的认识框架。就像职业发展一样,随着时间推移,模型能承担的任务越来越复杂,周期越来越长。评估标准也需要像绩效考核那样演进——最近公司正在做绩效考核,所以我不自觉地会用这个比喻——我们不能再用简单的对错来评判模型了。AI 达到了称职员工的水平吗?完成任务的速度超出预期了吗?它能发现一些我们都不知道的新东西吗?评估标准需要更全面,就像我们评价一个人的表现一样。
Kevin Weil:更别提这些评估标准都是由人来制定的。而模型已经达到了这样一个水平:在某些任务上经常能胜过人类。人们有时候会更喜欢模型给出的答案,而不是人类的回答。
颠覆我们过去 25 年使用计算机养成的习惯
主持人:说得好。那看来评估能力确实是关键。除了要花时间研究这些模型、学习编写评估标准之外,你觉得产品人员现在还需要培养哪些技能?你们都在这条学习曲线上,有什么经验可以分享?
Mike Krieger:我觉得一个被低估的技能是用这些模型来做原型设计。我们最优秀的产品经理就是这么做的:当我们陷入关于 UI 设计方案的漫长讨论时,在设计师还没来得及打开 Figma(一款 UI 设计协作工具)之前,我们的产品经理或工程师就会说:“我已经让 Claude 生成了这两种 UI 方案的对比,我们先来看看效果。” 我觉得这种提前设计原型的方式很棒,然后我们会基于此就能继续深入探讨,从而能比以前更快地尝试更多可能性并进行评估。所以,掌握如何使用 AI 工具来快速制作原型,我认为这是一项非常重要的技能。
Kevin Weil:说得对。我还觉得,这也会推动产品经理更深入地了解技术细节。这种情况可能会随着时间而改变,就像如果你在 2005 年做数据库技术,可能需要以完全不同的方式深入理解技术细节,而不像现在做数据库技术那样,已经有了很多抽象层,你可能不需要了解所有底层原理。当然不是说每个产品经理都要成为研究员,但是对技术有基本的认识,花时间学习这个领域的术语,对这些技术的工作原理建立直觉,我觉得这些都会带来很大帮助。
Mike Krieger:还有一个重要的方面是,当你在处理一个随机的、不确定的系统时,评估标准只是我们最好的尝试。但在一个你无法完全控制模型输出的世界里做产品设计时,你需要考虑:怎样设计反馈机制来形成闭环?如何判断模型是否偏离了正确方向?如何快速收集用户反馈?应该设置什么样的安全护栏?如何了解它在整体层面的表现?这变成了一个需要理解智能体在众多用户、大量输出中的整体表现的问题,需要产品经理掌握完全不同的技能。这不像传统的“点击按钮没法关注用户”这类容易界定的问题。
Kevin Weil:没错。也许五年后当人们都习惯了这种模式,情况会有所不同。但我觉得我们现在都还在适应这种非确定性的用户界面。当然,不是指在座的技术从业者,你们都在研究技术产品,而是那些使用 AI 的普通用户,他们肯定还不习惯。这完全颠覆了我们过去 25 年使用计算机养成的习惯。通常情况下,相同的输入会得到相同的输出,但现在不是这样了。这不仅需要我们在构建产品时适应,还要站在用户的角度思考这意味着什么。这里面既有挑战,也有独特的优势。所以思考如何利用这些特点变得很有趣。
Mike Krieger:我想起在 Instagram 工作时期,我们会持续进行用户研究。每周邀请不同的用户来,只要有新原型就让他们试用。在 Anthropic 我们也在做类似的事情。但有趣的是,以前在用户研究中让我感到惊讶的是用户如何使用 Instagram,他们的使用场景或对新功能的反应。而现在,一半的惊喜来自用户的反应,另一半来自模型在特定场景下的表现。有时你会感到欣慰:“太好了,它(AI)理解得很准确!” 这几乎会让我们产生一种自豪感,尤其是在用户研究环境中看到它反应得当的时候。当然也会有挫折感,比如“糟糕,它完全理解错了用户意图,现在已经说了十页无关的内容了。” 这也是一个学习放手的过程,要接受在这种环境中各种意外情况的发生。
主持人:你们都曾经负责过那些迅速教会数亿人新行为模式的消费者产品。而现在这些 AI 产品的发展速度似乎比那还要快,对吧?如果连产品经理和技术人员对如何使用它们都没有太多直觉,你们是如何在当前的规模上教育最终用户使用这些反直觉的产品的?
Kevin Weil:说到这个,人类适应新事物的速度真的很神奇。前几天我和人聊天,他们在讲第一次乘坐 Waymo(无人驾驶出租车)的体验。他们最开始 30 秒还在担心:“天哪,小心那个骑自行车的!” 5 分钟后就开始感叹,“哇,我真的在体验未来。” 再过 10 分钟,他们就已经在车里百无聊赖地刷手机了。
看看我们适应新技术的速度有多快。明明那些东西放在以前就像魔法一样。ChatGPT 才发布不到两年,刚出来的时候确实让所有人都震惊了。但现在如果让我们回去用最初的版本,应该是 GPT-3.5 吧——
主持人:那简直是噩梦。
Kevin Weil:对,现在让所有人去用 GPT-3.5 都会说:“这也太笨了吧!” 所以你看,我们现在正在开发的东西,还有 Mike 你们正在开发的东西,现在看起来都像魔法一样神奇。但 12 个月后,我们可能会说“真难相信我们居然用过那么原始的东西。” 迭代的速度就是这么快,但最让我惊讶的是人们适应的速度。虽然我们一直在努力帮助用户跟上发展,但实际上人们也充满热情,他们理解世界正在朝这个方向发展。我们要做的是确保这个转变尽可能顺利地进行。
Mike Krieger:我们正在改进的一个方面是让产品本身具有教育功能,这听起来很直白。我们之前没这么做过,但现在我们想让 Claude 更多地了解自己。它的训练数据中已经包含了“Claude 是 Anthropic 开发的 AI”这样的基本信息。但现在我们会直接告诉它最近新发布的功能以及使用方法,因为用户经常会问这个问题。这也是来自用户研究的发现,他们会问“这个功能怎么用?” 然后 Claude 会说,“我不知道,你可以去网上搜索看看?”——这显然一点帮助都没有。所以我们现在真的在努力让它掌握最新版本信息,让它了解自己都会什么。
这是一个正在改进的过程。但看到现在的效果很令人振奋,比如它能给出具体的文档链接,告诉你“具体是这样操作的”,“我来一步步帮你”,“这里可能需要调用 Artifacts 窗口,我来帮你解决”。这些系统实际上很擅长解决 UI 问题和用户困惑。
注:笔者经常用 Claude,所以对这段非常有共鸣。以前如果想让 Claude 调用 Artifacts 窗口,它根本不能理解命令。但现在可以让 Claude 在任意场合调用任意数量的 Artifacts,不仅提升了体验,还改变了我的使用习惯。
让 LLMs 模仿人类的思维
主持人:在企业环境中推动变革管理时,情况会有所不同,因为企业已经有既定的工作方式和组织流程。那么你们是如何帮助整个组织理解这些提升生产力的改进,以及可能带来的其他变化呢?
Mike Krieger:企业市场确实很有趣。即便一些产品已经拥有数百万用户,但其中的重度用户主要还是那些热爱技术的早期采用者,其他则是长尾用户。但当你进入企业环境,你需要为整个组织部署产品,而这个组织中往往有大量非技术人员。我认为这其实很棒,因为你可以看到技术基础并不扎实的用户第一次接触基于聊天的大语言模型,同时你也有机会组织培训课程,提供教育资料。我觉得我们需要从这些经验中吸取教训,思考如何教育下一个亿级的用户使用这些界面。
Kevin Weil:而且企业内部总会有一些技术达人,他们非常乐意指导别人。比如在 OpenAI,我们有可定制的 GPT(Custom GPTs),经常会看到组织内部创建几百上千个不同的定制版本。这为那些技术爱好者提供了一个绝佳机会,让他们能为团队创造实际价值,同时也让 AI 的应用变得更加平民化。这是个很好的切入点 —— 找到这些技术领军人物,他们自然而然就会成为组织内部 AI 应用的布道者。
主持人:说到这个我必须问问 Mike,怎么玩转你们最新的“计算机使用”功能(Computer Use)?这项技术太惊艳了,你们内部是怎么实践的?
Mike Krieger:就像刚刚 Kevin 之前说的,内部觉得准备好了,我们就直接发布。这个功能其实是比较晚才确定下来的。虽然我们确信它很不错,但也不想就这样贸然发布。它还处于早期阶段,还会犯错,但我们一直在思考怎么把这件事做好。
最有趣的使用案例发生在我们的 beta 测试时期。有人说:“我想试试看能不能让它帮我们订披萨。” 结果它真的做到了。当达美乐的披萨送到办公室时,想到这完全是 AI 订的,那种感觉真的很特别。虽然我们心想:“好吧,虽然是达美乐,但起码是 AI 订的。(达美乐的网络订阅服务是集成了 API 的,所以让 AI 订达美乐其实难度很低)” 不过它确实点了不少披萨,可能比我们预期的量还要多。
还有一个有意思的早期应用是 UI 测试,这让我想到在 Instagram 时期我们基本上没有 UI 测试,因为它们很难写,而且很容易出问题。经常是你移动了一个按钮的位置,按道理测试应该通过,这就是这次更新的重点,但测试却失败了,然后你还得重新做一遍截图。但早期迹象表明,计算机使用功能在检查“它是不是按预期工作?是不是完成了你想要的功能?”这方面特别在行。我觉得这很有意思。
我们还在探索一些涉及大量数据处理的智能体任务。我们正在和支持团队、财务团队合作,因为这些表格迟早要自动填写。现在的问题是,数据经常被困在不同的系统里,如果想把它们转移到另一个系统,就需要人工时间。我在讨论计算机使用功能时总喜欢用“枯燥工作”这个词,意思就是说把那些枯燥的工作自动化,这样你就可以把精力放在创造性的工作上,而不是在那里点击三十次才能完成一件事。
主持人:再让我问 Kevin 一个问题。现在有很多团队在尝试用 OpenAI o1。这款模型显然能做更复杂的事情。此外,对于那些已经在应用中使用了 GPT-4 或类似模型的团队,显然不能简单地用 o1 替代,你能给我们一些指导建议吗?你们内部是怎么使用的?
Kevin Weil:在这里我要说一个很多人可能没注意到的重点。无论是我们的高级企业客户,还是我们内部团队,都不会简单地用一个模型解决问题。关键在于设计一个完整的工作流程 —— 让不同的模型基于各自的优势协同工作。比如说 o1,它在推理能力方面确实很强,但也有其局限性:需要较长的思考时间,不支持多模态输入,等等。所以你得清楚每个模型的特点,然后巧妙地把它们编排到一起。
主持人:能给大家解释一下,究竟什么是推理吗?
Kevin Weil:我想大家已经很熟悉预训练规模扩展的概念了。从 GPT-2 到 3、4、5,等等。你在预训练阶段投入越来越多的算力,这些模型就变得越来越“聪明”,或者说,它们掌握的知识越来越多。但这类 AI 更像是「系统 1 思维」(system 1),就是你问一个问题,它立即给出答案,有点像在做文本补全。
主持人:就像我现在问你问题,你必须马上回答。对,就是想到什么说什么,一个词一个词往外蹦,别想太多。
Kevin Weil:确实很神奇,对人类思维的理解往往能帮助我们理解这些模型是如何工作的。就像我说错了一句话很难纠正回来,模型也是这样。说回预训练这个话题,o1 实际上是通过查询时的处理来提升智能的一种新方式。不同于「系统 1 思维」,当你问我一个问题时,我不会立即给出答案,而是会停下来思考。就像我会做的那样,比如说让你解决一个数独题,或者纽约时报的连线填词谜题。你会进行分析、假设,用已知信息来验证或否定这些假设,然后基于这些继续推理。这就是科学突破产生的方式,也是我们解决复杂问题的方法。所以关键是要教会模型如何这样思考。
现在的模型会在给出答案前思考 30 到 60 秒。那不妨想象一下,如果它们能够思考 5 个小时或 5 天会怎样。这基本上是提升智能的一种全新方式。我们觉得我们才刚刚开始,可以说是处在这种新型推理方式的 GPT-1 阶段。但同样,你不会在所有场景下都用这种方式,有时候你问我一个问题,你不想等 60 秒,我就应该直接给你答案。所以我们最终会用不同的方式组合使用这些模型。拿网络安全来说,你可能会觉得这不太适合用模型,因为它们可能产生幻觉,在这个领域这似乎很危险。但你可以先针对特定任务微调一个模型,然后再微调模型使其对输入输出的要求非常精确,让这些模型开始协同工作。比如让一些模型负责检查其他模型的输出,发现问题时要求重试。
这就是我们在内部获得大量价值的方式:针对特定用例,设计模型之间的协作机制,让它们一起完成特定任务。这又回到了我们如何理解人类工作方式的问题,我们人类是如何完成复杂任务的?通常是不同的人,带着不同的专长,一起协作来完成一个困难的任务。
全新的人机交互范式
主持人:在结束之前,我特别想请你们预测一下未来——我知道现在 AI 发展太快,可能没人能看得太远——但告诉我你们能看到多远?比如说,半年或一年内,你们觉得会出现什么样的新体验?或者什么会成为主流?
Mike Krieger:我经常思考这个问题,让我提两个关键词。第一个是主动性,模型将如何变得更主动?一旦它了解了你,它会以一种恰当的方式(不会让人觉得毛骨悚然)监控你的邮件,因为你授权了它这样做。然后它可能会发现一些有趣的趋势,或者在你开始新的一天时,主动给你一个正在发生事件的摘要。“嘿,你下一个会议快开始了,这是你可能想要讨论的内容。我看到你要做这个演讲,我已经帮你准备了一个初稿。”这种主动性我觉得会非常强大。
另一个关键词是更加异步。我觉得 o1 在这方面做了很好的尝试,它会告诉你它打算做什么。你可以坐在那里等它,但你也可以说:“好的,它需要思考一会儿,我先去做点别的,待会儿再回来看看。”也许它还能在完成时通知你。在时间维度上的突破,既包括它主动告诉你一些你没有问的信息,我觉得这会很有意思,也包括在你确实问了问题后,它能说:“好的,我要好好思考一下,需要做些研究,可能还得问问其他人,然后我会给出初步答案,我会验证这个答案。大约一个小时后你就能收到我的回复。”
打破那些期待立即得到答案的限制,我觉得这会让我们能做一些更深入的事情。比如“我有个小项目计划,帮我把它完善一下”,或者不只是“我想改变屏幕上的这个东西”,而是“帮我修复这个 bug”,“拿着我的产品需求文档,根据这些新的市场条件调整一下”,“根据这三种不同的市场情况做相应的调整”。能够在这些维度上突破,这是我个人在产品层面最期待的发展。
Kevin Weil:我完全同意 Mike 的这些观点。我觉得模型将以指数级速度迭代升级,这也是所有这些功能得以实现的基础。另一个令人兴奋的方向是,模型将能够以我们人类互动的所有方式进行互动。现在你主要是通过打字和这些系统交流,就像我主要也是在 WhatsApp 上打字和朋友聊天,但我想通过语音和视频的方式和人交流。
我们最近发布了高级语音模式,我在韩国和日本出差时,经常会遇到完全没有共同语言的人。在此之前,我们一句话都说不了。但现在我可以说:“嘿,ChatGPT,我想让你当翻译。我说英语时,你用韩语说出来;当你听到韩语时,用英语告诉我。” 突然间,我就有了一个通用翻译器,可以进行商务对话了。这简直太神奇了。想想这能带来什么改变,不仅仅是在商务场合,想想如果你不用担心语言不通,人们去新地方旅行的意愿会有多大。你口袋里装着一个星际迷航式的通用翻译器,这感觉太棒了。我觉得这样的体验很快就会变得普遍,虽然现在看来还很神奇,但再加上 Mike 刚才说的那些功能,前景真的很令人兴奋。
主持人:说到这个,自从语音模式发布以来,我最喜欢的消遣之一就是看 TikTok 上的视频——这暴露了我的年龄——现在有一类视频专门记录年轻人和语音模式聊天,倾诉心事,用各种方式使用它,看得我直呼哇塞。以前我们经常说“数字原生”或“移动原生”,而现在虽然我很相信 AI 的前景,但我根本想不到要用这种方式和它互动。反观 14 岁的孩子们会觉得“AI当然应该能做到这个了”。我很喜欢看到这种现象。
Kevin Weil:你给你的孩子们用过吗?
主持人:还没有,我的孩子才 5 岁和 7 岁,Kevin 认识他们。所以这事儿还得慢慢来。
Kevin Weil:我的孩子 8 岁和 10 岁。在车上他们会问“我能和 ChatGPT 说话吗?”我说可以。然后他们会问一些特别天马行空的问题,跟它进行各种奇怪的对话。但他们完全不觉得和 AI 聊天有什么不自然。
主持人:说到这个,当年我父母给我读书时,能让我选书就已经很幸运了,不然就是我爸说“来,我们读读这篇我感兴趣的物理研究。” 但现在,我的孩子不知道是不是因为在硅谷长大的缘故,他们会说:“妈妈,让 AI 生成图片。我要讲一个关于这个场景中龙和独角兽的故事,我要告诉你具体要怎么发生,你要实时创造出来。” 我的反应是,这要求可真高啊。
总之,这确实是一种全新的创造娱乐的方式。说说看,你们在自己的产品中最近看到的最令人惊讶的使用行为是什么?
Mike Krieger:从产品角度来看,这不仅仅是一种使用行为模式,更是一种全新的人机交互范式。随着我们推出新一代模型,用户开始深入理解 Claude 的特性变化,这种互动逐渐超越了简单的工具使用,更像是在建立某种程度的情感连接。比如当模型表达“这个版本我在推理能力上提升了,你可能会感受到些许交互风格的改变”时,用户会像对待朋友一样去适应和理解这种变化。这让我意识到,我们不只是在开发一个产品,而是在打造一个具有认知能力的智能体。这个过程让我对用户心智模型的演变有了更深的洞察。
Kevin Weil:确实,模型的行为特征已经成为产品设计中的核心要素。这也引发了一系列深层次的问题:我们应该在多大程度上对模型进行个性化定制?是让 OpenAI 维持统一的交互风格,还是让每个模型保持其独特性?更有趣的是,用户可能会基于模型的“性格特征”来选择使用偏好,这其实很符合人类选择社交对象的自然倾向。
最近我们在 Twitter 上做了个有趣的实验:让用户询问模型“基于我们的历史互动,你如何描述我这个人?” 模型会通过分析交互记录生成个性化的用户画像。用户对这种深度个性化体验的反响,让我们看到了 AI 个性化发展的无限可能。
阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”
截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告
上下滑动查看更多