👇关注公众号后设🌟标,不错过第一手AI新鲜观点和动态
本文访谈内容整理自Kevin Weil (OpenAI CPO), Mike Krieger (Anthropic CPO) 在Lenny's Podcast Youtube频道的专访,公开发表于2024年11月06日。原始内容参考:https://www.youtube.com/watch?v=IxkvVZua28k
Kevin Weil (OpenAI CPO)与Mike Krieger (Anthropic CPO)对谈
★内容导读:
关于AI产品开发中的挑战和意外:
快速的技术进步: 技术发展日新月异,产品路线图不断被新的模型能力所扰乱。这需要一种高度迭代和灵活的方法。 60%的解决方案: 模型通常无法达到完美的准确率(99%),但如果产品设计能够处理不完美之处并融入人工参与流程,即使只有60%的准确率也可能具有价值。关键在于关注交付的价值,而不仅仅是完美的性能。 企业级与消费级: 企业级和消费级产品的反馈循环和时间线差异巨大。企业客户需要更长的交付周期和更直接、个性化的反馈。企业级的成功不仅仅取决于产品本身,还取决于满足买方的目标和组织需求。 评估至关重要: AI产品的质量在很大程度上取决于其评估的质量。开发强大的评估方法是产品经理的一项关键技能,迭代和改进评估的能力至关重要。这包括理解当前的模型往往是“评估受限”而不是“智能受限”。 产品经理角色的融合: AI产品经理的角色正在发展,涵盖了研究和评估的方面,需要更深入地理解技术栈和模型能力。 关于未来AI产品开发者所需的技能:
编写和迭代评估: 这是产品经理的一项核心技能,需要能够定义成功、创建有效的评估,并根据数据分析不断改进评估。 使用模型进行原型设计: 利用AI模型本身快速原型设计不同的UI设计和选项,是加速开发过程的一种高效方法。 更深入的技术理解: 虽然不需要精通技术,但对底层技术和模型能力的更好理解对于有效的产品管理至关重要。 管理非确定性系统: 学习设计和处理产生不可预测输出的系统的反馈机制是关键。理解并适应AI的局限性和意外至关重要。 关于AI产品的未来:
主动性和异步性: 未来的AI产品将更具主动性,能够预测用户的需求并在被明确要求之前提供建议或帮助。它们也将减少对即时响应的依赖,允许异步交互以及更复杂、耗时的任务。 多模态交互和通用翻译: AI将变得越来越多模态,结合语音、视觉和其他感官输入。这包括实时翻译的潜力,打破语言障碍。 模型个性和用户关系: AI模型的“个性”和行为将变得越来越重要,它将塑造用户体验并创造一种连接感或同理心。 多个模型的工作流程和编排: 高级的AI应用程序将协同使用多个模型,利用每个模型的优势来完成特定任务。 教育终端用户: 快速变化的技术需要将教育直接融入产品本身,以帮助用户理解和适应新的能力和用户体验。
参会人简介
Kevin Weil 曾任 Twitter 产品副总裁,现任 OpenAI 首席产品官 (CPO)。他负责将 OpenAI 的尖端 AI 技术转化为用户友好的产品,例如 ChatGPT 和 DALL-E,推动了生成式 AI 的普及。他的工作重点在于提升产品的可访问性、功能性和用户体验,以最大化 AI 的影响力。
Mike Krieger 是 Instagram 的联合创始人,现任 Anthropic 首席产品官 (CPO)。Anthropic 是一家专注于构建安全可靠 AI 系统的公司。Krieger 利用其丰富的产品经验,领导 Anthropic 的产品战略和执行,致力于将负责任的 AI 理念融入产品开发的各个环节。
Sarah Guo 是风险投资公司 Conviction 的创始合伙人。她专注于投资早期科技公司,尤其关注生成式 AI、基础设施软件和开发者工具等领域。Guo 具有敏锐的市场洞察力和丰富的投资经验,致力于帮助创业者构建具有变革意义的企业。 她相信 AI 将重塑各行各业,并积极寻找和支持能够引领这一变革的团队。
访谈全文记录
主持人Sarah Guo: 很高兴能和你们两位在一起。我最初有两个不同的想法作为我们最后的讨论主题。第一个是产品发布会,因为这两位男士都拥有“合并产品”按钮,我想:哦,请直接发布我们知道的所有未来六个月或十二个月即将发布的东西。忽略所有内部准则。第二个想法是,我们一起重新设计Instagram,因为他们之前都运营过Instagram。这两个想法都被完全否决了。
所以,我想我们最终还是会在朋友之间交流心得。很无聊,我知道。但无论如何,我真的很期待听到你们两位的分享。所以,对你们两位来说,这都是一个相对较新的角色。Kevin,我们先从你开始。你做过很多不同且有趣的事情。当你从朋友和团队那里接受这份工作时,他们的反应是什么?
Kevin Weil: 总体来说是兴奋。我的意思是,我认为这是最有趣和最有影响力的角色之一。有太多东西需要弄清楚了。我一生中从未有过如此具有挑战性、有趣且让人睡不着的产品角色。它包含了普通产品角色的所有挑战,你需要弄清楚你为谁构建产品,以及你能解决什么问题等等。但通常当你构建产品时,你是在某种固定的技术基础上进行构建的,对吧?
你知道你需要用什么,然后你尽力构建最好的产品。而在这里,每两个月,计算机就能做到以前历史上从未做到过的事情,你必须弄清楚这将如何改变你的产品,答案可能应该是一个相当大的变化。所以,从内部看到人工智能的发展是如此有趣和令人着迷,我一直玩得很开心。
主持人Sarah Guo: Mike,你呢?我记得听到这个消息的时候,我想,哦,我不知道你能说服Instagram的创始人去做一件已经存在的事情。
Mike Krieger: 我最喜欢的三个反应是:认识我的人会说,“哦,这说得通。你会在那里玩得很开心。”那些不太了解我的人会说,“为什么?你不需要工作。你为什么要这么做?” 然后,如果你了解我,你会知道我的想法,“我停不下来。”我认为我无法阻止自己。第三种反应是,“哦,你能雇佣Instagram的创始人”,这也很有趣。
我的意思是,没几个人能做到,但可能会有三家公司会对此感兴趣。所以,是的,根据你对我的了解程度,以及你是否见过我那种“半退休”的状态(只持续了六周),我的反应各不相同,然后我就想,“好吧,接下来我们做什么?”
主持人Sarah Guo: 最近我们和一群朋友一起共进晚餐,我对你在学习所有这些企业方面的事情时表现出的孩子气的快乐印象深刻。告诉我,这到底是关于服务那些不像我们所有Instagram用户一样的客户,还是仅仅是在一个以研究为主导的组织中工作?到目前为止,最大的惊喜是什么?
Mike Krieger:我认为这两个都是这个角色中非常有价值的部分,对我来说也是全新的体验。18岁的时候,我立下了一个18岁少年的誓言,那就是我的人生中每一年都要有所不同,我不想让任何一年重复。所以,有时候我会想,哦,另一个社交产品,我又要这样做了吗?首先,你的标准真的太扭曲了。其次,这感觉就像是在做同样的事情。
所以,是的,企业业务发展得非常疯狂。我也非常好奇你在这方面的经验。比如,你的反馈循环,我实际上认为它更像是投资,周期要长得多,对吧?你会有最初的谈话,你会想,我觉得他们喜欢我。然后你会想,哦,不,它现在处于某种申请状态了。可能需要六个月的时间他们才能开始部署,你才能知道它是否合适。所以习惯这种节奏,我们会想,为什么这个还没发布呢?他们会说,迈克,你来了两个月了。这就像,它正在通过副总裁们审批。它最终会到位的。所以适应不同的时间线肯定很重要。
但有趣的部分实际上是获得反馈和参与其中,你会发现,一旦它部署完毕,你就能有一个人可以打电话给你,你也可以打电话给他们,问他们:“它对您有用吗?好用吗?”而对于用户来说,你是在做数据科学和聚合分析。当然,你可以找一两个用户来了解情况,但他们没有足够的经济利益驱使他们告诉你你的不足之处和做得好的地方。这方面有所不同,但也同样令人欣慰。
主持人Sarah Guo:凯文,你之前做过各种各样的产品。你的直觉有多少适用性?
Kevin Weil:是的,我也想补充一下关于企业业务的观点,然后我会谈到那个。关于企业业务另一个有趣的事情是,它并不一定与产品有关,对吧?有一个买家,他们有目标,你可以打造世界上最好的产品,公司里的所有人可能都乐意使用,但这仍然不一定重要。没错。我曾与我们的一位大型企业客户开会,他们说:“这很棒,我们非常满意……”,唯一需要的是,你们真的需要在发布任何东西之前60天通知我们。我说,我也想提前60天知道。
Kevin Weil:所以非常、非常不同。事实上,这很有趣,对吧?因为在OpenAI,我们有消费级产品,也有企业级产品和开发者产品。所以我们同时在做所有这些。就直觉而言,我认为在工作的一半时间里,它很有效。你知道,当你对你要构建的产品有感觉时,你知道,我们正在接近发布高级语音模式或其他什么东西的尾声,或者你正在接近发布画布,你正在做最后的润色,试图了解你为谁构建产品以及你到底要解决什么问题,这时它就有效了,因为这更像是发布普通产品的尾声,但这些事情的开始却完全不同……
所以会有我们不知道的能力。当你训练一些新模型时,你会感觉到它可能有X能力。你真的不知道,研究团队也不知道,任何人都不知道。你会想,我认为这可能是可能的。这就像从雾中出现的雕像,但它是模型的一种涌现属性。所以你不知道它是否真的有效,也不知道它会是60%好,90%好还是99%好。
你会构建的产品,对于一个60%有效率的东西来说是有意义的,而对于90%或99%有效率的东西来说,意义就完全不同了,对吧?所以你只能等待,至少,我不知道你是否也有这种感觉,你会不时地与研究团队联系,说:“伙计们,进展如何?模型训练得怎么样?有什么见解吗?”他们会说:“这是研究。我们正在努力。我们也不知道。我们也在同时努力解决这个问题。”这使得它变得非常有趣,因为你们就像是在一起发现事物,但也很随机。
Mike Krieger:这最让我想起Instagram时期的苹果WWDC发布会,你会想,这要么对我们来说很棒,要么会给我们带来绝对的混乱。就像那样,但是你自己的公司是在内部扰乱你,这非常酷,但也会让人觉得,哦,这可能会彻底颠覆我的产品路线图了。
主持人Sarah Guo:对于你们两人来说,这个周期是什么样的?你把它描述成透过迷雾观察下一组能力。我的意思是,如果你不知道接下来会发生什么,你能计划吗?发现应该属于你产品的新事物的迭代周期是什么?
Mike Krieger:我认为在智能方面,你可以眯起眼睛看看,好吧,它正在朝这个方向发展,所以你会想要用这个模型做的事情,并开始围绕它构建产品。有三种方法,对吧?智能感觉不可预测,但至少在一个你可以观察的斜坡上。有一些能力是你决定从产品方面投资的,然后与实际的研究团队进行微调。
像Artifacts一样,我们在研究之间花费了大量时间。我认为Canvas也是如此,对吧?你正在进行协同设计、协同研究、协同微调,我认为这是能够在该公司工作并参与设计的一个特权,然后还有一个能力方面,也许是针对OpenAI的语音模式,对我们来说,是本周发布的计算机使用(computer use)工作,你会说,好吧,60%,好吧,是的,好吧,所以我们试图做的是让设计师尽早参与到这个过程中,但要知道,你并不是在押注,就像实验讨论中所说的那样,你的实验结果应该是学习,而不是每次都发布完美的产品,我认为当你与研究人员合作时也是如此,你的结果有希望是演示或信息性内容,可以激发产品创意,而不是一个可预测的产品流程,例如,“好吧,现在风险已经降低了,这意味着当研究出现时,它将是这样的”。
Kevin Weil:还有一点我非常喜欢的是,研究至少部分,部分研究非常注重产品导向,尤其是在培训后的阶段,就像迈克说的那样。然后,它的一部分在某种程度上确实像学术研究。所以,你偶尔也会听到一些功能,我们会在会议上,你会想,“哦,我真希望我们能做到这一点”。团队里的研究人员就会说,“哦,不,我们能做到。我们三个月前就有了。”我们会说,“真的吗?这是什么意思?好吧,我从哪里可以了解更多信息?”他们会说,“哦,我们认为,我们不知道这很重要,所以我正在研究其他事情。”但有时你也会发现神奇的事情发生。
主持人Sarah Guo:我们在投资时会思考很多的一点是,如果模型在某个任务上的成功率是60%而不是99%,你能用它做些什么?在很多任务中,它更接近60%,对吧?但任务非常重要且有价值。在评估任务进展方面,你们内部是如何考虑这个问题的?然后,你们在产品中承担哪些责任来使其优雅地失败或克服用户体验的障碍,而不是仅仅等待模型变得更好?
Kevin Weil:我认为,当某些事情只有60%正确时,实际上有很多事情是可以做的。你只需要认真地为此设计。你必须预料到人为干预会比平时多得多。如果你看看GitHub Copilot,它可以说是第一个真正让人们眼前一亮的AI产品,它不仅可以用作问答工具,还可以用于真正具有经济价值的工作。它发布时,我不知道它是基于哪个模型构建的,但我的意思是,那已经是几代之前的模型了。所以,我保证那个模型在任何与编码相关的事情上都不是完美的。
主持人Sarah Guo:我认为是GPT-2,它相当小。
Kevin Weil:是的,但事实上它仍然对你有价值,因为如果它能完成大部分代码,那么你就不必自己键入这些代码,你还可以对其进行编辑。我认为,这样的体验完全有效。我认为我们将看到类似的事情发生在转向代理和更长形式的任务上,它可能并不完美,但如果它能为你节省五到十分钟,那仍然是有价值的。更重要的是,如果模型能够理解它不确定的部分,并能够返回并告诉你:“我不确定这一点,你能帮我一下吗?”那么,人与模型的结合将远高于60%。
Mike Krieger:我也发现60%——这个神奇的60%数字,有点粗略。我五分钟前编造的。那就是重点,60%。60%,这就是我们的新……这是AI的“门多萨线”。我认为它通常非常不稳定,它在某些任务上表现非常好,而在其他任务上则表现不佳。
★“门多萨线” (Mendoza Line) 指的是棒球比赛中,一个球队在赛季中所达到的胜负记录,通常是 40胜40负 或 50%胜率。 达到这个胜负记录被认为是到达了一个关键点,表示球队可能进入季后赛,也可能无缘季后赛。 它并非一个正式的、官方的线,而是一个非正式的、用来衡量球队赛季表现的指标。
我认为这在与客户一起运行试点项目时也很有帮助。当我们从两家不同的公司获得同一天的反馈时,这非常有趣。一家公司会说:“它解决了我们所有的问题,我们三个月来一直在尝试解决这个问题,谢谢。”另一家公司会说:“它完全偏离了目标,比其他模型更糟糕。”因此,了解到你们有自己的内部评估,但最终检验模型的时刻是将它推向世界,这就像你完成了所有设计,然后把它放在一个用户面前,你会想,“哇,我错了”。模型也有这种感觉,你会觉得我们尽最大努力去获得良好的感觉,但人们有他们自己的自定义数据集,他们有他们自己的内部使用方式,他们以某种方式提示它。所以这掩盖了当您实际将其推向世界时的那种几乎是双峰的特性。
Kevin Weil:我很想知道你是否也有这种感觉。我认为,当今的模型并非受限于智能,而是受限于评估。它们实际上可以做得更多,并且在更广泛的事情上更准确,比现在要好得多。这实际上是关于教导它们。它们拥有智能。你需要教它们某些特定主题,这些主题可能不在它们最初的训练集中。但如果你做得对,它们就能做到。
Mike Krieger:是的,我们一直都看到这种情况,大约三年前发生过很多令人兴奋的AI部署。现在他们说:“我们认为新模型更好,但我们从未进行过评估,因为三年前我们所做的只是发布酷炫的AI功能。”最难让人们克服的障碍是:“让我们退一步,成功对你来说究竟意味着什么?你正在解决什么问题?”通常产品经理已经轮换了,所以就像有人继承了它。
然后我们会说,“好吧,那看起来是什么样的?好吧,让我们写一些评估。我们了解到Claude实际上擅长编写评估以及评分。所以我们可以为您自动化很多工作,但您必须告诉我们成功是什么样的。然后让我们迭代地改进。这通常是任务的60%和任务的85%之间的区别。如果你来面试Anthropic,也许你应该在某个时候来,也许你对你的工作很满意,也许不满意,你会看到我们在面试过程中做的一件事就是让你把提示从糟糕的评估变成好的评估。我们想看看你的想法,但这样的才能在其他地方并不够多,所以我们正试图获得这种……如果说有一件事我们可以教人们,那可能是最重要的。
Kevin Weil:是的,编写评估,我的意思是,我认为这将成为PM的核心技能。
Mike Krieger:我们实际上遇到了这种情况,这可能有点内部说法,但我认为这很有趣。在内部,我们有研究PM,他们主要从事模型能力和模型开发,然后我们有更多面向产品的PM,我们的API PM,我们最终意识到,在2024年、2025年构建AI驱动功能的PM的工作,在很多情况下越来越像前者而不是后者。我们推出了我们的代码分析,基本上,Claude现在可以分析TSP并为你编写代码,而那里的PM能够将它完成80%,然后必须将其交给能够编写评估的PM,然后进行微调和提示。我觉得这实际上是同一个角色。你的功能质量现在取决于你评估和提示做得有多好。因此,PM的定义现在肯定正在融合。
Kevin Weil: 是的,绝对如此。我们建立了一个训练营,让每个产品经理都参与编写评估以及了解评估的流程,以及优秀评估和糟糕评估之间的区别。而且我们肯定不会止步于此,我们必须不断迭代改进。但这对于使用AI打造优秀产品至关重要。
主持人Sarah Guo: 对于任何希望未来擅长构建AI产品或研究产品的人员的招聘环节来说,我们无法让你们参加你们的训练营,Kevin。那么,我们该如何培养对评估和迭代循环的直觉呢?
Kevin Weil: 我认为你可以利用模型本身来做到这一点,就像你刚才提到的那样。现在你可以向模型提问:什么是好的评估?我想这样做,你能帮我写一个示例评估吗?它会做得相当不错。
Mike Krieger: 我认为这很有帮助。我认为还有一个问题是,如果你听取从Andrej Karpathy到其他在该领域投入大量时间的人的意见,没有什么比查看数据更有效了。所以人们常常纠结于:“好吧,我们已经有这些评估了,新模型的准确率是80%,而不是78%,我们不能发布,因为它更差了。”而我会说:“我们可以看看它失败的案例吗?”你会发现,“哦,实际上,这个更好,只是我们的评估标准不够好。”或者说,就像一个内部笑话,你知道每个模型发布都会有模型卡和一些评估,即使是标准答案,我都会想,“我不确定人类是否会这么说”,或者“我认为这个计算结果有点错误”。想要达到100%的准确率非常困难,因为即使是评分本身也很有挑战性。所以,我建议你,培养直觉的方法是查看实际答案,即使只是一些样本,然后思考:“好吧,也许我们应该改进评估标准,或者即使评估标准很严格,结果也还不错。”深入研究数据非常重要。
Kevin Weil: 我也认为,随着我们转向更长格式、更自主的任务,观察其演变将会非常有趣。如果你的评估是“我给你出了一个数学题,你能计算出四位数的加法并得到正确答案”,那么很容易知道什么是好的结果。但当模型开始执行更长格式、更模糊的任务时,例如“帮我预订纽约市的一家酒店”,什么是正确的答案呢?这很大程度上取决于个性化。如果你问两个能力完全胜任的人,他们会做两件不同的事情。所以你的评分变得更加主观,这将会非常有趣。我认为我们将不得不再次改进,说到不断地重新发明东西。
Mike Krieger: 我认为很多时候,当你想到时,我认为两个实验室都有一些概念,比如,随着事物的发展,能力看起来是什么样的。这有点像职业阶梯,你承担着更大、更长远的任务。也许评估开始更像绩效评估。我现在正处于绩效评估季,所以这就是我脑海中的隐喻,抱歉。但就像,你知道的,模型是否达到了你对胜任人类行为的预期?它是否超过了预期,因为它速度提高了两倍?或者发现了你不知道的餐厅?它是否大大超过了大多数人的预期?它开始变得比简单的对或错更细致入微。
Kevin Weil: 更不用说,人类正在编写这些评估,而模型已经能够在某些任务上胜过人类。例如,人们更喜欢模型的答案而不是人类的答案。那么,如果人类在编写你的评估,这意味着什么呢?
主持人Sarah Guo: 哦,什么?好的。评估显然是关键。我们将花大量时间与这些模型一起学习如何编写评估。产品人员现在还应该学习哪些其他技能?你们都在学习的道路上。
Mike Krieger: 我认为使用这些模型进行原型设计是一个被低估的方面。我们最好的产品经理会这样做,我们会进行长时间的讨论,例如UI应该是这样还是那样?在我们的设计师拿起Figma之前,我们的产品经理,或者有时是我们的工程师,会说:“太好了,我用Claude进行提示,我对这两种UI的外观进行了A/B比较,让我们尝试一下。”我会说,“哦,这太酷了。”然后我们将能够比以前更快地尝试更多种类的原型并进行评估。因此,使用这些工具进行原型设计的能力,我认为是一个非常非常有用的技能。
Kevin Weil: 这很好。我还会,你刚才也提到了这一点,但我认为这也会促使产品经理更深入地了解技术栈。是的,这可能会随着时间的推移而变化。如果你在2005年左右从事数据库技术工作,那么它可能需要你以与现在不同的方式深入了解。抽象层会被构建,你可能不需要了解所有基础知识。但这并不是说每个产品经理都需要成为研究人员,但我认为对它有所了解,花时间学习这门语言并获得对这些技术如何工作的直觉,我认为会有很大帮助。
Mike Krieger: 我认为另一个方面是,你正在处理这个随机的、非确定性的系统,评估是我们对此进行的最佳尝试,但在你无法控制模型将会说什么的世界中进行产品设计。你可以尝试。你需要哪些反馈机制来闭环?你如何判断模型何时偏离了轨道?你如何快速收集这些反馈?你想设置哪些防护措施?你甚至如何知道它总体上做了什么?这更像是,你了解这种智能的输出,它跨越大量输出,遍及很多人,每天都是如此。它需要一组非常不同的东西,例如,“错误报告是,你点击了按钮,它没有遵循用户操作”,这是一种相当容易理解的问题。
Kevin Weil:好吧,也许五年后,当人们习惯了这种交互方式后,情况会发生变化,但我想我们现在都还在适应这种非确定性用户界面的阶段。当然,那些不是技术人员,没有参与过科技产品开发,只是在使用AI的人,肯定是不习惯的。这与我们在过去25年使用计算机积累的所有直觉相悖。所以,通常情况下,你输入完全相同的指令,计算机就会给出完全相同的输出,而现在这种情况不再成立了。我们不仅需要适应构建产品的过程,还需要设身处地为用户着想,思考这对他们意味着什么。它有缺点,也有非常酷的优点,所以思考如何以不同的方式利用它的优势很有趣。
Mike Krieger: 我记得我们在Instagram做了很多滚动式用户研究。所以我们每次,或者说研究人员每周都会邀请不同的人来参与。任何准备就绪的原型都会被拿来测试。我们在Anthropic也做同样的事情。但有趣的是,在这些测试环节中,用户的Instagram使用方式常常让我感到意外。他们的用例或对新功能的反应总有一些有趣之处。现在,一半取决于用户的行为,一半取决于模型在那种情况下的反应。你会想,“哦,它做对了,太棒了!”所以在用户研究环境中,你会有一种自豪感。当然也会有沮丧的时候,你会想,“哦,不,它误解了我的意图”,然后你就会看到答案里跳转到第10页了。所以,这可能有点像要达到一种“放空”的状态,放下对结果的控制,顺其自然。
主持人Sarah Guo:你们两位都参与过这些面向消费者的体验项目,这些项目迅速地教会了数亿人新的使用习惯。而这些AI产品的发展速度甚至比这还要快,对吧?如果产品经理和技术人员本身对如何使用这些产品并没有太多直觉,那么你们是如何考虑以你们现在所参与的规模来教育终端用户如何使用这种反直觉的产品的呢?
Kevin Weil: 我觉得我们适应的速度真是令人惊叹。我前几天跟别人聊天,他们跟我讲了他们第一次乘坐Waymo的经历。谁坐过Waymo?
Mike Krieger: 我们这里就有一辆。
Kevin Weil: 是的,如果你没坐过Waymo,你在旧金山,离开这里的时候就乘坐Waymo去你想去的地方吧。这是一种神奇的体验。但他们说,最初的30秒,我一直在想,“哦,我的天哪,小心那个骑自行车的人!”五分钟后,我就想,“哦,我的天哪,我正在体验未来!”十分钟后,我就开始无聊地刷手机了。
我们适应新事物,特别是那些神奇的事物,速度有多快啊。我想,ChatGPT诞生还不到两年。它刚出现时绝对令人震惊。但现在,如果我们不得不回去使用最初的,可能是GPT 3.5吧,
主持人Sarah Guo: 太可怕了,是的。
Kevin Weil: 而且,现在正在发生的事情,我们正在做的工作,你们正在做的工作,这一切都感觉像魔法一样。12个月后,我们会想,“你能相信我们曾经使用过那种垃圾吗?”因为它的发展速度太快了。但这同时也让我惊叹于人们适应的速度之快。因为,尽管我们尽力引导大家,但也存在很多令人兴奋的事情。人们理解到世界正在朝这个方向发展,我们必须努力让它成为我们能够做到的最好的发展方向,而这一切正在发生,而且速度很快。
Mike Krieger: 我们正在努力改进的一点是让产品本身以一种非常直白的方式进行教育,这是我们早期没有做到的,现在我们正在改变,那就是让Claude更多地介绍自己,比如,在它的训练集中包含了它是Anthropic创建的人工智能等等信息。但现在我们直接说,“这就是如何使用这个功能”。因为人们会问,同样,这是来自用户研究的反馈,因为他们会说,“我该如何使用这个东西?”然后Claude会说,“我不知道,你试过在网上搜索吗?”你会说,“不,这没有帮助。”所以我们正在努力让它更接地气。然后在发布时,这是一个我们正在改进的过程。但现在看到这个链接,直接指向文档,这就是使用方法,我一步一步地帮助你。哦,你卡住了,我可以在这里帮助你。所以这些东西实际上非常擅长解决UI问题和用户困惑,我们应该更多地利用它们来解决这些问题。
主持人Sarah Guo:但在企业中尝试进行变更管理时,情况一定会有所不同,对吧?因为存在着关于如何做事现状,存在组织流程。你们是如何考虑教育整个组织了解生产力改进或其他可能带来的改进的呢?
Mike Krieger: 我认为企业级应用非常有趣,因为即使这些产品拥有数百万用户,但核心用户仍然非常多,我认为仍然是早期使用者,喜欢技术的人,然后还有很长的尾巴。而当你进入企业时,你是在向一个组织部署,这个组织通常包含很多非技术人员。而我认为这实际上非常酷,看到相当多的非技术用户第一次接触到由聊天驱动的LLM,然后看到它……然后你可以有幸组织一个研讨会来教他们如何使用它,并提供教育材料。所以我认为我们需要从这些经验中学习,然后说,这就是我们需要教下一亿人如何使用这些UI的方法。
Kevin Weil: 他们通常是内部的核心用户,并且很乐意教其他人。在OpenAI,我们有这些可以自定义的GPT,组织通常会创建数千个这样的GPT。这是一种让核心用户创建一些东西的方法,可以让AI更容易使用,并立即为那些可能不知道如何使用它的人带来价值。所以这是一件很酷的事情。你可以找到核心用户群体,他们实际上会成为布道者。
主持人Sarah Guo:那么我必须问你,因为你们的组织都是核心用户,对吧?所以你们生活在未来的一个小角落里。我将问一个问题,但你可以随意调整方向。我该如何使用计算机?这太神奇了!你们都在做什么?
Mike Krieger:是啊,内部情况是这样的,我的意思是,这和凯文之前说的差不多,什么时候能准备好?好吧,就像这样。它发布得相当仓促。我们很有信心,觉得它不错,不想放弃。虽然现在还比较早,还会出错,但我们该如何改进呢?最有趣的一个用例是,我们在测试阶段,有人问:“我想看看它能不能帮我们点个披萨?”结果它真的点了。他们说:“太棒了!”然后就看到达美乐的披萨出现在办公室,完全是由AI订购的。这是一个非常酷的里程碑式时刻。然
后我们想,“啊,是达美乐啊。”但这真的太神奇了。太棒了!是啊,但这是AI做的,所以很棒。而且它点了很多披萨,可能比预期的更饿一些。我们看到的一些早期成果非常有趣,其中之一是UI测试。以前,比如在Instagram上,我们几乎没有UI测试,因为它们很难编写,而且很脆弱。经常会出现这种情况:我们稍微调整了一下按钮的位置,测试就失败了,即使这正是PR的目的。我们不得不重新进行截图测试。早期,计算机的使用在“它是否按预期工作”、“它是否完成了你想要它完成的事情”方面非常有效,我认为这一点非常非常有趣。
Kevin Weil:真的太神奇了。
Mike Krieger:然后我们开始关注一些自主性的事情,比如涉及很多数据操作。所以我们正在和支持团队和财务团队一起研究这个问题,这些公关表格不会自己填写,但它们非常重复。你经常在一个数据孤岛中拥有数据,而你想把它放到另一个数据孤岛中,这需要人力时间。我在谈论计算机使用时一直用“苦差事”这个词。我们能否自动化这些苦差事,让你专注于有创造力的事情,而不是为了完成一件简单的事情而进行30次点击。
Kevin Weil:我认为人们可能没有意识到,实际上我们很多最成熟的客户以及我们在内部所做的事情,并不是针对任何特定事情使用单一模型。最终你会将各种工作流程和模型之间的编排组合在一起。因此,你会根据它们的擅长之处来使用它们。O1非常擅长推理,但它也需要一些时间来思考,而且它不是多模态的,还有其他一些缺点……
主持人Sarah Guo:你能为团队定义一下“推理”吗?我知道这是一个基本问题,但是……
Kevin Weil:是的,我认为人们已经很习惯于大规模预训练的概念了。从GPT-2、3、4、5,等等,你在进行越来越大的预训练运行。这些模型变得越来越聪明,或者更确切地说,它们知道的越来越多。但它们有点像系统一思维。你问它一个问题,它会立即给出答案。就像文本补全一样。我现在问你问题,你只是逐个token地输出答案。继续说,别想。
事实上,令人惊讶的是,你对其他人如何工作的直觉,通常会帮助你理解这些模型是如何工作的。你知道,你问我一个问题,我可能会进入错误的句子。很难恢复。模型也会完全做同样的事情。但是你有了这种越来越大的预训练。O1实际上是一种通过在查询时进行扩展智能的不同方法。
因此,与其说是系统一思维(我问你一个问题,它会立即试图给你答案),不如说它会停顿一下。如果你问我一个问题,比如“解这个数独”或者“解这个纽约时报的连线谜题”,你也会这样做。你会开始思考,“好的,这些词,它们是如何组合在一起的?好的,这些可能是这四个。嗯,我不确定,可能是……”你就像是在形成假设,利用你所知道的来反驳或证实这些假设,然后以此继续推理。
这就是科学突破的产生方式,也是我们解答难题的方式。所以这是关于教模型如何推理。现在,它们会在回答之前思考30秒或60秒。想象一下,如果它们能思考5个小时或5天会发生什么。所以这基本上是一种扩展智能的新方法。我们感觉我们才刚刚开始。我们正处于这种新型推理的GPT-1阶段。但同样,你不会用它来做所有事情,对吧?
有些时候,你问我一个问题,你不想让我等60秒。我应该直接给你答案。因此,我们最终会一起以多种不同的方式使用我们的模型。例如,网络安全,你可能会认为它不是模型的用例。它们可能会产生幻觉,这似乎不是一个产生幻觉的好地方。但是你可以,微调一个模型使其擅长某些任务。然后你可以微调模型,使其非常精确地处理它们期望的输入和输出类型,并让这些模型开始协同工作。还有模型会检查其他模型的输出,发现某些东西没有意义时,会要求它重试。
最终,这就是我们在内部从我们自己的模型中获得大量价值的方式。这就像针对特定用例和模型编排,这些模型协同工作以完成特定任务。这再次回到了我们如何像人类一样工作,我们如何像人类一样完成复杂的事情?你会发现不同的人通常拥有不同的技能,他们一起完成一项艰巨的任务。
主持人Sarah Guo: 我不能让你们走,不告诉我们一些关于未来和即将发生的事情。你们不必告诉我们发布日期,我知道你们可能不知道。但如果你展望未来,我认为现在人工智能领域任何人的最远展望大概也就是……好吧,告诉我你能否看到未来。但让我们假设是六个月,十二个月。你想象中在未来六个月到一年内可能实现或普遍存在的体验是什么?
Mike Krieger: 我经常思考,嗯,我一直在思考这个问题,但也许可以用两个词来在大家脑海中播下种子。一个是主动性,模型如何变得更主动?例如,一旦它们了解你并进行监控——以一种良好的而非令人毛骨悚然的方式阅读你的电子邮件——因为你授权了它们,然后它们会发现有趣的趋势,或者你的一天以主动的回顾开始,回顾正在发生的事情,以及你即将进行的对话。我已经为你预先做了一些研究。嘿,你的下一个会议快到了,这是你可能想谈论的内容。我看到你即将进行这个演示,这是我整理出的初稿。我认为这种主动性将非常强大。
然后是另一个方面,即变得更加异步。我认为O1在这个探索中的早期UI就是这样,它会做很多事情,并且会告诉你它在做什么。你可以坐在那里等待它,但你也可以说,“嘿,它需要思考一段时间,我要去做别的事情,也许稍后回来查看”。也许它可以告诉我它什么时候完成。扩展时间范围,无论是在你没有提问的情况下,它只是告诉你一些事情;还是在你提问后,你会说,“很好,我要去思考一下,我要去研究一下,我可能需要问另一个关于这个问题的人,然后我可能会想出我的第一个答案,我要验证这个答案,一个小时后我会回复你”。摆脱立即期待答案的限制,我认为这将让你做一些事情,例如,“我有一个完整的迷你项目计划,去把它详细说明”,而不仅仅是“我希望你改变屏幕上的这件东西”,而是“帮我修复这个bug”,或者“根据这些新的市场环境调整我的PRD”,或者“根据出现的这三种不同的市场环境来调整它”,我认为能够推动这些维度是我个人在产品方面最兴奋的事情。
Kevin Weil: 是的,我完全同意所有这些。我认为模型将以加速的速度变得更智能,这也是所有这些实现方式的一部分。另一件非常令人兴奋的事情是看到模型能够以我们人类互动的方式进行互动。现在,你大多是向这些模型打字。我也大多通过WhatsApp和其他方式向我的许多朋友打字。但我也会说话,我也能看到,我们最近发布了这个高级语音模式。我在韩国和日本进行过对话,我经常与一个与我没有任何共同语言的人在一起。在此之前,我们一句话也说不出来,取而代之的是我说,“嘿,ChatGPT,我想让你充当翻译。当我用英语说些什么时,我想让你用韩语说出来,当你听到韩语时,用英语告诉我。”突然之间,我拥有了这个宇宙翻译器,我正在与另一个人进行商务谈判。这简直太神奇了。想想这不仅在商业环境中能做什么,想想如果人们不必担心不会说外语,他们愿意去新的地方旅行。你口袋里有一个星际迷航宇宙翻译器。我认为这样的体验很快就会变得司空见惯,但这太神奇了。我对这与迈克刚才说的所有事情结合在一起感到兴奋。
主持人Sarah Guo: 哦,自从语音模式发布以来,我最喜欢的消遣之一就是观看……有一种TikTok类型,这只是说明我有多老,有一种TikTok类型,就是年轻人与语音模式对话,倾诉衷肠,用各种方式使用它,我心想,“哦,我的上帝”,有一个旧词叫做“数字原生”或“移动原生”,我认为我对这个AI技术非常相信,我不会想到以这种方式互动,但14岁的年轻人会说,“好吧,我希望AI能够做到这一点”,我喜欢这一点。
Kevin Weil: 你给你的孩子用过吗?
主持人Sarah Guo: 我还没给孩子用。我的孩子才五岁和七岁。凯文认识他们,但我们以后会用。
Kevin Weil:我的孩子八岁和十岁,但在乘车途中,他们会说,“我可以和ChatGPT说话吗?” “可以”。他们会问它最奇怪的问题。他们会和它进行怪异的对话,但他们很乐意和人工智能对话。
主持人Sarah Guo: 是的,实际上我最喜欢的经历之一,也许我们最后可以问问你最令人惊讶的行为,无论孩子还是成年人,就像我父母给我读书一样,如果我能选择书,那就太幸运了,而不是我爸爸说,“我们要读我感兴趣的这个物理研究”,对吧?我的孩子们,我不知道是不是海湾地区的育儿方式,但我的孩子们会说,“好吧,妈妈,制作图像”,对吧?我想讲一个关于在这个环境下的龙独角兽的故事。我会告诉你它将如何发生,实时创建它。我心想,“这是一个很大的要求。我很高兴你相信并且知道这是可能的,但这是一种创造你自己的娱乐的狂野方式。”你最近在自己的产品中看到的最令人惊讶的行为是什么?
Mike Krieger: 我认为这是一种行为和一种关系。人们真的开始理解Claude的细微之处。我们刚刚对模型进行了一次新的改进。他们理解了细微之处。我认为这种行为几乎是交朋友,或者是在发生的事情周围发展很多双向同理心。模型就像,“哦,新模型感觉更聪明了,但也许更冷漠了”。正是这种细微之处,作为产品人员,它给了我更多关于同理心的体会,你不仅仅是在发布一个产品,你是在发布智能,而智能和同理心是人际关系重要的原因。如果有人出现并说,“我升级了,我的数学分数提高了2%,但我有所不同”,你会说,“哦,我现在必须适应,也许会有点担心”。这对我来说是一段有趣的旅程,就像理解人们使用我们产品时的思维方式一样。
Kevin Weil: 是的,模型的行为绝对是产品角色的重要组成部分。模型的个性是关键,而围绕着应该定制多少个性以及OpenAI应该拥有一个统一的个性,而Claude应该拥有独特的个性,人们是否会因为喜欢而选择使用其中一个,这些都是有趣的问题。我的意思是,这很人性化,对吧?我们和不同的人做朋友,是因为我们恰好更喜欢某些人,这是一个值得思考的有趣现象。我们最近做了一件事,它在Twitter上迅速走红。人们开始询问模型:基于你对我的所有了解,基于我们过去的所有互动,你会如何评价我?模型会做出回应,并根据你过去的所有互动给出它认为的描述。
这就像,你开始以一种有趣的方式与它互动,几乎把它当作某种人或实体。无论如何,看到人们对此的反应真是令人着迷。
主持人Sarah Guo: Kevin,Mike,非常感谢你们参与这次讨论,并让我们得以一窥未来。非常感谢。
参考资料: https://www.youtube.com/watch?v=IxkvVZua28k,公开发表于2024-11-06
👇关注公众号后设🌟标,不错过第一手AI新鲜观点和动态