2024.11.6
这次访谈,Kevin Weil和Mike Krieger的讨论让我们看到了AI产品开发中的真实挑战和无限可能。
在AI产品经理的视角中,这不仅仅是技术的迭代,而是与用户关系的重塑。随着AI模型从系统1快速反应到系统2的推理思维,AI从简单的助手进化成了人们生活的伙伴。Kevin和Mike谈到了“评估”这一关键,它不仅是性能指标,更是理解用户需求、完善模型表现的核心。在企业级产品和消费级产品的交界点,他们用AI探索未知,将“评估用例”当作产品设计的关键,强调模型的随机性和“性格化”发展。
未来一年,AI将愈加主动和异步,主动为人们提供个性化信息和服务,同时解放人类从简单的重复工作中解放出来。Kevin用Waymo的例子道出人类惊人的适应力,而Mike则提到AI模型的“人格”正在塑造新的用户关系。
对于渴望成为优秀AI产品经理的你而言,Kevin和Mike的分享无疑是一堂宝贵的课。理解技术,掌握评估方法,拥抱不确定性,将是你的成长之路。
他们是谁
Sarah Guo (主持),是硅谷知名的科技投资人,她在 25 岁时成为 Greylock Partners 最年轻的合伙人之一。郭莎拉因其早年对 OpenAI 的投资而闻名,此外她还在开发一种旨在通过 AI 使工资翻十倍的平台。她的投资生涯和对 AI 技术的推动使她被认为是未来可能成为亿万富翁的科技人物。
凯文·韦尔(Kevin Weil)是一位知名科技产品主管,曾在Twitter、Instagram和Facebook工作,推动了这些平台的产品创新和增长。他在Planet Labs担任过总裁,并领导了公司从私营到上市的转型。目前,他担任OpenAI的首席产品官,负责将AI技术应用于产品和服务的开发。
Mike Krieger 是 Instagram 的联合创始人之一,担任过首席技术官,推动了该平台的技术发展。2018 年与创始人同事凯文·斯特罗姆一起离开 Instagram 后,他参与了多个创新项目,包括疫情追踪工具 Rt.live 和新闻应用 Artifact News。2024 年,他加入 Anthropic 担任首席产品官
访谈目录:
AI产品经理的必备技能
什么是“评估用例”?为什么评估AI产品比你想的更重要?
AI技术的飞速迭代
两个月一个突破!技术变革如何影响产品开发?
企业级 vs 消费级产品的差异
AI产品经理们如何应对两类用户完全不同的需求?
多模型协作:不是只靠一个AI
01模型是什么?为什么AI产品需要组合使用多种模型?
不确定性中的产品规划
产品开发像“在迷雾中行走”,他们是怎么克服不确定性的?
AI个性化:用户会“选择”喜欢的AI吗?
用户把AI当朋友?聊聊AI的“个性”设计!
AI如何提升企业生产力?
企业用户也能快速上手?他们用AI提升工作效率的秘籍是什么?
未来AI会怎么变?
Kevin和Mike展望未来一年:AI会变得更主动、更贴心吗?
人们适应AI的速度
从不信任到无聊刷手机,你需要多久适应“未来科技”?
实用贴士:如何学习编写评估用例?
Kevin和Mike给出的小建议:从哪里开始培养“AI评估”直觉?
以下是访谈内容:
主持人:大家好!
Kevin Weil:Sarah,你是AI投资界的权威人士啊。
主持人:这话以后可别再说了。很高兴今天能和两位嘉宾一起探讨。我原本有两个方案:一是让两位直接发布新产品,毕竟他们俩都掌握着产品发布大权,我想不如让他们直接公开未来半年到一年要推出的所有产品,把所有内部规定都抛到一边;二是既然两位都曾经负责Instagram,不如我们一起重新设计一下Instagram。不过最终,我们还是决定像朋友一样轻松地聊聊天,分享一下各自的想法。我知道这可能没那么刺激,但我真的很期待你们的分享。两位现在担任的都是比较新的职位。Kevin,我们先从你开始吧。你之前做过很多不同领域、非常有意思的工作。你接手这份工作的时候,朋友和团队是什么反应?
Kevin Weil:总的来说,他们都很兴奋。我觉得这份工作非常有趣,也极具影响力。有很多问题等着我们去解决。说真的,我从来没遇到过这么有挑战性、这么有趣、也这么让我睡不着觉的产品职位。它有着一般产品职位的所有挑战,比如你需要确定目标用户、找到用户痛点等等。通常情况下,开发产品是在现有的技术基础上进行的,对吧?你知道自己手头上有什么工具,然后尽力做出最好的产品。但现在的情况是,几乎每隔两个月,计算机就能做到一些以前完全不可能做到的事情,然后你就得思考,这些新技术会如何改变你的产品——答案很可能是“彻底改变”。所以,身处其中,见证AI的飞速发展,真的非常有趣,也令人着迷。我这段时间过得很充实。
主持人:Mike,你呢?我记得听到这个消息的时候,我的反应是:哇,我真没想到你居然能说服Instagram的创始人去开发一个已经存在的产品。
Mike Krieger:是啊,大家对我的决定有三种主要的反应。首先,比较了解我的人会说:“哦,这很正常啊,你会喜欢的。”;其次,一些人会说:“为什么啊?你根本不用工作,为什么还要做这个?” 了解我的人就会知道,我闲不住,我控制不住自己。第三种反应是:“哇,你们公司居然能请到Instagram的创始人!” 这也挺有意思的。其实,能让我感兴趣的公司也就那么几家,所以… 大家的反应各不相同,这取决于他们对我的了解程度,以及他们对我“半退休”状态(其实也就持续了六周)的印象。六周之后,我就开始琢磨:接下来要干嘛呢?
主持人:我们最近和一些朋友一起吃饭,我注意到你像个孩子一样兴奋地谈论你正在学习企业级产品相关的知识。你是因为要服务的客户不再是Instagram的普通用户而感到兴奋,还是因为在一个以研究为导向的公司工作而兴奋呢?到目前为止,你最大的惊喜是什么?
Mike Krieger:这两个方面都让我很兴奋,而且对我来说都是全新的体验。我18岁的时候,立下了一个雄心壮志的目标:我人生中的每一年都要有所不同,我不想重复过同一年。这就是为什么,你知道,有时候我会想:哦,又一个社交产品。我可不想再做一遍同样的事情。首先,你之前的成就已经很高了,很难超越;其次,做同样的事情会让我觉得很无聊。所以,没错,企业级产品对我来说是一个全新的领域,非常刺激。我也很好奇Kevin你的感受。你之前的反馈周期更像投资,非常漫长,对吧?你跟客户进行初步沟通,感觉他们还挺喜欢你的。然后,漫长的等待开始了,你的方案进入层层审批流程,可能要等上六个月才能最终部署,然后才能知道它是否真的有效。所以,适应这种节奏上的差异是一个挑战。但另一方面,这种客户关系也让我觉得很有成就感。产品部署之后,你可以随时打电话给客户了解他们的使用情况,他们也可以直接打电话给你反馈问题。这跟面向普通用户的消费级产品很不一样,在消费级产品中,你只能通过数据分析和用户调研来了解用户,虽然你也可以找一两个用户深入访谈,但他们没有足够的动力去认真地告诉你产品的优缺点。所以,企业级产品虽然节奏慢,但也更有成就感。
主持人:Kevin,你之前开发过各种各样的产品。你之前的经验有多少能用到现在的工作中?
Kevin Weil:我正想补充一下Mike关于企业级产品的观点,然后再回答你的问题。企业级产品有趣的一点在于,它并不仅仅关于产品本身,对吧?你需要考虑客户的需求和目标。你可能做出了世界上最好的产品,公司里的每个人都喜欢用,但这对你的客户来说可能并不重要。我之前跟一个大客户开会,他们说:“产品很棒,我们很满意,等等。但有一点很重要:你们发布任何新功能之前,必须提前60天通知我们。” 我心想:我也想提前60天知道啊!
Kevin Weil:所以,企业级产品和消费级产品真的非常不同。有趣的是,OpenAI同时拥有消费级产品、企业级产品和开发者产品。所以我们得同时兼顾三方面的需求。从直觉上来说,在产品开发的后期,我的经验还是很有用的。比如,在发布高级语音模式或Canvas的最后冲刺阶段,你需要完善产品细节,深入了解用户需求和痛点,这时我之前的经验就能派上用场。最后阶段的工作其实跟开发普通产品差不多。但在项目初期,情况就完全不同了。我们会遇到一些全新的AI能力,你可能隐约感觉到某个新模型会有某种能力,但你无法确定,研究团队也无法确定,谁都无法确定。你只是猜测:我觉得这个模型可能有这种能力。它就像在迷雾中若隐若现。你不知道它最终是否真的有效,也不知道它的准确率是60%、90%还是99%。而针对60%准确率的模型所做的产品设计,跟99%准确率的模型是完全不同的。所以你只能耐心等待,时不时地问问研究团队:“嘿,进展如何?模型训练得怎么样?对这个功能有什么新发现吗?” 他们通常的回答是:“我们正在研究,目前还没有确切的结论。” 所以,我们就像在迷雾中共同探索,这个过程很有趣,但也充满了不确定性。
Mike Krieger:这很像以前在Instagram的时候,每当苹果WWDC发布新技术,我们就会想:这要么对我们非常有利,要么会给我们带来巨大的挑战。现在也一样,只不过颠覆我们的不是外部力量,而是我们自己公司内部的AI技术,这种感觉很奇妙,但同时也让人有点措手不及,因为这完全打乱了我们的产品路线图。
主持人:两位在产品开发过程中是如何应对这种不确定性的?你刚才提到,就像透过迷雾,试图看清未来的发展方向。如果连未来会有什么样的AI能力都不知道,你们要如何规划产品,如何进行迭代呢?
Mike Krieger:我觉得,虽然AI能力的具体发展方向难以预测,但我们至少能大致看出它前进的趋势。我们可以根据这种趋势来构想产品,并与研究团队合作,对模型进行微调,以满足产品需求。所以,大致上有三种方式:第一种,我们根据对未来AI能力的预测来设计产品,然后与研究团队紧密合作,共同设计、研究和微调模型,就像我们之前开发Artifacts和Canvas那样。这种与研究团队深度合作的方式是我们公司的一大优势;第二种,直接利用最新的AI能力来开发新产品,就像OpenAI的语音模式和我们这周发布的“计算机使用”功能;第三种,我们会让设计师尽早参与到研究过程中,但目标不是为了交付一个完美的产品,而是为了学习和探索,从中获得灵感,并激发新的产品创意。我们不能指望研究结果一定能转化成可预测的产品,因为研究的本质就是探索未知。
Kevin Weil:我补充一点,我很喜欢我们公司研究团队以产品为导向的工作方式,尤其是在模型训练后的阶段。当然,也有一些研究更偏向学术性。所以有时候也会发生这样的情况:在会议上,我们会讨论某个我们希望实现的功能,然后研究团队的人会说:“哦,这个功能我们三个月前就做出来了。” 我们会很惊讶:“真的吗?那为什么我们不知道?” 他们会说:“哦,我们当时觉得这个功能不重要,所以就没告诉你们,而且我现在在忙其他研究。” 所以,有时候你会发现,一些神奇的功能已经默默地存在了。
主持人:我们在投资时经常会思考一个问题:如果一个模型的准确率只有60%,而不是99%,我们还能用它来做什么?很多任务的准确率都达不到99%,但它们仍然非常重要,也很有价值。你们在内部是如何评估模型在某项任务上的进展的?你们是如何通过产品设计来弥补模型的不足,或者说如何让用户接受一个不完美的模型,而不是仅仅等待模型变得更完善?
Kevin Weil:我认为,即使模型的准确率只有60%,我们仍然可以做很多事情,前提是产品设计要考虑到这一点。我们需要预设会有更多的人工介入。比如,GitHub Copilot是第一个真正让大家意识到,AI不仅可以用来回答问题,还可以用来完成具有经济价值的工作。它刚推出的时候,我不记得它用的是哪个模型了,但肯定比现在的模型落后很多代,所以可以肯定的是,它在代码生成方面的准确率肯定不高。
主持人:我记得当时用的是GPT-2,一个规模很小的模型。
Kevin Weil:对,但它仍然很有价值,因为它可以帮你生成一部分代码,你只需要修改和完善就可以了,这仍然可以节省很多时间。所以,我认为即使模型不完美,仍然可以有很多应用场景。而且,随着AI Agent和更复杂任务的出现,这种情况会越来越多。即使模型只能帮你节省5到10分钟,那也仍然是有价值的。更重要的是,如果模型能够识别出它没有把握的部分,并向用户求助,那么人和模型的结合就可以达到更高的准确率,远超60%。
Mike Krieger:我一直在思考这个60%的准确率,它就像一个神奇的数字……
Kevin Weil:是我随便说的一个数字。
主持人:看来这就是我们今天的重点了。
模型其实并不是受限于自身的智能水平,而是受限于我们的评估方法Mike Krieger:其实模型的准确率并不是一个均匀的指标,它在某些任务上表现很好,在其他任务上可能很差。我们在进行用户测试的时候也发现了这一点。有些用户会说:“这个模型完美地解决了我们的问题,我们之前尝试了三个月都没能解决!” 而另一些用户可能会说:“这个模型比之前的版本还要差!” 所以,虽然我们有内部的评估指标,但最终还是要看模型在实际应用中的表现。这就像产品设计一样,你做了很多设计,然后给用户测试,结果发现你的设计完全错了。模型也是一样,我们尽力去评估它的性能,但用户有他们自己的数据、他们自己的使用场景,他们会用自己的方式去使用模型,所以模型在实际应用中的表现可能会跟我们的预期有很大出入。Kevin Weil:我很好奇你有没有这种感觉:现在的模型其实并不是受限于自身的智能水平,而是受限于我们的评估方法。它们其实可以做得更好,在更多任务上达到更高的准确率,关键在于如何训练和评估它们。它们有足够的智能潜力,我们只需要针对特定的任务和数据集进行训练和微调。
Mike Krieger:对,我完全同意。我们经常看到这样的情况:一些三年前部署的AI应用,现在看来已经过时了,但当时我们并没有对它们进行严格的评估,只是觉得这些AI功能很酷就发布了。现在最大的挑战是,让大家重新思考:成功是什么?我们到底要解决什么问题?而且,产品经理经常会换人,所以接手项目的人可能根本不知道之前的目标是什么。所以,我们现在会先定义清晰的评估指标,然后根据这些指标来迭代改进模型。我们发现,Claude很擅长编写和评估测试用例,所以我们可以用它来自动化很多评估工作。但前提是,你必须先明确成功是什么,然后才能朝着这个目标前进。这就是60%和85%的差别。顺便说一句,如果你来Anthropic面试——也许你现在很满意你的工作,也许不满意——你会发现,我们面试的一个环节就是让你从一个糟糕的评估用例改进成一个优秀的评估用例。我们希望看到你思考的过程,因为现在真正懂评估的人才太少了。所以,如果我们只能教给大家一件事,那就是如何编写优秀的评估用例。
写好评估用例,就像写好邮件一样,会成为产品经理的核心技能Kevin Weil:写好评估用例,就像写好邮件一样,会成为产品经理的核心技能。Mike Krieger:我们公司内部其实也经历了类似的转变。之前,我们有专门研究模型能力和开发的研究型产品经理,也有负责产品界面和API的产品经理。但现在我们发现,在2024年、2025年,构建AI产品的产品经理的工作越来越像前者,而不是后者。比如,我们最近推出了代码分析功能,Claude现在可以分析CSV文件并生成代码。负责这个功能的产品经理需要先把模型的性能提升到80%,然后再交给研究型产品经理进行更精细的训练和评估。所以,现在产品的好坏很大程度上取决于评估用例和提示词的质量,这两种产品经理的角色正在融合。Kevin Weil:没错。我们内部也组织了训练营,教所有的产品经理如何编写评估用例,以及如何区分好的和坏的评估用例。当然,这只是一个开始,我们还需要不断地迭代和改进。但毫无疑问,评估是构建优秀AI产品的关键。
主持人:我们今天有很多听众都想成为优秀的AI产品经理或研究员。既然我们没法参加你们的训练营,Kevin,那我们应该如何培养这方面的直觉呢?
Kevin Weil:我觉得你可以利用模型本身来学习。就像你刚才说的,你可以直接问模型:什么是好的评估用例?请给我写一个例子。模型生成的例子通常都还不错。
Mike Krieger:这确实是一个好方法。另外,就像Andrea Karpati等AI领域的资深人士所说的,没有什么比查看数据更重要的了。很多人会执着于评估指标,比如新模型在某个任务上的准确率从78%提高到了80%,但他们不去分析模型失败的案例,不去思考如何改进评估方法。有时候,即使评估指标没有提高,模型的实际表现也可能更好,这可能是因为我们的评估方法不够完善。即使是所谓的“黄金标准”答案,有时候也未必正确。所以,我认为,要培养这方面的直觉,最好的方法就是深入研究数据,仔细分析模型的输出,并不断改进评估方法。
Kevin Weil:我还想到一个有趣的点:随着AI Agent和更复杂任务的出现,评估方法也需要随之进化。对于简单的任务,比如四位数加法,很容易判断对错。但对于更复杂、更模糊的任务,比如“帮我预订纽约的酒店”,就很难定义什么是“正确”的答案了。每个人的需求都不同,所以答案也应该个性化。这时,评估标准就需要更加灵活。
Mike Krieger:是啊,就像职业晋升一样,AI模型也需要承担越来越复杂的任务。也许以后的评估会更像绩效考核。现在正值绩效考核季,所以这是我现在脑子里想的比喻 。我们不再简单地判断对错,而是要评估模型是否达到了预期,是否超越了预期。
Kevin Weil:而且,现在的情况是,人类编写的评估用例,模型的性能已经可以超过人类了。在某些任务上,人们更喜欢模型的答案,而不是人类的答案。所以,如果评估用例是由人类编写的,那又该如何评估模型的性能呢?
主持人:看来评估真的是关键。我们会花更多时间去研究模型,学习如何编写优秀的评估用例。除了评估,产品经理还需要学习哪些技能呢?
Mike Krieger:我认为,利用AI模型来进行原型设计是一个还没有被充分利用的技能。我们公司里最优秀的产品经理会这样做:在讨论UI设计方案的时候,他们会先用Claude生成不同的原型,然后进行A/B测试,而不是让设计师直接用Figma去做设计。这可以大大提高原型设计的效率和迭代速度。
Kevin Weil:这的确是一个很好的例子。另外,我认为产品经理还需要更深入地了解技术栈。当然,不是说每个产品经理都要成为研究员,但至少要对AI技术有一定的了解,能够理解研究人员的思路,这样才能更好地沟通和协作。
Mike Krieger:还有一点,AI模型是一个随机的、非确定性的系统,即使我们尽力通过评估来控制它的行为,但它仍然可能会出现意想不到的结果。所以,产品经理需要设计更灵活的反馈机制,以便及时发现和纠正模型的错误,并不断改进模型。
Kevin Weil:而且,我们现在都还在适应这种非确定性的用户界面。对于普通用户来说,更是如此。他们习惯了传统的确定性系统:输入相同的指令,就会得到相同的结果。但AI模型打破了这种习惯,这对用户体验提出了新的挑战。我们不仅要自己适应这种变化,还要站在用户的角度去思考,如何让他们更好地理解和使用AI产品。
Mike Krieger:我记得我们以前在Instagram经常做用户研究,每周都会邀请不同的用户来测试新功能。现在我们也在Anthropic做同样的事情,但不同的是,我们不仅要观察用户的行为,还要观察模型的行为。有时候模型的表现会让我们感到惊喜,有时候也会让我们感到沮丧。所以,产品经理需要保持一种平和的心态,接受模型的随机性和不确定性。
主持人:两位都曾经开发过影响数亿用户的消费级产品,并迅速地改变了他们的行为习惯。现在AI产品的发展速度甚至更快。如果产品经理和技术人员都还不太了解如何使用这些新技术,你们要如何教育用户呢?
Kevin Weil:其实人们的适应能力非常强。我前几天跟一个朋友聊天,他跟我分享了他第一次乘坐Waymo自动驾驶汽车的经历。你们有人坐过Waymo吗?
Mike Krieger:在座的各位,有人坐过吗?
Kevin Weil:如果你在旧金山,还没有体验过Waymo,我强烈建议你下次出行的时候试试。这是一种非常神奇的体验。我朋友说,他刚开始的30秒非常紧张,一直担心Waymo会撞到骑自行车的人。但5分钟之后,他就开始感叹:哇,我生活在未来!再过10分钟,他就开始无聊地刷手机了。你看,人们适应新事物的速度有多快!ChatGPT推出还不到两年,当时它惊艳了所有人。但现在如果让我们回到两年前,使用当时的GPT-3.5,我们肯定会觉得它太笨了。
主持人:
Kevin Weil:我们现在正在开发的功能,在一年之后可能也会让我们觉得很落后。这就是AI发展的速度。但同样让我感到惊叹的是,人们的适应速度也很快。虽然我们努力地去引导用户,但人们本身对新技术充满了好奇和热情,他们知道世界正在朝着这个方向发展,所以他们也愿意去学习和适应。
Mike Krieger:我们现在也在努力让产品本身更具教育意义。我们之前没有做的一件事,现在正在改进,那就是让Claude更多地介绍它自己。之前用户会问:“我该怎么使用这个功能?” Claude的回答是:“我不知道,你可以在网上搜索一下。” 这显然没什么帮助。所以我们现在正在改进Claude的回答,让它提供更具体的指导,比如提供文档链接等等。AI模型其实很擅长解决UI问题和用户困惑,我们应该更多地利用这一点。
主持人:在企业级产品中,教育用户的方式肯定有所不同,对吧?因为企业用户有他们现有的工作流程和组织架构。你们是如何帮助企业用户理解和应用AI技术,并提高他们的生产力的?
Mike Krieger:企业级产品的用户群体跟消费级产品很不一样。消费级产品虽然用户量很大,但真正深度使用的用户仍然是早期采用者,他们本身就对新技术很感兴趣。而企业级产品的用户中,有很多非技术人员,他们对AI的了解程度可能很低。所以,我们需要提供更详细的培训和指导,让他们了解AI的价值和使用方法。这其实也是一个很好的机会,可以让我们了解如何更好地教育更广泛的用户群体。
Kevin Weil:而且,企业内部通常也会有一些高级用户,他们会成为AI技术的传播者,帮助其他同事学习和使用AI。比如,OpenAI的自定义GPT功能,可以让企业用户根据自己的需求创建定制化的AI模型。这可以让高级用户更容易地为其他同事提供支持和帮助。
主持人:两位所在的公司都是AI领域的佼佼者,你们就像生活在未来世界一样。我忍不住想问一个问题——当然,两位不必透露具体的产品发布计划——Mike,我应该如何使用“计算机使用”功能?这个功能太棒了!你们自己是怎么用的?
Mike Krieger:其实,就像Kevin刚才说的,我们自己也还在探索这个功能的最佳使用方法。这个功能的推出也比较仓促,我们只是觉得它已经足够好了,可以发布了。
Mike Krieger:我们在内测的时候,一个同事突发奇想:能不能让它帮我们订披萨?结果它真的做到了!披萨送到了办公室,完全是由AI订购的,这真是一个激动人心的时刻!当然,它订的是Domino's 。
Mike Krieger:我们发现,这个功能在UI测试方面非常有用。以前在Instagram,我们几乎不做UI测试,因为测试用例很难编写,而且很容易失效。但现在,我们可以用“计算机使用”功能来自动化UI测试,这大大提高了测试效率。另外,我们还在探索如何用它来完成一些更复杂的任务,比如数据处理、财务报表等等。它可以帮我们自动化很多繁琐的工作,让我们把更多精力放在更有创造性的工作上。
主持人:Kevin,很多团队都在尝试使用01模型。它显然可以完成更复杂的任务。但如果我们已经在使用GPT-4等其他模型,是不是就不能直接用01来替代它们呢?你们在内部是如何使用01模型的?
Kevin Weil:很多人可能没有意识到的一点是,即使是最资深的AI用户,也不会只使用一个模型。他们会根据不同的任务和需求,组合使用不同的模型,并进行流程编排。01模型擅长推理,但它的响应速度比较慢,而且不支持多模态输入。
主持人:能解释一下什么是“推理”吗?我知道这可能是一个很基础的问题。
Kevin Weil:好的。我们都知道,随着模型规模的增大,比如从GPT-2到GPT-3、GPT-4等等,模型的知识和能力也在不断增强。它们就像系统1思维,可以快速地回答问题,就像自动补全一样。
主持人:就像我现在问你问题,你会立即回答,而不会思考太久。
Kevin Weil:对,就像流式输出一样,一个token接一个token。其实,人类的思维方式也可以帮助我们理解模型的工作原理。比如,你问我一个问题,我可能会说错一句话,然后就很难再回到正轨。模型也是一样。
Kevin Weil:01模型采用了一种不同的扩展智能的方式,它在查询时进行推理,而不是像系统1思维那样立即给出答案。它会先暂停一下,就像我们人类思考问题一样。比如,你让我解一个数独,我不会立即给出答案,而是会先分析题目,一步一步地推理,最终得出答案。这就像科学家进行科学发现,或者我们回答难题一样。01模型就像系统2思维,它会花更长的时间来思考,但可以解决更复杂的问题。现在,它通常需要思考30到60秒才能给出答案。想象一下,如果它可以思考5个小时甚至5天,它能做到什么?所以,01模型是一种全新的扩展智能的方式,我们现在才刚刚开始探索它的潜力,就像GPT-1一样。当然,它并不是万能的,有些任务仍然需要使用其他模型。我们会根据不同的场景,组合使用不同的模型,就像人类团队协作一样,每个人都有自己的专长,共同完成复杂的任务。比如,在网络安全领域,我们可能会觉得AI模型不适合处理这类任务,因为它们可能会产生幻觉。但我们可以对模型进行微调,让它专注于特定的任务,并对输入和输出进行严格的限制。然后,我们可以让多个模型协同工作,互相校验,及时发现和纠正错误。我们自己在内部也是这样使用AI模型的,我们会针对特定的场景,设计不同的模型组合和工作流程。
主持人:最后,我想请两位展望一下未来。两位不必透露具体的发布日期,但能否跟我们分享一下,在未来半年到一年,你们觉得哪些AI应用场景会成为现实,或者变得更加普及?
Mike Krieger:我一直在思考这个问题。我觉得有两个关键词:主动性和异步性。首先,未来的AI模型会更加主动。它们会学习你的习惯和偏好,主动为你提供信息和服务。比如,它们会分析你的邮件,发现一些重要的信息,然后主动提醒你;或者在你开会之前,为你提供一些背景资料和建议。
Mike Krieger:其次,未来的AI交互会更加异步。01模型就是一个很好的例子,它需要时间来思考,但你可以去做其他事情,等它思考完毕后再回来查看结果。这打破了传统的同步交互模式,让我们可以更高效地利用时间。未来,我们甚至可以让AI模型去完成一些更复杂的任务,比如制定项目计划、修改产品需求文档等等。它们可以长时间地进行思考和研究,甚至可以向人类专家求助,最终给出更完善的答案。
Kevin Weil:我完全同意Mike的观点。模型会越来越智能,而且发展速度会越来越快。另外,未来的AI模型会更像人类一样,能够进行多模态交互。现在我们主要通过文字与AI模型交互,但未来我们可以通过语音、图像等多种方式与它们互动。我最近在韩国和日本出差,我用ChatGPT的语音模式作为翻译,跟完全不懂英语的人进行交流。这就像星际迷航里的万能翻译器一样,非常神奇。未来,这种技术会变得越来越普及,它不仅可以用于商务场景,还可以帮助人们更好地旅行和沟通。
主持人:我最近很喜欢看TikTok上的一些视频,都是年轻人用语音模式跟ChatGPT聊天,倾诉心事。这让我意识到,像我这样的“老人家”已经跟不上时代了。现在的年轻人对AI的理解和使用方法跟我们完全不同,他们认为AI就应该能够做到这些事情。
Kevin Weil:你有没有让你的孩子用过ChatGPT?
主持人:还没有,我的孩子一个5岁,一个7岁。Kevin你认识他们。
Kevin Weil:我的孩子一个8岁,一个10岁。他们经常在车上玩ChatGPT,会问它各种稀奇古怪的问题。他们对跟AI聊天这件事习以为常。
主持人:我印象最深的一次经历是,我的孩子让我用AI帮他们创作故事。他们会描述一个场景,比如“一只龙和一只独角兽”,然后让我用AI生成对应的图像。这是一种全新的娱乐方式。两位在开发AI产品的过程中,有没有遇到过什么让你们感到惊讶的用户行为?
Mike Krieger:我觉得最让我惊讶的是,人们开始把AI模型当成朋友,或者说,他们对模型产生了同理心。他们会注意到模型的细微变化,比如新版本模型虽然更智能,但也感觉更疏远了。这让我意识到,我们开发的不仅仅是一个产品,而是一个具有智能和情感的实体。人们对AI模型的态度,就像对朋友一样,这是一种全新的用户关系。
Kevin Weil:没错,模型的行为也是产品设计的一部分。模型的个性非常重要。一个有趣的问题是,模型的个性应该保持一致,还是应该根据用户的喜好进行定制?比如,OpenAI的模型和Anthropic的模型应该有不同的个性吗?用户会因为喜欢某个模型的个性而选择使用它吗?这就像我们人类交朋友一样,我们会因为喜欢某个人的性格而跟他成为朋友。我们最近做了一个实验,让用户问模型:“根据你对我的了解,你如何评价我?” 模型会根据之前的互动记录,给出对用户的评价。结果这个功能在Twitter上火了,人们对模型的评价感到非常惊讶和好奇。这说明,人们开始以一种全新的方式与AI模型互动,就像跟人互动一样。
主持人:非常感谢Kevin和Mike的精彩分享,让我们对AI的未来充满了期待。
关注《森林聊AI商业》公众号
了解 AI 如何塑造商业的未来