Gemini 2.0产品负责人多希专访：新模型为AI代理而生，原生工具调用+多模态+自主性

文摘 2024-12-12 20:01 浙江

👇关注公众号后设🌟标，掌握第一手AI新动态

本文内容整理自Gemini2.0产品负责人Tulsee Doshi接受Google for Developers Youtube频道专访，公开发表于2024年12月11日。原始内容参考：https://www.youtube.com/watch?v=L7dw799vu5o

内容提要: Gemini 2.0产品经理多希接受谷歌开发者频道专访
Gemini 2.0 的显著进步: 相比于去年发布的1.0版本，Gemini 2.0 在性能、功能和多模态能力上有了显著提升，体现了生成式AI领域快速发展的趋势。尤其体现在速度更快（Flash版本优于1.5 Pro）、功能更强大（原生多模态、屏幕理解、空间理解、原生搜索工具使用）。
实验性模型发布的意义: 谷歌发布一系列实验性模型（例如1114和1121），旨在快速收集用户反馈，从而改进模型并加速迭代，这是一种更敏捷的开发和发布方式。这加快了模型的改进速度，并让谷歌能够更了解用户的需求和模型的实际应用场景。
原生工具使用 (Native Tooling): Gemini 2.0 的核心改进之一是原生工具使用，这使得模型能够更智能地决定何时以及如何调用搜索、代码解释器等工具，从而提升了模型的准确性和功能性。这并非简单的函数调用，而是模型对工具更深入的理解和运用。它让模型能更有效地结合多个工具来完成复杂任务。
多模态能力的提升: Gemini 2.0 能够原生生成图像和音频，并且这些生成内容更贴近现实世界，体现了其对现实世界知识的理解和运用。多模态生成能力的提升，使得模型能够更灵活地响应用户的需求，并创建更丰富的交互体验。
自主代理 (Autonomous Agents): Gemini 2.0 支持构建自主代理，可以执行现实世界的操作，例如自动化购物、整理信息等。这代表了AI应用的新方向，但同时也强调了在构建此类应用时需要考虑用户自主权和安全性的重要性。
未来发展方向: 访谈中讨论了大型模型和小型模型的平衡发展，以及对未来AI应用场景的展望，包括更自然流畅的多语言对话、更精准的编舞辅助工具等等。同时，也预示着“代理模型”这一概念将会逐渐演变，并被更具体的定义所取代。

图尔西·多希简介

图尔西·多希（Tulsee Doshi）是谷歌Gemini模型的产品负责人。作为一名在人工智能领域拥有丰富经验的领导者，她负责领导Gemini的开发和产品化，这个项目代表着谷歌在大型语言模型领域的重大投入，旨在与OpenAI的GPT系列以及其他竞争对手的产品一较高下。

访谈全文

主持人Logan Kilpatrick： 在今天的节目中，我们采访了Tulsee Doshi。她是Gemini模型的产品负责人，领导过谷歌的许多不同团队，也是最近帮助发布所有实验性模型的众多合作者之一。Tulsee，欢迎。

Tulsee Doshi： 感谢你们的邀请，很高兴来到这里。

主持人Logan Kilpatrick： Tulsee，我很期待这次谈话。我们今天发布了Gemini 2.0。走到今天经历了漫长的过程，但在我们讨论2.0版本所有酷炫的新功能之前，我想了解一下过去一年的进展情况。Gemini于2023年12月发布，过去12个月取得的进展如何，最终让我们今天发布了Gemini 2.0？

Tulsee Doshi： 是的，这真是太不可思议了。我认为，如果考虑到我们正值Gemini发布一周年纪念日，而这仅仅过去了一年，它实际上展示了我们在谷歌以及整个行业所经历的进步速度。

一年前的今天，我们发布了1.0版本的Gemini。这是我们首次在此背景下交付大型模型，尤其是在API和面向开发人员的外部体验的背景下。我们学到了很多东西，甚至包括如何组织团队来完成这项工作，我们想要发布什么，以及开发人员和企业客户想要看到什么样的体验。

一年后，我们定期发布新版本。我们持续训练这些模型的新版本。我认为，我们在构建内容以及其重要性方面发展出更强的节奏和信心。

我们还在我们的产品中集成了很多功能。如果你看看谷歌搜索、Gemini应用程序、YouTube和我们的API，我们实际上正在将Gemini集成到所有谷歌产品和工作区中。从去年12月到现在的进展令人惊叹。成为其中一员真是令人兴奋。

主持人Logan Kilpatrick： 是的，我喜欢这样。有什么感觉截然不同吗？上次Gemini模型发布时我不在谷歌，我当时只是在旁观。但这次有什么感觉从根本上不同吗？或者感觉只是又一次疯狂的循环？

Tulsee Doshi： 不，我确实认为它从根本上感觉不同。我的确要说的是，去年12月Gemini发布时，我也没有担任我现在的职位。但我当时在谷歌，并且参与了Gemini的发布。当我们去年发布时，我们是在首次发布产品。感觉像是我们正走向未知，并真正团结起来做一些从根本上来说是全新的事情。

我认为今年真正令人兴奋的是，我们正在发布根本上全新的功能，并且我们正在使Gemini 2.0更加出色。感觉更像是我们已经建立了发布这些模型的肌肉记忆。这是一种非常不同的感觉，对吧？感觉我们已经转变为一个比我们开始时更精密的机器。

我还认为，我们对发布的内容更有信心，正如我前面提到的那样。我们对去年发布的内容非常兴奋，而且它很棒。然而，整个行业都在学习生成式AI对世界意味着什么，人们将如何使用它，以及人们将如何以不同的方式与这些模型互动。

今年，感觉像是当我们发布时，我们对试图优化的用例类型、我们真正兴奋的指标、真正的进步意味着什么以及这些模型成功的标准有了更多的清晰认识。行业中正在发生更多的事情。我们看到更多的人在测试和试验这些模型，从而在Gemini周围形成了一个充满活力的社区。这种参与度的提高使得发布变得更加令人兴奋，因为我们有真正的用户积极地测试和探索这些模型。

所以，这确实感觉是我们构建和发布方式的意义重大的转变。

主持人Logan Kilpatrick： 那么2.0版本呢？大方向是什么？我们为什么应该对2.0版本感到兴奋？这个模型有哪些新的模态和功能？从你的角度多跟我们说说。

Tulsee Doshi： 我对2.0版本非常兴奋。所以，你知道，当我们一年前最初宣布Gemini时，我们谈到了这种通用的多模态模型。我认为通过Gemini 2.0，你实际上在很多方面都看到了这一点，对吧？Gemini 2.0可以让你构建这些令人惊叹的多模态智能体。

你可以在Project Astra中看到这一点，它由Gemini 2.0提供支持。你也可以在另一个我们宣布的项目Mariner中看到这一点，它可以对你的电脑屏幕执行操作。很大一部分原因是Gemini 2.0从根本上来说是原生多模态的；它实际上可以输出图像、文本转语音形式的音频，并通过非常棒的空间理解和推理来帮助驱动操作。

这些能力的结合以及它们在模型中变得多么优秀，实际上赋能了一整套全新的用例，而我对此非常兴奋。我认为还值得一提的是，2.0 Flash仍然是一个非常快速的模型，这很棒，因为它允许进行极其复杂的推理、编码和多模态任务，同时保持闪电般的性能。

这两者的结合意味着该模型非常适合实时应用程序。当您需要快速完成任务或处理大量任务时，它表现出色。我认为这是一个巨大的变化；它的性能基本上优于我们的1.5 pro模型。

主持人Logan Kilpatrick： 是的，我认为我们优先发布2.0 Flash版本，这让我最开心，因为我认为1.5 Flash确实引起了开发人员的共鸣。如果你去问开发人员，很明显，对于许多开始使用生成式AI的人，甚至是一些已经使用其他模型的人来说，它都是事实上的选择。并且像，延续这种叙事，你知道，更好、更快、更便宜，所有开发人员对1.5 Flash已经感到兴奋的事情，更多这样的事情，我认为这对我们来说是一个巨大的胜利。

Tulsee Doshi： 是的，我认为这真正体现了我们在谷歌最终想要构建的目标：既智能又强大的模型，同时易于使用且实用。我认为Flash就是一个非常实用的模型，我非常喜欢。作为一名产品经理，这正是你想要重点关注的，对吧？就像，我们的产品能为真正的用户带来什么实际价值？

主持人Logan Kilpatrick： 没错，完全同意。这不是我们最近发布的第一个新模型。我们发布了那些实验性模型，1114模型和1121模型。是的，这些数字在我脑子里很快就混淆了。你能否，以及我们、你、我，还有内部其他一些人对此进行了大量的讨论，例如，我们为什么要这么做？我们为什么要发布这些实验性模型？从你的角度来看，作为经常发布新模型的人，开发人员的反馈循环是什么样的？

Tulsee Doshi： 是的。我们从今年夏天开始发布实验性模型，最近发布了1114和1121。老实说，发布这些模型非常令人振奋。我认为其背后的动机是，你知道，我曾经是YouTube的产品经理，例如，我们会不断地进行现场实验。我们会推出新的改动，并从用户那里获得关于这些改动如何被感知的真实反馈。

在模型构建方面，很难弄清楚如何获得这种快速的反馈循环，对吧？因为如果你发布了一个模型，并且一家公司真的开始在其上进行构建，你不能只是撤回该模型，然后说，“哦，实际上，我们改变了一些东西，这是一个新模型”，对吧？但你也想让开发者和企业客户有机会给你反馈，并告诉你他们想在模型中看到什么，他们真正感兴趣的用例是什么。

另一件很酷的事情是，由于生成式AI还很新，每次我们发布一个模型，我们都会看到人们用该模型做一些我们自己都没有想到的事情。人们正在发现和尝试的用例，实际上打开了新的大门，让我们对应该尝试的新事物感到兴奋。我认为只有在我们创建了这个实验性反馈循环的情况下，才会发生这种情况。

因此，发布这些模型的实验版本的最大动机是，我们可以将模型交付给开发者，获得真实的反馈，了解人们对什么感兴趣，并将这些反馈融入到模型的下一个版本中，并不断改进它，以便在我们发布用于生产的模型时，我们实际上已经完成了弄清楚错误是什么、什么有效、什么无效以及人们对什么感到兴奋的过程。

我不知道，我认为这激励我们以更敏捷的方式发布，我认为这非常好。

主持人Logan Kilpatrick： 是的，我认为我最开心的事情是当我们最终得到一个想要发布的新模型时。它是实验性的，就像接下来的48小时里一切都在燃烧，直到我们将它发布出去。这很混乱，但我认为这是参与发布过程中最有趣的事情之一。所以希望将来我们会看到更多。

Tulsee Doshi： 我希望这实际上能成为我们的一种习惯。我希望，而且我认为我们已经看到了这一点，实验性模型只是我们发布Gemini的方式，也是我们与Gemini社区互动的方式。因此，对于任何观看的人来说，我们真的非常希望你们尝试这些实验性模型，我们真的希望得到你们的反馈，因为这会积极地融入到我们发布到产品的模型中，最终也会融入到开发者和企业客户的模型中，你们知道，在全球范围内。

主持人Logan Kilpatrick： 是的，我们收到的一些问题和反馈是，实验性模型很棒，我们喜欢它们，它们很棒，玩起来也很有趣。但是，我们实际上想用这些模型构建生产环境中的东西。它们真的很好。答案是什么？你会对那些只是想获得一个可以实际用于生产的模型的人说什么？

Tulsee Doshi： 是的，我们的愿望也是如此。我认为我们也真的希望你们使用Gemini进行构建，并在生产环境中进行构建。我们正在努力尽快给你们提供一些东西。我认为我想说的一件重要的事情是，我希望我们发布实验性模型并不是我们发布生产模型速度变慢的信号，对吧？我希望这实际上是我们在更快地发布更多模型的信号。因此，我们正试图将更多模型交付到你们手中，以获得你们的反馈，看看这些模型如何构建，保持构建的势头。但我们计划定期发布可用于生产的模型，并确保我们坚持这一目标。所以我实际上很高兴人们提出这个问题，因为这意味着人们对我们即将推出的模型感到兴奋。我希望我们能保持这种兴奋。

主持人Logan Kilpatrick： 是的，我们需要一个公开的基准来衡量我们自己，例如GA模型之间的时间以及有时会花费的实验迭代次数。我希望数据会证明你所说的那样，也就是说，这真的是帮助我们将最好的模型交付给全世界的一种途径，以便他们能够真正构建他们感兴趣的东西。

Tulsee Doshi： 是的，我们很快就会有一个GA模型。我们真的在努力确保有一些令人兴奋的东西可以供你们构建。

主持人Logan Kilpatrick： 我喜欢它。2.0在我的脑海中有三个主要特性：所有原生工具使用功能、所有多模态功能，以及模型的自主性，如果想区分开来，可以将其作为第三类。但也许我们先从原生工具使用开始。这里的故事是什么？为什么人们应该关心这个模型中现在可以使用原生工具使用功能，如果您能谈谈的话，模型层面的实际情况是什么？

Tulsee Doshi： 是的。关于此模型中的原生工具使用是什么以及为什么令人兴奋，我会说两点。然后我们可以谈谈为什么这很重要。

我们在2.0中引入的一项功能是原生搜索作为工具。真正酷的是，我们正在训练模型，让它知道何时应该调用搜索来验证响应或获取信息。模型一直难以解决的一个问题，我们也早就知道了，是幻觉和真实性。模型并不拥有所有信息，对于新鲜度来说尤其如此。如果昨天发生了某些事情，而这些事情不在模型的训练数据中，那么模型很可能会产生幻觉或编造出一个答案。

当您训练模型使其知道何时调用搜索或意识到它实际上没有信息来回答问题时，您正在帮助模型调用搜索并以更准确的方式进行回答。你可能会问，这与仅仅调用搜索有什么不同？原生调用搜索是什么意思？

你并不想对每个问题都调用搜索。在某些问题中，你实际上可能想要创作一个创意故事，你并不一定需要搜索，或者在其他问题中，搜索并非必需，因为模型实际上可以很好地回答。训练模型使其能够聪明地决定何时调用搜索，这意味着你实际上拥有了更丰富的整体模型体验。当您调用搜索时，您可以很好地做到这一点，而当您不需要调用搜索时，您也会得到一个很棒的模型响应。因此，模型的整体质量仍然非常好。

这对于任何类型的原生工具使用都是正确的。今天，当我与某人交谈时，他们给了我一个我认为非常有帮助的类比方法。如果你正在学习一门外语，函数调用（许多模型调用工具的方式）基本上是告诉模型：“这是一个新词。去学习这个新词。”原生工具使用是关于如何更好地使用单词。

它是关于如何以最佳方式、最佳句子结构和最具创意的方式使用该词。此外，它还包括如何将多个词组合在一起并实际执行可以组合在一起的多个工具调用。例如，我们希望Gemini能够理解它必须调用搜索，然后还要知道它必须调用代码，特别是代码解释器。它必须获取搜索信息，然后生成一个图形，这需要调用Python。

模型能够知道它必须一起使用多个工具，并能无缝地做到这一点，这就是原生工具使用的强大之处，我认为这真的很棒。

主持人Logan Kilpatrick： 我非常喜欢这个比喻。对于一直试图理解原生工具使用的人来说，这个比喻非常有帮助。

Tulsee Doshi： 是的，我其实不能完全为此承担功劳，但我愿意分享，因为我觉得它很棒。

主持人Logan Kilpatrick： 我喜欢这个比喻。在模型原生想要调用工具的情况下会发生什么？实际上，有没有办法禁用工具使用？就像，你把工具传递给模型并启用它。那么，当工具未启用时会发生什么？模型还会说，“我想搜索”吗？

Tulsee Doshi： 当工具未启用时，模型将无法调用该工具。因此，它将使用现有的资源来回答。所以你仍然会得到一个合理的答案，前提是模型能够合理地回答。对。但我认为，例如在搜索的情况下，当模型可以访问信息时，准确性会高得多，尤其是在最近事件的语境下，比如昨天或前天发生的事情等等。

主持人Logan Kilpatrick： 是的，这非常有趣。我还想知道，我们是否有来自内部基准测试的任何信息，说明这如何影响人类偏好。我知道，从纯粹的事实性角度来看，人们可能想要真相。但在某些情况下，我不确定从风格的角度来看，从人们与模型交互的方式来看，当启用原生工具使用时，模型的行为是否会发生变化，与传统的聊天体验相比？

Tulsee Doshi： 这是一个好问题。我认为我们已经做了一些测试，尽管如此，我仍然希望我们的2.0版本能够给我们提供更多来自用户的真实使用反馈。我认为，关于事实性案例的一个棘手之处在于，我往往不知道什么是事实。因此，如果你让我在示例A和示例B之间选择哪个更好，我不会仅仅根据哪个正确来做出判断，因为我可能实际上不知道哪个正确，或者我可能会受到自身偏见的影響。

因此，我认为很难完全区分我们是在努力追求事实性，还是在努力提供用户偏好的体验。我认为我们希望两者兼顾。例如，我们希望，尤其是在某些领域，非常重视事实性，对吧？在医学等领域，获得正确的答案非常重要。我认为这是我们一直在思考评估的一种方式。

总的来说，我主要想说的是，我们已经看到了积极的反馈。部分原因，Logan，是因为我们刚才谈到的将多个工具链接在一起。原生工具使用让你走上了自主行为的道路。它允许你做一些非常酷的事情，对吧？你实际上可以说，“帮我获取这些信息，然后帮我绘制图表。”

现在你可以实际组合多种操作，因为这些工具可以一起工作。我认为我们已经看到很多积极的用户反馈，例如，“哇，我没想到模型可以做到这一点，或者我可以使用Gemini做到这一点。”我认为这本身就带来了很多积极的反馈。

主持人Logan Kilpatrick： 我很想知道我们是如何决定是否将某些东西设为原生工具的。显然，搜索对我们来说意义重大，因为我们是谷歌。但是，从原生工具能力来看，还有什么即将出现？计划是将所有东西都设为原生工具能力吗？或者，如果我真正想要的这个工具并不是原生工具，开发人员应该考虑什么呢？从这个角度来看，未来人们的入门途径是什么样的？

Tulsee Doshi： 这是一个好问题。我的意思是，从根本上说，我们希望模型在函数调用方面非常非常出色。因此，我希望作为一名开发人员，由于我们引入了这种原生工具使用方式，并使模型更擅长将多个工具链接在一起并启用组合函数调用，实际上可以让你作为开发人员使用任何对你来说有价值的工具。

因此，我认为我们不希望受限于一小部分原生工具，对吧？我认为原生工具使用和特定工具是我们可以真正知道谷歌如何为你们这些开发人员增加价值并真正加倍努力的领域。例如，如果你查看Astra，Astra使用Lens，它使用地图，它使用搜索，对吧？它使用了许多谷歌的“魔法”来提供一种更全面的体验。

我们正在考虑的一件事是如何引入这些工具中的一些“魔法”？那是什么样的？什么时候有意义？我没有一个很好的答案，例如，这些是我们绝对想要拥有的五个原生工具。我们关注的很多内容是开发人员正在尝试什么？谷歌拥有哪些工具可以真正为开发人员增加价值，以及我们原生训练某些东西在性能方面会产生什么差异？

搜索之所以会产生差异，一部分原因在于能够知道何时调用搜索以及何时不调用搜索，对吧？因为你实际上并不想对每个提示都使用搜索。作为开发人员或用户，你也不希望必须知道何时调用搜索；识别何时需要基于事实的搜索式响应以及何时不需要并不总是直观的。我们希望让你不必为模型的核心功能（如事实性）考虑这个问题。

代码是另一个我们真正希望模型能够原生执行代码的领域，因为在许多情况下，你也不应该去想，“这是一个我需要代码的情况。”例如，如果你问模型，“1052加47是多少？”并且模型识别到它需要运行代码来计算答案，你作为用户就不希望知道必须调用代码。你希望模型本身就知道它应该为此类示例执行代码。

那么，我们如何找到那些应该将这些抽象出来并使其对开发人员或用户更容易的情况呢？

主持人Logan Kilpatrick： 我非常想知道你是否可以谈谈模型如何决定是否调用搜索。这只是我们根据人类偏好拥有一堆训练数据，其中注释者说在这些情况下，这是一个事实性问题，因此我们需要模型去调用搜索工具吗？这实际上是什么？是的。你能给我们更多细节吗？

Tulsee Doshi： 我认为这在如何实际训练模型以擅长这些方面方面实际上非常有趣。同样非常有趣的是帮助训练模型理解何时需要使用多个工具，对吧？例如，当它无法从搜索中获得所有答案时，因此可能需要使用地图或Lens或其他工具。我认为当你考虑到Astra以及模型需要理解何时调用Lens作为工具，以及何时实际进行地图搜索，或者何时访问谷歌搜索时，这也是一件有趣的事情。

主持人Logan Kilpatrick： 是的，这非常有道理。我很高兴能在接下来的几个假期里，尝试使用原生工具构建一些东西。2.0 版本中的另一个新功能是多模态故事。我们正在推出让模型能够原生生成图像的功能，而且模型还将能够原生生成音频。我不知道从这个角度你还有什么想补充的，但我很好奇，其他的呢？比如，未来模型能否闻到气味，或者其他什么？还有哪些其他的功能呢？

Tulsee Doshi： 我们会听到的。这太酷了。如果模型能够闻到气味，那将是一个我从未考虑过的全新维度。但是我认为，首先，我对多模态生成感到非常兴奋。我认为人们问我一个问题是，为什么Gemini能够生成音频或图像很重要？因为也有Imagen可以生成图像，也有文本转语音API可以生成语音。那么，为什么Gemini能够做到这一点如此酷、如此不同或如此有趣呢？

我认为我们现在所处Gemini能够多模态生成的前沿位置如此强大的原因在于，你可以将Gemini的现实世界知识与其生成能力相结合。让我就此提供两个不同的例子。图像生成的一个例子是我们一直在玩的一个有趣的例子，你输入一个杯子和书放在桌子上的图像，杯子放在碟子上，然后你说：“嘿，Gemini，在这个图像中添加一个勺子。”现在，如果你在一个没有现实世界理解的模型中，你可以把勺子放在任何地方。但由于模型理解勺子可能与杯子和碟子相连，所以这可能是你想要在图像中放置勺子的位置，而不是在书上或随机地放在植物上。Gemini实际上非常擅长以正确的方式调整勺子的尺寸并将其放置在正确的位置。

这就是当你真正将这些元素结合在一起时可以实现的魔力。另一个例子是本地化。当你说：“嘿，生成一个坐在长凳上的人”时，如果我在印度，生成一个坐在长凳上的人可能看起来与我在西雅图或法国时不同。因为Gemini拥有现实世界的知识，你实际上可以生成更贴近现实世界语境的图像。我喜欢的例子是，不同国家的早餐是不同的。因此，生成的早餐图像并不相同，这取决于你是什么人以及你在哪里吃饭。将这些元素结合在一起才是魔力的来源。

这正是我期待人们尝试并获得反馈的地方。我们也看到这在原生音频中也有体现。使用原生音频生成可以赋予其不同的风格。例如，你可以说：“以海盗的风格说这句话”或“以……的风格说这句话”。这是你可以探索的另一个方面，因为Gemini拥有现实世界的理解。你可以将这些组件组合在一起，并在这个过程中创造出更多魔法，或者至少是互补的魔法，这很棒。

主持人Logan Kilpatrick： 那么Gemini2.0 Flash，我们第一个原生自主代理模型，这到底意味着什么？人们为什么应该感到兴奋？

Tulsee Doshi： 我认为就我个人而言，我对像海员项目这样的努力的未来感到非常兴奋。我相信，能够真正自动化某些原本感觉非常繁琐的任务，是真正强大的，对吧？例如，能够获取食谱，然后实际上说：“嘿，把这些食材添加到我的购物车里。”这些看起来像是简单的任务，但它们会产生巨大的影响。

我还对音频的持续发展感到非常兴奋，特别是对话作为模型持续的交互形式。我认为Astra真正利用了这一点；它使交互感觉比我们通常在手机上键入查询或输入内容时更加自然。

关于Gemini为这些自主代理体验提供支持的意义，我的观点是Gemini就像一个拥有许多核心能力的引擎，例如屏幕理解、空间理解和原生搜索工具的使用。当你将这些元素结合起来时，你可以获得真正非凡的结果。

例如，通过将Gemini的核心推理能力与其屏幕理解能力相结合，你可以帮助模型有效地在网站上导航。这些能力使自主代理的概念成为可能，对我来说，这意味着模型可以代表你完成现实世界的操作。我相信，我们现在已经到了真正实现这些能力的临界点，这就是我们在这里所汇集的东西。

主持人Logan Kilpatrick： Tulsee，这是一个关于代理的热门话题。我认为我看到的很多演示都是关于模型做一些人类真正从中获得价值的事情。我和我的女朋友谈论过人工智能代理购物之类的事情。她说，我喜欢购物。我为什么要让代理去做呢？我也喜欢购物。这太有趣了。所以我很想知道，首先，你认为实际的自主代理用例是什么，例如，对于现在想要构建某些东西的开发人员来说，在哪里可以创造价值。但同时，这在未来12个月内会改变吗？例如，Gemini会从根本上改变这一点吗？是的，我很想知道。

Tulsee Doshi： 听着，我认为我们确实希望Gemini能够增强人类的能力，对吧？因此，理想情况下，你希望它能够在你需要帮助的地方帮助你。理想情况下，你希望它能够将你不想承担的事情从你的盘子里拿走。不同的人真的不一样，对吧？就像我喜欢购物，我个人从中获得了很大的价值。我丈夫讨厌购物，如果Gemini能帮他买一堆黑色T恤，让他在接下来的六个月里穿，他可能会非常高兴。

话虽如此，我认为这里有一个有价值的观点。例如，购物车用例对我来说特别有趣，因为它是我不喜欢做的购物类型。我认为看到这些模型可能在各种情况下对不同类型的用户具有不同的价值，这很有趣。我们使用Gemini的任务应该是为开发人员创造许多机会，让他们为其用户群创造能够最大限度地提高娱乐和生产力潜力的体验，无论我们如何定义它。

我认为我们必须小心，确保我们以一种仍然让人们拥有这些体验自主权的方式来构建体验。通过这种方式，我们使他们能够在他们感到兴奋的体验部分中找到乐趣，并以安全和有意的方式这样做。我认为，因为全世界有如此多样化的人们想要自动化他们体验的不同部分，开发人员会发现他们可以识别出这实际上发挥作用的不同细分市场。

主持人Logan Kilpatrick： Tulsee，过去12个月我们看到许多其他趋势都被归入了AI的范畴。我觉得代理模型（agents）也可能成为其中之一。我每天都听到“代理模型”和“人工智能”这两个词。我觉得它们最终可能会融合成同一件事。我很想知道你对此有何看法，以及Gemini 2.0是否朝着这个方向迈进了一步。

Tulsee Doshi： 我希望Gemini 2.0是朝着这个方向迈出的一步，对吧？我认为，一旦你开始用一个词来指代很多事物，它就会开始失去一些含义。所以，我认为现在“代理模型”这个词很有意义，因为我们仍在试图定义它们是什么，仍在努力构建它们的基础。但是，我认为随着我们拥有更多——我不知道怎么说——随着我们拥有更多像Gemini这样的模型，以及在其之上构建的平台和基础设施，使更多开发者能够构建代理体验，我们会开始更多地讨论我们正在构建的代理体验类型，而不是仅仅讨论代理模型本身，因为我们会对与世界交互的方式有更细致的理解。然后我认为讨论会转向，我们使用的词汇也会发生变化。所以，是的，我认为“代理模型”这个术语可能会变得不那么……

我不知道是不是用得少了，但至少随着时间的推移，它的意义会降低，然后会被更具体的定义所取代，这些定义更能准确表达我们的意思。

主持人Logan Kilpatrick： 我们已经展示了小型模型取得的成功，我很想知道你是否认为我们会最终得到一个大型模型。

Tulsee Doshi： 是的，我仍然相信扩大规模有很多价值。我认为我们需要同时开发小型模型和大型模型。所以我们正在思考这将如何实现。我认为我们首先需要考虑的是，在哪些实际用例中，开发者需要这种级别的强大功能或推理能力。我还认为，随着推理时间成本的增加，以实现真正强大的推理和能力，我们还需要考虑模型的大小在哪些方面增加了价值，而推理时间在哪些方面增加了价值，这是我们目前正在研究的一些内容，以便更好地确定未来的发展方向。

主持人Logan Kilpatrick： 我喜欢这个想法。最后一个问题是，你个人非常期待的任何AI用例，目前这些用例还不够完善，无法成为你日常生活中的一部分，但你希望再改进几轮模型，甚至2.0版本，最终能够实现这些用例。

Tulsee Doshi： 哦，好问题。我的意思是，正如我之前所说，关于计算机控制，我认为我们正处于旅程的开始，但我认为还有很多工作要做，才能真正让它成为一种安全、直观、有用的体验。

我还非常喜欢对话。我认为，目前多语言对话是我们在行业中不断改进的一个领域，但真正能够用古吉拉特语、印地语和英语与模型交谈，并且模型能够以清晰、符合我思维模式的方式回应，这是一个我认为我们会看到持续改进的领域，我对此感到非常兴奋。

还有一件事是，目前的模型做得不好，而我很希望看到改进，那就是我是一个舞者，我觉得我一直试图使用模型来帮助我设计编舞。我认为这方面我们仍然需要做一些工作来改进。所以这是我暗中抱有希望的一个领域。不过，我想除了我之外，没有人关心这个用例。所以，你知道的，我们会改进的。

主持人Logan Kilpatrick： Tulsee，这次对话非常有趣，很棒。感谢你以及Gemini团队其他成员在过去六个月里为发布这个模型所付出的辛勤努力。老实说，我真的很兴奋，因为尽管我们一直在全力冲刺，但这感觉仅仅是2.0故事的开始。我们还有很多东西即将推出，接下来的六个月将会非常有趣。

Tulsee Doshi： 是的，我真的很兴奋。2025年将会很棒。也谢谢你，Logan。我觉得这是一段相当精彩的旅程，但它非常棒。我期待明年。

参考资料: https://www.youtube.com/watch?v=L7dw799vu5o，公开发表于2024-12-11

关注公众号后设🌟标，掌握第一手AI新动态

往期精选

瓜哥AI新知

紧追AI业界一手观点、访谈、动态，点滴构建AI底层认知