“知道自己不知道什么”意味着人类在解决问题时能意识到自己缺乏的信息,这种自我意识帮助我们主动寻找所需的知识或数据。然而,现有的大模型缺乏这种能力,限制了它们的有效性和适应性。
出品 | AI 科技大本营(ID:rgznai100)
这次挖人相当轰轰烈烈,谷歌大神 Jeff Dean、CEO 皮查伊以及两位谷歌副总同时抛出了橄榄枝,再加上 Logan 本就是推特上知名的“传声筒”,经常和网友们近距离互动。在 Logan 成为产品经理之后,他依旧没有改变以前当开发者关系负责人的习惯,还是经常在推特上参与各类 AI 圈时事讨论,乐于分享 AI 资讯与自己的意见。
时间转到昨夜,Google 突发 Gemini 1.5 Pro 和 Flash 两款大模型,价格有所降低,性能有所提升;本次模型的主要更新包括输出 token 定价降低了 52%,而 Gemini 1.5 Flash 的速率限制提高 2 倍、Gemini 1.5 Pro 的速率限制提高 3 倍,同时还改善了模型延迟。
作为首席产品经理的 Logan 自然也是第一时间在推特上发布了消息:“两款全新的产品级 Gemini 模型。今天对于开发者来说是个好日子 :) ”
不过,关于全新 Gemini 模型的更多消息,其实藏在了 Logan 和人工智能每日通讯 The Rundown AI 的创始人 Rowan Cheung 的最新采访里。在 Rowan Cheung 昨天的推特内容里,他就提前爆料了今天会有一家“神秘公司”发布一款对开发者来说意义重大的模型,并且还做了一场相关采访。评论底下就是 Logan 本人的亲自回复,答案呼之欲出:
Rowan 的这个爆料套路,在上次采访 Meta CEO 马克·扎克伯格时就用过了一次,欢迎回顾当时的内容:《最强模型 Llama 3.1 如期而至!扎克伯格最新访谈:Llama 会成为 AI 界的 Linux》
下文是本次 Logan 最新采访的全部内容:
三大亮点:上下文缓存、多模态、免费微调
主持人:谷歌今天发布了一系列最新公告。能给我们简要介绍一下这些公告的内容以及它们为什么很重要吗?
Logan Kilpatrick:当然,这真是令人兴奋的时刻。在过去约 5 个月里,我们一直在收集开发者关于所有大语言模型及其使用方法的反馈。
今天我们推出了两个新的可投入生产的 Gemini 模型,同时还改进了许多开发者反馈的问题,比如关于速率限制、Gemini 1.5 Pro 的定价,以及一些默认启用的过滤器设置。这些改进都聚焦于让开发者能够开发更多他们想要的功能。
同时,这也是我们在过去两个月发布的所有实验性模型的后续成果。我一直有收到开发者发来的消息或是私信,他们表示非常期待这些模型的正式推出,这样他们就可以真正开始使用它们来构建应用了。
主持人:虽然我不确定自从你加入谷歌以来的进程是否真的有所改变,但至少在 X 平台上,你每天都会搬运各种最新的 AI 创新内容,这点做得非常出色。下一个问题。到底是什么让 Gemini 的最新模型如此与众不同?
Logan Kilpatrick:这是个好问题。我认为它的重点不在于有多么与众不同,更多的是体现了我们正在经历的总体发展趋势,也就是大语言模型当前的最新进展。我工作中最棒的部分之一就是能够与 Google DeepMind 的团队合作。我对那个团队和他们的发展方向有着坚定的信念。所以从开发者的角度来看,我一直在关注的是 Gemini 模型这次迭代的进展路径。在某些基准测试中,我们甚至看到了指数级的增长,哪怕和上次 Google I/O 相比(今年五月的时候),这种进展也令人难以置信地兴奋。
再次强调,这些改进都是基于开发者给我们的反馈,比如他们希望模型不要回避问题。他们希望模型能够直接回应他们提出的问题,而不是试图回避某些问题。在这方面,Gemini 已经有了很大的改进,包括数学能力、模型的编码能力等,这对关心开发工作的人来说显然非常重要。所以我们一直在倾听并根据生态系统的反馈进行迭代。
主持人:你刚才提到了数学。我们能不能详细谈谈这个?这些大语言模型在数学和推理方面有哪些新的改进?
Logan Kilpatrick:确实,这是当前最棘手的问题之一。我们甚至在内部讨论如何向普通观众展示这些大语言模型在数学方面进步的一些微妙之处。在某种程度上,这其实仍是一个开放性问题。至少我看到的例子远远超出了我的能力范围,而我只是学过三门微积分课程的人。
总的来说,大语言模型在解决数学问题方面变得更加出色了,我认为这种进步可以推广到许多需要深入思考问题空间的领域。但实际上,模型在解决数学问题方面的进步并不是一个非常实用的用例,因为你可能更需要一个像我们的代码解释器那样的系统,它可以实际编写代码然后给你一个确定性的输出,而不是让模型对你给出的数学问题进行原始尝试。
不过再次强调,正如你所指出的,真正令人兴奋的是数学问题被解决的方式,即大模型已经学会了逐步迭代的过程,这就是数学改进带来的令人兴奋的成果。
主持人:是的,我认为所有这些数学和推理改进的关键在于迭代。你能不能向不太懂技术的读者们解释一下它的重要性,以及其未来的潜力?
Logan Kilpatrick:当然。我认为今天构建的许多 AI 应用在进行演示用例时通常都能很好地工作。从第一次构建某样东西或第一次尝试到让人惊叹“哇,这太神奇了”的瞬间,可能是我们见过的最近技术趋势中最短的。
然而,真正具有挑战性的部分是从那个“令人惊叹的时刻”到你真正想要在大规模上展示给客户的东西,这实际上是一个很长的过程。所以所有这些进步直接与使更多人能够实际将这些技术应用到他们的产品中相一致。构建酷炫的 demo(演示)确实很棒,我比任何人都喜欢酷炫的 demo。但实际上,这项技术对开发者、初创公司和最终用户真正有价值的方式是使其变得稳健和可靠。我认为这就是我们现在的总体发展方向。
主持人:谈到发展方向,你能否详细说说,为什么将所有新版本的 Gemini 迅速交到开发者手中如此重要?
Logan Kilpatrick:是的,这与你提到的我们是否加快了发布速度有关。但我不确定我是否有足够的视角来回答这个问题,因为自从我加入谷歌以来,我们一直在快速发布产品。所以我相信之前肯定有很多人在以超快的速度工作。
我认为,“从开发者的视角思考”是我加入谷歌时立即引起我注意的一点。当我与 DeepMind 那边的同事交谈时,他们经常会说 “我们如何让这些模型更适合开发者?我们非常重视这一点。这些开发者是利用我们模型的最终用户。我们能采取什么行动?” 每当我们推出一个实验性模型,会先在 LMSys 上测试它们,将它们交到开发者手中,放入 AI Studio……在这个过程中,我们实际上已经可以看到了一些非常有趣的趋势,比如人们喜欢哪些模型。例如,一些实验性模型是 AI Studio 上使用最多的模型,人们会去主动尝试寻找这些模型,因为他们已经听说并实际看到了改进。你实际上可以真切地看到,这个模型在解决一系列全新的问题时表现得更好了,这归根结底是开发者喜欢看到的。这种进步,这种持续向前的方向让人很容易产生认同感和支持。这也是让我兴奋的原因,因为谷歌的很多人付出了长时间的工作,包括熬夜和早起,才使所有这些成果成为可能。
主持人:是的,最近谷歌的进步确实令人难以置信。这真是太惊人了。你能否分享一个例子或一些令人印象深刻的案例,说明客户或用户如何在现实世界中使用这些 Gemini 的实验性模型?
Logan Kilpatrick:这是一个很好的问题。目前的一大挑战在于,实验性模型的速率限制极低,几乎每分钟只能处理几个请求。因此,开发者在某些情况下甚至无法评估这些新模型的实际应用价值。不过,从方向上看,即使在有限的请求次数下,人们也能观察到这些模型在某些方面表现出色,特别是在涉及视觉内容的任务上。
Gemini 的初衷是构建一个多模态模型,而非简单地将理解图像的能力附加到传统文本模型上。考虑到该模型发布至今尚不足一年,首个版本仅在去年十二月发布,其发展速度确实令人印象深刻。多模态处理能力一直是 Gemini 模型的重要差异化特征之一,包括理解和处理图像边界框以及视频内容。这种能力使得用户能够在 AI Studio 中上传长达一小时的视频,并提出各种问题,体验效果令人震撼,并且用户可以免费尝试这些功能。
主持人:展望未来,你最期待解决哪些有趣的、尚未解决的现实世界问题?比如说,通过这些在数学和推理方面的突破,以及 Gemini 的新更新可能解决的问题?
Logan Kilpatrick:我认为我们在智能体的工作流(workflow)方面仍处于起步阶段。虽然很多公司正致力于智能体的研究,但仍有诸多方面有待完善。然而,随着模型的不断迭代,这些用例有望变得更加成熟和实用。本次发布的 Gemini 模型将在智能体领域提供更多的支持,尤其是在理解屏幕内容并执行操作(例如点击按钮)等场景中展现出了卓越的视觉处理能力。此外,长上下文处理能力的改进也为开发者带来了新的可能性。虽然传统的做法建议避免在上下文窗口中放置过多 token,但我们证明了这种方法可以实现复杂的功能。
主持人:我认为不仅对于开发者,甚至对于消费者和企业来说,我们只是刚刚开始探索当前模型的潜力。这还没有谈到未来的更新和 Gemini 的所有这些新功能。就像你说的,我们只是触及了冰山一角,不仅是在上下文窗口方面,而是大语言模型的整体潜力。让我们具体谈谈为什么开发者应该使用 Gemini 1.5 进行开发。除了新的更新、更高的 API 调用限制、扩展的功能访问,以及我们刚才谈到的著名的大规模上下文处理能力之外,Gemini 1.5 还提供了哪些开发者应该真正感到兴奋的能力或特性?
Logan Kilpatrick:首先,Gemini 1.5 提供了卓越的长上下文处理能力。其次,它具备多模态处理能力,能够同时处理文本和图像等不同类型的输入。此外,Gemini 1.5 推出了上下文缓存功能,这是行业内的首创,可以显著减少开发者在处理大量数据时的成本。开发者可以通过支付固定的小时费用来存储 token,之后的增量 token 成本将大幅降低。
另一个重要的特性是微调能力。Gemini 允许用户在 AI Studio 上免费微调 Gemini 1.5 Flash,并将其部署到生产环境中,而无需为微调本身支付额外费用。这是目前市场上独一无二的服务。我们旨在降低开发者使用 AI 技术的门槛,通过提供行业内最慷慨的免费配额来鼓励创新。开发者只需使用谷歌账户即可开始构建。作为开发者,我对这一发展方向感到非常振奋。
主持人:也就是说,现在用 Gemini 开发比以往任何时候都更经济实惠,而且它是最具性价比的 AI 开发平台。
Logan Kilpatrick:确实如此。Gemini 不仅在价格上具有竞争力,还在性能和其他关键指标上达到了最优平衡。以 Flash 模型为例,无论从每个 token 的成本还是智能性价比来看,它都是市场上最好的选择之一。随着 1.5 Pro 价格的下调,高端模型中 1.5 Pro 同样表现出众。从综合角度看,Pro 模型为开发者提供了最佳的性价比。
Logan Kilpatrick:这是一个很好的问题。我们的默认入口页面是 AI.google.dev,其中链接了 Gemini API 的文档。此外,GitHub 上有一个快速启动仓库,只需运行约四个命令即可在本地环境中搭建一个简化版的 AI Studio 和 Gemini,允许用户操作模型及上传图像,体验完整的流程。此过程涉及几百行代码。
我认为技术变得更加易于接近的美好之处在于,不仅有许多低代码或无代码工具使构建更加简便,而且对于编写代码的人来说,模型在理解和生成代码方面也变得越来越高效,从而降低了门槛。作为一名曾经的软件工程师,我现在能够处理比过去复杂十倍的问题,这得益于 AI 的辅助作用。我认为对于从未编写过代码的人来说,现在借助 AI 助手,他们同样能够解决问题。模型对代码的理解至关重要,因为在低代码或无代码的场景中,模型可能在后台实时生成代码。因此,代码的质量仍然是核心目标。
主持人:我也完全同意,我觉得在 AI 时代,我们真的还处在非常早期的阶段。太多的人还不知道发生了什么,或者并没有真正跟上这些动态。所以,如果有人能够保持更新,他们就已经走在前面了。
至少对我自己来说,我已经习惯了在 X 上保持更新。这么容易就会陷入“每个人都知道一切”的圈子里。但实际上,如果你在 X 上跟进这些动态,通过阅读新闻通讯、看 YouTube 视频、收听像这样的播客来保持更新,那么你可能已经属于那 1% 的早期采用者了。
我们还处在非常早期的阶段。所以,是的,现在真的是一个令人激动的时代,也是学习的好时机。学习现在也比以往任何时候都容易,只需要跟随你的好奇心,看看它会带你到哪里去。
Logan Kilpatrick:关于学习的角度,我想提一下,谷歌上周刚刚发布了一个新功能,虽然它不是 Gemini API 的一部分,但它提供了一种音频概览体验。通过这个功能,人们可以将大量文档和数据输入到 NotebookLM 中,然后生成一段生动的播客对话。
我亲自测试了一个关于土豆的例子 —— 尽管这不是一个引人入胜的主题,但生成的对话却异常生动。我花费了整整 11 分钟来听取有关土豆的历史、起源和生物学的信息。
主持人:我试用过音频概览功能,确实感觉非常令人印象深刻。你提到的关于学习的观点也很有道理,对吧?很多人都是听觉型学习者,而有了音频概览之后,你可以把任何东西放进去,它会自动生成一个有趣的对话,你只需听就可以了。听这样的对话,比起听单纯的音频录音要有趣得多,就像听新闻通讯一样。
Logan Kilpatrick:实现这一体验的核心技术是 Gemini 和其长上下文处理能力。让这个体验变得有趣的关键在于,用户可以将多个数据源,如十个 PDF 文件或一个 Word 文档,输入系统——虽然我不确定是否支持视频文件,但这些数据都可以通过 Gemini 处理。
我认为这是我们见到的最成功的长上下文应用之一,它已经被广泛应用。我们现在习惯于在界面上处理大量数据,但往往不会意识到背后的技术复杂性。该功能能够提炼出数据中的细节并赋予生命。从开发者的角度来看,我期待这能够展示如何在这些新的范式中有效地利用长上下文技术。
主持人:是的,回到我们刚才提到的早期阶段,虽然这些技术能力非常惊人,但我们还需要时间去真正发挥它们的潜能。还有你提到的例子,比如土豆,其实很多人已经在用这些技术做非常酷的事情。你能分享一些让人印象深刻的音频概览的应用场景吗?还有可以告诉大家在哪里可以使用这个功能吗?我相信很多听众都会想去体验一下。
Logan Kilpatrick:首先,这个功能的网址是 notebooklm.google.com。说实话,我还没听过比土豆更无聊的例子了。所以,你们在使用的时候可以想象一下比土豆更有趣的东西。
我见过很多人放进了 AI 论文,还有你提到的新闻通讯,所以其实有很多比土豆更有趣的内容。但对我来说,土豆这个例子其实证明了 AI 基本上可以让任何无聊的内容变得有趣。我还看到一些人在讨论他们的孩子以及这种技术对教育的影响。所以,我觉得未来非常明朗。即便这种技术唯一的作用是让学习变得更简单,并让那些不太吸引人的内容变得生动,那它就已经对人类产生了巨大的积极影响。抛开未来可能会发生的事情不谈,仅仅这一点就已经有非常大的价值了。我认为我们面临的挑战之一是,我们总是在展望下一次技术迭代的未来,结果往往忽视了当下已有的东西,并且没有充分利用它们所能创造的价值。
主持人:咱们聊聊智能体吧。这显然是人工智能的下一个阶段,我们知道它正在到来。你能先解释一下你对“智能体”(Agent)的定义吗?有时候这个术语的概念有点模糊,所以请先为我们定义一下,然后我们再讨论。
Logan Kilpatrick:当然。当前的一个挑战在于,与“人工智能”或“机器学习”这类有明确定义的术语不同,“智能体”这个词汇在业界有着多种解释。
对我而言,智能体是指一种可以代表用户执行特定任务或采取行动的系统。在当前 Gemini 的框架下,开发者需要自行构建智能体工作流程。
尽管可以使用 Gemini 或其他框架来构建智能体,但在 Gemini API 中尚未集成任何智能体框架。这是有意为之的战略决策,因为市场上已有许多公司在开发智能体框架。
现阶段,我们的重点是提供强大的模型,以推动智能体应用的发展,并等待市场进一步成熟,以便确定我们在何处可以填补空白。
主持人:是的,这非常有道理。我想我们现在确实可以看到这一点,正如你所说,这些框架目前的能力还不足,但它们正逐渐接近目标。从这些更新和模型中,我们可以清楚地看到它们正在不断进步。那么我的后续问题是,你认为我们距离像 ChatGPT 那样系统性的突破还有多远呢?你觉得我们会看到类似 2022 年的消费者热潮吗?
Logan Kilpatrick:我认为当前人工智能之所以引人注目,原因之一便是它能够以相对较低的努力为用户提供价值。但对于需要主动性的系统而言,要实现这一目标则面临更多挑战,比如需要获取用户的日程和邮件等敏感信息的访问权限。此外,即便是在有类似人类助手的情况下,要让智能体系统完美运作也非常复杂。尽管如此,我认为会出现许多能够为人们带来显著价值的产品,并且这种趋势已经开始显现。这些产品能够处理特定任务,并在一定程度上替代用户本人的操作。虽然我不确定是否会出现大规模的消费者热潮,但类似 ChatGPT 的界面可能会让智能体技术变得更为普及。
主持人:这很有道理。那我接下来的问题是关于形式因素的。你认为这些智能体的最终形态会是怎样的呢?是聊天、语音,还是嵌入到我们的手机里?或者是眼镜、耳塞之类的设备?你认为最终的形式因素会是怎样的,特别是那些个性化的智能体,而不是工作场景中的智能体?
Logan Kilpatrick:这是一个复杂的问题。我认为智能体最终不会仅仅局限于聊天形式,也不会只是一个简单的 SaaS 应用。结合硬件与软件,找到两者的融合点似乎是合理的发展方向。当前,许多人正尝试通过 AI 辅助硬件来实现这一目标。视觉界面,如智能眼镜,可能是一个直观的选择,但其日常佩戴的便利性仍有待验证。我认为最终的形式可能是软硬件的组合,既包括纯软件的个人助手,也可能包含物理机器人,后者能在物理空间中提供帮助。
主持人:是的。这是一个重要的问题,对吧?我们并不知道确切的答案。这真的取决于世界的接受程度。你认为在未来,AI 最令人惊讶地改变我们日常生活的方式会是什么呢?可能更多是在个人层面,而不是工作层面?
Logan Kilpatrick:我认为,自大模型问世以来,人们一直在探讨 AI 如何改变日常生活。目前,这些系统的局限在于用户需要首先采取行动。未来的系统应当能够主动询问用户需求,并根据用户的许可执行相应任务。这种双向交流模式更接近于人类之间的互动。然而,目前鲜有系统能做到这一点。技术上,将大量信息输入模型的上下文窗口,并设定好周期,使其自动生成问题和动作是可行的。实现这一目标的关键在于系统的设计与构建。
主持人:你认为 Gemini 在上下文窗口方面是否领先?你认为这在新的智能体时代是一个显著的优势吗?
Logan Kilpatrick:我认为这是显著的优势之一。上下文窗口是一项重大突破。对于多模态模型而言,性能差异较难量化,但视频理解则是另一项重要进展。目前,能够接收并理解视频内容的模型并不多见。因此,我认为这些功能将继续增强。从个人角度来看,许多前沿的应用案例正是在此创造价值。
对于开发者来说,吸引用户的途径是创造出新颖的事物。谷歌正在推动这些应用案例的发展,为开发者提供新的展示机会,并帮助他们创造商业价值。上下文窗口技术的研究与应用将持续推进,我相信谷歌的团队将在这个领域取得更大成就。
主持人:我记得你们在研究上有 1000 万的数据量。是这样吗?如果我说错了请纠正我。
Logan Kilpatrick:是的,DeepMind 有许多研究论文讨论了处理高达 1000 万数据量的情况。但在合理的终端用户成本下,将如此大的上下文信息应用于生产环境仍面临许多挑战。尽管如此,持续推动研究并解决这些问题非常重要。谷歌以其解决大规模复杂工程问题的能力著称,并将这些技术转化为大众可用的服务。无论是搜索、YouTube 还是 Gemini,谷歌都展示了将先进技术转化为实际应用的能力。我相信这种能力将继续推动上下文窗口技术的进步。
主持人:谷歌的效率确实值得称赞。那对于非技术背景的读者,你能为他们解释一下无限上下文窗口可能意味着什么吗?
Logan Kilpatrick:目前模型只能处理上下文窗口内的信息。如果你问模型的问题不在上下文窗口内,或者不在模型训练的数据范围内,那它就无法给出答案。人类的独特之处在于,我们拥有大量的上下文,并且随着我们的学习和日常生活不断积累新的上下文。同时,我们也具备工具去动态地获取更多额外的上下文并用其来采取行动。而在今天的系统中,基本上需要用户自己去做所有这些检索和输入上下文的工作。
推理能力对于模型的认知至关重要
主持人:接下来我想讨论的是通用人工智能(AGI)。显然,这是最终的目标。你可以再次解释一下通用人工智能是什么吗?这个词的定义是比较宽泛的。
Logan Kilpatrick:确实,AGI 的定义需要明确。我倾向于认为 AGI 是指能够执行人类所能承担的一部分经济活动中的工作的模型,这可以作为评估这些系统实用性的代理指标。然而,这是否是一个正确的或理想的定义,则需要权威词典来界定。总体而言,我认可的定义是:能够执行人类所能完成的任务的系统。
主持人:那么接下来的发展路线图是什么?目前通往通用人工智能的瓶颈有哪些?
Logan Kilpatrick:我认为仍有许多方面需要攻克,比如模型能否有效地理解视觉信息。此外,长上下文处理能力也是一个瓶颈——尽管不确定人类大脑可以处理多少个 token,但肯定远超二百万。因此,我们需要在提升现有能力的同时,研发更多新功能。
让我感到兴奋的是,许多新功能的研究都是由谷歌 DeepMind 团队在过去十年间持续进行的工作,如 AlphaGo 中的规划技术和策略强化学习等。这些研究成果对于实现通用人工智能至关重要。DeepMind 团队拥有足够的资源和技术专长,并一直专注于此。我期待看到这些成果整合在一起,让我们能够利用这些系统开发出真正有趣的应用。
顺便提一下,我认为使用这项技术面临的最大挑战之一就是有太多潜在的、有价值的产品可以开发。每当我们思考新一代的大语言模型所带来的新应用时,就会发现有无数的方向可以探索。我对人们利用当前技术成果开展实践感到十分兴奋,并对未来充满乐观,因为每次模型的迭代都会开启许多新的可能性。
主持人:我们现在所处的位置令人惊叹,而且看起来离下一步或未来似乎很近。显然,推理能力和数学突破目前非常热门。它们在通用人工智能的未来发展中有多少作用?
Logan Kilpatrick:我认为推理能力至关重要,它关系到模型的认知能力。这与 DeepMind 早期的研究方向一致,他们长期致力于解决这类问题。从某种意义上讲,我们目前依赖 Transformer 架构和大规模语言模型作为智能系统初步迹象的事实,有些出乎意料。但我确实认为将推理能力和大规模语言模型结合起来是有道理的。此外,在实际应用中,由于人类已经相当缺乏耐心,因此很多时候无法等待长时间来获得答案。因此,只有在某些特定的应用场景下,延迟回答以换取更高质量的结果才是有价值的。尽管如此,我还是为那些现在就能够帮助人们并支持开发者的应用感到高兴。同时,我也对将来还有许多极其有趣的研究工作要完成充满了期待。
本场采访的链接:https://www.youtube.com/watch?v=WQvMdmk8IkM
大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。
读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”
能学习到新知识、产生共鸣,解答久困于心的困惑,这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。