喝点VC|红杉资本对话NotebookLM产品设计负责人:尽最大努力去创造和思考新的、疯狂的体验,很多用户是第一次与AI交互
文摘
2024-11-01 11:14
中国
图片来源:Sequoia Capital
- NotebookLM是谷歌开发的一款人工智能驱动的研究和写作工具,上传一个源文件,它会为用户生成一个音频概述或播客。这款产品的爆火很大一部分原因是简单的一键式体验,研发人员将交互按钮设计得十分简洁有趣,吸引更多用户尝试。
- 在设计选择与产品专业化上,谷歌产品设计负责人Raiza认为应该真正思考如何让新的东西变得直观,来满足用户尤其是第一次使用AI的用户的需求。对于未来的产品设计,Raiza认为应该深入投资到AI输出。
男主持:嘿,大家好,这里是Training Data,我是这档播客的主持人。女主持:很高兴来到这里,我是红杉资本的长期听众和粉丝。感谢邀请我们参加节目。两周前,谷歌的一款神奇的实验产品成为了热门话题,那就是 NotebookLM。这是一款人工智能驱动的研究工具,因其能够把任何原始材料创建成高质量且非常逼真的播客而走红。今天我们很高兴邀请到谷歌 NotebookLM 的产品和设计负责人Raiza Martin 和 Jason Speilman。我们和他们聊了这款产品的灵感来源、在谷歌这样的大公司内部开发此类项目的过程、出现的令人惊讶的使用案例以及 Notebook LM 的下一步计划。Raiza&Jason,非常感谢你们今天能加入我们,我们很高兴能在你们的人工智能播客主持人取代播客行业,让我们失业之前邀请到你们。女主持:我想先问一下,人们称 NotebookLM 为谷歌的 ChatGPT 时刻。它是一款实验产品,处于预览模式,却迅速走红。你们同意这种说法吗?你们怎么看?Raiza:ChatGPT 对我来说影响很大。所以想象一下这种比较,对我来说感觉有点像,是吗?但我认为从很多人身上我们看到它有着类似的影响,即这就是人工智能可以做的。所以这真的很酷。Jason:我想在某种程度上我会同意,当我第一次听到“音频回顾”,当第二个主持人出现时,真的是一种令人震撼的体验。但我认为在底层,比如我们有 1.5 版本的模型在处理所有这些非常复杂的信息,并以一种相当简洁的方式输出。我认为,对我来说这两者的结合绝对是一个令人难以置信的时刻。女主持:如果屏幕前有人还没有使用过这款产品,能不能介绍一下NotebookLM是做什么的?Raiza:NotebookLM 是一款人工智能驱动的研究和写作工具,但我认为现在更常见的说法是上传一个源文件,然后它会为你生成一个音频概述或者播客。女主持:这是偶然发生的吗?比如你们一开始是想打造一个让播客主持人失业的AI产品吗?还是说这是偶然出现的?Raiza:说实话,我们一直在研究不同的输出模式。语音是下一个方向,我们选择了对话。我们知道它会成为一个杀手吗?我想说不,我觉得它很神奇,但它在人们中的反响是令人愉快和惊讶的。男主持:我知道你们已经研究 NotebookLM 有一段时间了。能和我们聊聊这个项目的起源吗?最初的想法是什么?它是如何产生的?Raiza:我记得我去年在人工智能测试厨房工作。Notebook 实际上是一个只进展到 20% 的项目。我们有一个工程师一直在研究一个叫做 “和小语料库对话” 的项目,非常有趣。但我不太明白语料库是什么。后来我和他聊了一下。他说,这是一个你可以用语言模型和你的数据对话,尝试从中提取东西的想法的东西。然后我就想,这太有趣了。我开始思考这里有哪些实际的使用案例。我实际上是一个成年后才上大学的人,如果我可以使用一个语言模型,并且我知道它还能做什么,我可以用它和一本教科书对话。这太令人兴奋了。我可以看到这将如何改变我的生活。它可以改变很多人的生活。就在那时我们真正开始行动起来。比如,我们要构建什么来向人们介绍这个版本呢?在 2023 年 5 月,我们推出了 Project Helen,就是你上传一个源文件,比如一个 PDF,你就可以和它聊天。Jason:我认为我们以源文件为基础这一点使得这个产品非常独特。我认为即使在我开始思考这个项目的时候,我也没有意识到我生活中创造的所有东西往往都有一些之前的物品或文件作为基础来创造新的东西。所以我认为现在,至少我会称它为一个以源文件为基础的工具,但我们实际上也正在成为一个用于创作和很多其他事情的源文件类型的工具。女主持:你们能分享一些关于 NotebookLM 的统计数据吗?Raiza:我可以分享的是,在音频回顾之前,我们处于稳定增长的轨道上。但自从我们推出它之后,增长速度迅速加快。这真的很令人兴奋。它是一个很好的吸引人们使用产品的亮点。我认为另一件我要说的是,虽然它吸引人们使用,但人们一般会因为其他功能而留下来。看到人们从这样一个工具中想要得到什么,这也很有趣。女主持:播客音频概述的体验绝对是神奇的。能和我们简单介绍一下它在幕后是如何工作的吗?比如,你们是如何让它如此逼真的?你们是如何做到的?你们是如何让对话如此精彩和吸引人,让你沉浸其中的呢?你们是怎么做的?Raiza:首先我要说这是大量的工作。这需要很多团队合作。有很多精湛的技艺投入其中。但它的核心是谷歌的模型,Gemini 1.5,它是一个非常出色的模型,能够处理你提供给 NotebookLM 的所有数据,并从中生成新的内容,还有支持 NotebookLM 的音频模型。我想说这两者之间真正的核心是我们构建的叫做 Content Studio 的东西。它真正地让你上传内容和生成播客之间的编辑过程变得生动起来。我们在 Content Studio 中采取了一些编辑自由。女主持:在未来你们会考虑把 Content Studio 向人们开放,让它变得更有趣,或者变得更严肃?Raiza:我们听到很多反馈,特别是因为有很多人在使用它而对它很满意。我认为下一步就是人们想要能够控制它。这就是我的第一反应。好吧,让我们提供控制按钮。但我试图更谨慎地思考,嘿,人们爱上它是因为它令人愉快,它很神奇。我如何提供令人愉快和神奇的控制按钮呢?我认为有办法。所以我对这个很感兴趣。Jason:我认为“音频回顾”的爆发部分原因是它是一种简单的一键式体验。我在试图给我奶奶解释如何使用它时,实际上不需要任何解释。我只是把一个源文件放进去。她就说,我明白了,我点击这个按钮来生成。我认为创作的简易性实际上是引发如此大爆发的原因。所以我认为,当我们考虑添加这些控制按钮时,我们想以一种非常有趣的方式来做。女主持:你提到人们因为播客而来,然后因为其他功能而留下来。你看到的其他一些最好的使用案例是什么?Raiza:我要说一个最令人惊讶的案例,我之前稍微提到了教育方面的使用案例。这对我来说很个人化。我看到很多学生和教育工作者在使用 NotebookLM,但令人惊讶的是看到在工作中使用 NotebookLM 的人数。一个很好的例子是我们在谷歌内部进行了一个试点案例研究。在广告团队中,我们有很多广告销售人员、广告专家在使用这款产品,我之前并不知道。但是对于这些广告销售人员来说,他们的很多销售培训和文档有数百页长。怎么会有人能学完这些呢?而且这些内容还经常变化。所以很难跟踪了解它是如何工作的,以便能够销售它。在 NotebookLM 之前,销售团队通常会怎么做呢?他们会互相询问。也许会说,“喂,乔,对吧?这个东西是如何工作的?我如何针对这个使客户定位它?”你等待乔回复,然后你会说,“让我把它复制粘贴到一封邮件中,稍微调整一下,就这样。”但是结果是像乔这样拥有很多知识并且阅读了所有这些文档的人,他们会创建笔记,然后把它分发给他们的销售同事,于是就有数百人自动地在使用这个笔记,因为现在他们不需要再询问乔了。这对我来说很有趣,因为我这是一个非常简单的使用案例,而且你可以在这个基础上构建更多的事物。Jason:实际上,就在这里,我和一个做销售的朋友聊天,他说,“伙计,这太棒了。我创建了整个NotebookLM。我在打电话时可以快速提问并得到回答。我认为这种知识分发的想法对于大型销售团队或数据中心等非常有帮助。”我认为另一个我也觉得很有趣的使用案例。实际上你可能也会认同,就是很多在风险投资和私募股权投资领域工作的朋友,他们有一种叫做保密信息备忘录的东西。我之前从来没有听说过这个,但是我有一个朋友,他说这基本上就是我的全部工作,就是浏览这些信息包。我把这些文件、接收的幻灯片放入一个NotebookLM 中,现在能够比以前更快地浏览所有这些相当复杂的信息。而且他告诉我他的工作速度提高了。女主持:广播主持人和风险投资。你们真的是在抢我们的工作啊。女主持:对我来说最令人惊讶的时刻是什么?是人工智能主持人意识到人工智能真的很酷的那一刻,但在这个过程中还有哪些时刻让你们最惊讶呢?Raiza:上周末,我想是几天前,我正要睡觉,我在刷推特,然后我看到了 “便便放屁” 那个。如果有人还没有听说的 “便便放屁” 那个,有人决定上传一个文件,里面只有 “便便” 和 “屁” 这两个词,一遍又一遍,一遍又一遍。所以这是一个相当长的文件,但只有这两个词。我看到他们用它做了什么。我就想,我要听吗?现在已经 11 点了,如果我点击它,而且它有安全标志,我就不能去睡觉了,对吧?因为我要打开一个故障报告。我要付钱给工程师。就像我们有这个事情要处理。那好吧,我就听一下。它实际上令人难以置信。Jason:我也看到了,然后我就想,让我们看看这会是什么。然后你听了之后会觉得,这太棒了,我想它甚至比我想象的还要好。Raiza:这是其中一个时刻。我就想,干得好,NotebookLM,你真的很棒。女主持:太棒了。你们做了哪些设计选择使得 NotebookLM 如此出色且对人们来说如此直观呢?Jason:我要说明我们仍然在做这些决策。我们正处于快速推出产品然后与用户密切合作以了解什么是最好的以及他们想要什么的过程中。技术现在发展得如此之快,以至于很难知道接下来什么是可能发生的。我们真的在推动一种模式,即我们快速推出产品然后与用户一起努力构建最好的产品。更具体地回答你的问题,我认为我们做的一件事,在某种程度上几乎是一个幸运的意外,就是让左边的源文件面板非常清晰。我认为我们是一个以源文件为基础的项目,我们需要让人们清楚他们是在和他们上传的源文件对话。我认为把源文件放在左边是这个项目非常关键的一部分。我也认为,正如我之前提到的,“音频回顾”是一键式的,这似乎确实有回报,那就是真正倾向于简单的体验。但是,话虽如此,还有很多事情要做,我们正在积极与用户合作以改进产品。Raiza:我认为在设计选择方面,特别是在产品专业化方面,我想说的一件事是真正思考如何让新的东西变得直观。这真的很难,特别是对于像首先要上传一个源文件这样微妙的事情,用户通常会在这一步犹豫,比如为什么?就像我不需要上传一个源文件就可以和 ChatGPT 聊天,我不需要上传一个源文件就可以和 Gemini 聊天,它们直接就可以工作。我认为我们在高效 这方面还有很多工作要做。女主持:你们认为在引导人们进入这种新的人工智能原生体验方面,最大的挑战是什么?Jason:我们正处于所谓的 “模拟形态” 的人工智能设计时代。我认为解释模拟形态,它是当一个虚拟对象反映一个现实世界对象时,就像早期 iOS 中笔记应用程序顶部有另一个边框,而且纸张是黄色的。这是为了让用户从现实世界过渡到虚拟世界。现在我们看到类似的情况在人工智能中出现,我们需要构建用户界面来帮助满足用户的需求。我认为现在我们正在尽最大努力去创造和思考这些新的、疯狂的体验,但同时也明白很多这些用户是第一次与人工智能交互。女主持:你们是如何考虑的?我认为 Midjourney 在解决空白墙提示问题方面做得非常好。你们有没有其他可以借鉴的应用?可以解决一些你们欣赏的用户界面挑战吗?Raiza:我最近尝试了 Pika。我非常喜欢这种预览效果,当你上传一张图片时,你可以准确地看到它会发生什么变化,因为它和这里的情况类似,你需要上传一些东西,并且可能需要写一个提示来选择一种效果。我觉得它做得非常好,就像这里有一个预览,对吧?它会挤压这个东西。这很有趣,有一次我上传了一张饮料的图片,我想让它变成蛋糕,就像对饮料会变成蛋糕的期待。我就想,来吧。我还想,我现在应该付钱吗?它也是我的第一代产品,我已经准备好付钱了。我知道这就是我所知道的,我觉得向用户展示另一面肯定有一些东西,我认为这真的能激励用户不仅给你图片,而且他们会非常兴奋地想看看会发生什么。如果是我的话,我会说,拿走我的 10 美元。所以它真的很有效。Jason:对我来说,我喜欢 Claude 的成果。我觉得它在共同创作方面做得非常出色。我们谈了很多关于写作尤其是共同创作的内容。看到这个领域的其他人也在思考这个问题,真是太棒了。我觉得现在,正如我刚才简要提到的,我们处于一个希望人工智能和人类平等的阶段,我们绝对不想取代你们的工作。我们只是想帮助支持你们的工作。我觉得汽车效果就是一个很好的例子,这很酷。你可以和它交流,也可以开始在这方面进行一些构建。女主持:你认为你的产品与 Claude 所采取的方法相比有哪些异同?你认为你们追求的是相似的东西吗?或者你是如何看待这些差异的?Jason:我认为首先,我们至少是一个以源文件为基础的工具,这立刻使我们有所不同。也就是说,我认为我们在广泛利用上传的源文件进行创作方面思考了很多。Raiza:我认为在这一点上,像大型语言模型交互的上下文实现是非常强大的。它创造了一种更具粘性的用户体验。如果我要猜测的话,Claude 的团队可能知道这一点,或者 Anthropic、OpenAI 的团队可能也知道。谷歌的人肯定知道,但我认为存在一个何时引入以及在哪些方面引入的问题。所以我认为对于 NotebookLM 来说,我很兴奋,因为我们从这里开始。对吧?所以当人们意识到以源文件为基础的工作流程和故事的重要性时,可能会对我们有一些期待。如果我们努力推进,希望我们能在其他人还在忙于其他用例之前取得更大的进展。女主持:你之前提到聊天是一种人工智能的模拟形态界面。对于人工智能来说,你们正在尝试一些更疯狂的东西,比如,这些更疯狂的东西看起来或感觉起来会是什么样的?给我们举个例子。Jason:我觉得从高层次来说,我对这种动态的用户界面非常感兴趣。Claude 就是一个例子,你会看到一些原本不存在的东西出现。我觉得我们在思考很多关于如何在阅读、写作方面做很多事情。我觉得在用户感到不知所措之前,我们能做的是有限的。所以我觉得我们真的在探索如何利用当下所做的事情,同时也不会让用户被其他可能性压垮。Raiza:我觉得对我来说,我思考很多新的模式。比如,从输入和输出方面来说这意味着什么?我自己做了很多原型设计,也对自己的很多行为进行了实验。我最喜欢的一个例子是,我可以和我的语言模型写手一起边走边聊,就像一个人工智能生态系统。我最近最喜欢的一个例子是我用日记来做这个,或者说我不写日记,而是来回和它交流,它为我创建日记记录。然后它会生成一个可视化的东西,基本上是说,“嘿,这周你心情不好的日子像心情好的日子一样多,或者你心情好的日子像心情不好的日子一样多。”这里是让你开心的事情,这里是让你不开心的事情。我觉得在这种交互中有很多丰富的内容,我觉得它是一种基于源文件的人工智能,有一些非常实用的工作用例,也有一些教育用例,但个人用例也非常吸引人。我在想如何把这些学习成果带回 NotebookLM,在移动应用程序中我们可能会看到更多这样的情况。女主持:你们现在有了 NotebookLM 这个神奇的产品,你们希望从这里把它带向何方?Raiza:我觉得老实说,就是继续前进。我只想继续构建更多很酷的东西。我们想加深用户的体验。我们想让它真正有用。我觉得现在有很多神奇的地方,很多令人愉悦的地方。我觉得我们想兑现最初的承诺,只是想让人们知道,你留下来就会看到。那会很棒。Raiza:我想说,如果我能回到过去,在这次发布中构建更多东西,我肯定会构建一个更好的分享体验。只是当我在浏览 X 时,我看到人们使用的所有视频和可视化内容,而不是我们原生的分享方式。作为产品负责人,我觉得我在这里错过了一些用户,因为现在有不同的界面。所以我觉得对我来说,真正缺失的是围绕音频概述的分享和协作。Jason:我觉得正如我们开始讨论的,我对提升写作体验非常兴奋。我觉得我们知道人们经常会做问答,然后拿答案去创造新的东西。所以我只是很兴奋能帮助实现整个用户旅程。女主持:你是如何通过提示词让它变得像对话式的、更有趣的?比如,你在技术上是怎么做的?你是如何设计个性的?我也对这个很好奇。Raiza:我们在后台做了很多工作。我觉得你提到了一些很好的方面,特别是关于那个叫Deep Dive的节目,很明显有两个主持人。我想说的是,人物角色自身有更多的编辑自由来生成那个节目。我觉得这就是即使对我来说,我也总是很感兴趣地想看看根据上传的源文件,AI会把节目做成什么样。女主持:很有趣。所以你给每个源文件都赋予了自己的个性,它是如何处理事情的,然后你让它创建播客。Raiza:简而言之,我觉得这是对我们所做事情的最好解释。当我们考虑编辑体验时,对于这样的事情有哪些控制呢?有一些基本的东西,比如,也许我不想做Deep Dive,也许我想要一个不同的节目,也许我想要不同的长度,也许我想要更短,也许我想要更长。也许我只想指定一个话题,而不是整个事情,因为今天是基于概述的音频。所以我觉得有很多地方我们可以调整,但核心是围绕源文件的编辑自由,是为了给你一个概述。女主持:每次我开玩笑说你们要抢我们的工作,你都说不是,但我不知道你是不是只是出于礼貌才这么说,因为你们生成的东西确实非常好。所以我真正的问题是,当你说它不足以取代真正的播客时,为什么你会这么说?因为对我来说,它感觉足以取代真正的播客。Raiza:我觉得这是一个很好的问题,而且我试图非常谨慎地处理这个问题,特别是因为,如果有真正的风险,我想正视它并说我们如何解决这个问题?但从我的观察来看,很多人制作的东西和我们会制作一个真正的播客所涉及的内容不一样。对吧?比如我想不想听,我想不想拿一篇文章并把它做成一个播客来取代我最喜欢的播客 Lenny 的。我经常听 Lenny 的播客。我想听 Lenny 他对这个特定话题的看法。有趣的是,人们正在制作像他们的简历这样的东西的音频概述,对吧?他们把它放在领英的个人简介里,或者创业公司的创始人把它放在他们的登录页面上,试图弄清楚我的信息是否清晰,这些东西真的很酷,因为没有人会为这些东西制作一个播客。也许不是在这个阶段,对吧?但这就是我觉得这里感觉很好的原因。它感觉我们创造了一个空间,在这里个性化生成真的是为了满足我所在的位置的需求。而且没有现有的东西能做到这一点。这真的很特别。Jason:它感觉像一种不同的媒体类型,当然它听起来像一个播客。但我觉得你给出了很好的例子来证明人们使用它的所有这些随机用例。但我觉得也有一个原因导致反应视频在网上很受欢迎,而且人们现在不只是听这个,因为他们想听到你们两个在这个领域的看法。而且我觉得当我们想到这个的时候,这也是很重要的一点。Raiza:我想说关于这种动态的一个有趣的事情是,尽管人们在分享他们生成的音频概述,但它们非常个人化。就像我是为自己做的。我不是为了让你听我的简历而做的。是我自己,我对我的简历的音频概述感到很高兴,或者是这个关于一个女人上传她 2004 年日记的很酷的抖音视频。这很有趣,但这真的是她对她日记的反应,她永远不会去听一个关于它的播客。我最喜欢的一个用例实际上我不知道是不是在 Discord 里,但有人说他们和大学朋友的群聊在周末消息爆了。所以他没有读消息,但他把所有消息都复制粘贴到一个文件里。然后他说周一早上,我要在开车去工作的时候听我的大学朋友说了什么。听起来像一团糟,但我觉得这就是个性化生成。男主持:在一个充满聊天框的世界里,人们想以播客的形式收听这个内容。这个想法是从哪里来的呢?Raiza:我觉得这有点回到了 Jason 说的某件事,就是我们如何以一种可识别的格式提供新的东西?或者以一种人们容易理解的方式,这样他们才会愿意尝试。我们有一个非常强大的声音模型。我们做了实验,我们想我们可以做独白,可以做对话,可以给用户一个切换按钮。但真正引起人们共鸣的是对话,因为它就像一个播客。它不像我们通常期望的那样只是文本到语音的阅读输出。而且我觉得一旦我们看到它让人们多么高兴,我们就知道这是我们要做的事情。女主持:现在你在播客中有了这个很棒的功能,而且你还有一个非常广泛的水平应用面。从这里你要去哪里探索呢?比如你要更深入地研究播客吗?还是要进行拓展呢?我们什么时候能看到AI生成的 YouTube 视频呢?Jason:现在可以把它作为一个输入,但作为输出,我觉得我们需要在这方面努力。Raiza:我觉得这很令人兴奋,未来可能会发生一些事情,但我们知道我们想兑现带来所有对你重要的输入的承诺,并让你使用人工智能的力量来创造新的东西。而且我觉得播客绝对是我们想更深入研究的一种输出类型,特别是因为我们已经看到人们有多关心它们。所以这是其中一部分。但我觉得我们也想实现其他更实用的东西。只是因为每个人都有不同的偏好,甚至我觉得两天前有人问,你能不能输出更好的代码?就像播客很酷,但你能不能输出更好的代码?我觉得这是个好主意。我觉得我们应该深入投资输出本身。男主持:实际上可能是一个敏感问题。看起来你们执行这个项目的方式很像一个初创公司,一个精简的团队行动迅速。大量的用户反馈实时迭代,向世界发布一些不完美的东西,然后在生产中进行测试,这似乎与人们对谷歌产品的刻板印象有些不同。所以我想问的是,在哪些方面谷歌对 NotebookLM 有帮助,在哪些方面你们可能在这个项目上打破了一些常规?Raiza:我觉得这是一个很好的问题。我想从谷歌的优势和特别之处开始说,我要说的两件最重要的事情是,能够在模型完全准备好之前使用它们,并能够看到正在规划的能力,这帮助我以不同的方式思考构建产品的方式,即知道这些能力即将到来,我如何能让这个特定的旅程走得更好。我要说的第二件特别的事情是,这里的人非常聪明、有才华且非常协作,而且他们也想做一些很酷的事情。所以拥有这两件事对我作为一个产品开发者来说非常棒。就像这就是我所需要的,我只需要执行。我只需要交付。如果我继续下去,我觉得我们会发布一些有趣的东西,我想可能是那些不太符合常规或者我们做得有些不同的事情。我要说进入实验室后,我知道我们最重要的事情是发布。而且不发布比实际发布更容易,特别是从我的谷歌经验来看,我觉得有很多时候我会怀疑自己,我会想它会如何影响整个产品,像有很多考虑因素,但我觉得一旦你改变方向,知道首要任务是发布,你就必须不惜一切代价去做。现在我要在播客上说出来,我希望我们的工程师也在听,我们也会创造很多假的ddl,这很有趣,因为它有效。我会说,“伙计们,10 月 10 日我们必须发布”,大家会说 ,“10 月 10 日,那是两周后”,然后他们会说,“好吧,我们得去做”。所以我们就会努力去做。我是在开玩笑,但大部分情况下,人们不会真的问 10 月 10 日会发生什么?它对我们有效。所以希望他们真的不会听。Jason:那很好。但我也觉得现在,实际上大众有一种误解,认为谷歌很慢。在我 7 年的谷歌生涯中,我实际上对事情进展的速度感到惊讶,但你也有非常大的团队,每天有数十亿用户。我觉得我们现在处于一个很好的位置,我们拥有大公司的所有优势,比如规模和数据。但我也觉得现在,因为我们是一个约 10 人的小团队,我们也能快速行动。女主持:我们迫不及待地想看看你们继续用这个产品构建什么。希望不要太快让我们失业,但你们到目前为止所构建的东西真的很令人愉快。恭喜你们。原视频:Google NotebookLM’s Raiza Martin and Jason Spielman on the Potential for Source-Grounded AIhttps://www.youtube.com/watch?v=Hio8VGQMlZ4-----------END-----------