谷歌NotebookLM起飞!背后团队讲述“小灵快”AI产品故事

文摘   2024-10-06 22:28   美国  

点击⬇️图标关注   抓住你的灵感💡瞬间


上回我们讲到卡帕斯对谷歌NotebookLM赞不绝口,在他的极力推荐下,不断出圈速度。从下面👇搜索指数受欢迎程度可见一斑!

这是谷歌在AI领域产品形象翻身的绝佳机会!正如谷歌创始人盖布林在ALL IN SUMMIT 2024上所言:“我不认为这是一种必须等到完美无缺才发布的技术。我认为这种能力简直如同魔法一般,但你必须愿意接受一些尴尬的时刻,并愿意承担一些风险。”

访谈中盖布林对于谷歌在AI困境的看法:

随着谷歌的规模越来越大,确实有更多需要顾虑的东西。我认为这确实带来了某种程度的恐惧。大语言模型最初是我们发明的,源于Transformer的论文,可能是六八年前的事了。当时我们确实过于谨慎,没有敢部署这些模型。这有很多合理的原因,比如它们有时会犯错,偶尔还会说出一些令人尴尬的话等等。

从NotebookLM小分队可以看到谷歌内部局部创新基因正在崛起!这三个主要成员分别是AI设计师、产品leader和实验室编辑总监。我们从他们的推文或博文中可以更深入了解他们对这款产品的看法。这里有小而灵活、快速行动、真诚高效的午餐会的经验、以及AI如何协作思考的理解。


设计师的经验分享【译】


我们在两个月内构建并发布了一款迅速走红的AI产品(在谷歌内部!)。以下是我们的经验分享:

我们的NotebookLM小团队在过去几个月经历了疯狂的历程,证明了谷歌内部不仅有小而灵活的团队,而且这些团队可以快速行动,产生重大影响

我们最新的功能“音频概述”在过去几天内席卷了互联网。团队一直在冲刺——从构思到原型开发只用了几周时间,并在不到两个月内公开发布。虽然它还不完美(目前!),但这正是重点。以下是一些心得:

  1. 这是关于用户共同构建产品,而不仅仅是他们构建。我们不会等到完美再发布,而是早期发布并不断迭代。科技的发展速度比用户能意识到自己需求的速度还要快。我们通常在V1阶段就预测用户的需求,然后与他们一起改进。例如:我们很快发现用户非常需要内嵌引用功能,因此团队迅速调整并发布了这个功能。(加入我们的Discord!)
  2. 内嵌式构建,而不是附加式:我们在构建全新的、原生AI产品。这不仅仅是为了“AI”而做AI,我们在努力弥合前沿研究与实际人类问题之间的差距。“音频概述”功能很棒,不仅因为它听起来很棒,更因为它(1)基于可靠的来源,(2)是一种简单的一键式方式来学习和消化自己的信息。
  3. 会议是用来构建产品的,而不是讨论如何构建。我们在深度协作。我是团队中唯一的用户体验设计师,所以我们必须让每一刻都变得有意义。我和@raiza_abubakar(PM)、@stevenbjohnson(Director)一起不断进行战略调整和迭代。

NotebookLM代表了谷歌实验室中产品开发的新纪元。我们将用户反馈和社区参与置于核心位置。我们在快速构建,并且有更多内容即将推出……



小哥从实习开始,职业生涯与谷歌有多次交集

产品经理的产品构建和团队合作感想

我们做的三件我非常喜欢的事情:
  1. 不参加没有预设结果的会议。会议的目的是“决定x”或“解决y”。如果某次会议没有明确的结果,要找出问题并解决,确保以后不会再发生。
  2. 需要头脑风暴解决方案?一起做。当产品经理、用户体验设计师和工程师一起协作解决问题时,大家因为都在现场讨论、共同思考,进展会更快。这就像有三颗大脑在思考。你们可以实际在会议中编写需求文档(PRD)、制作模型,并开始工程设计。
  3. 投资你们之间的关系。午餐是我一天中最喜欢的时间。整个团队坐在一起吃饭,聊聊最近的情况。这既高效又有趣,而当你们的关系更加紧密时,工作反馈的效率也会提高。

Google labs编辑总监产品历程记录

《聆听算法 Listening To The Algorithm 》发表于9月14日,在STEVEN JOHNSON的博客《相邻的可能Adjacent Possible[1]》上。彼时,notebookLM正在酝酿爆发的阶段。文章讲述两年前与谷歌的开始合作,到notebookLM博客想法的诞生,以及他对AI翻译、总结与思考之间差别的理解。可以看出,本质上,notebookLM正在构建的是一个可以协助人们思考,加速灵感构建的工具。

STEVEN JOHNSON还是个高产的作家,著有 13 本书,包括 The Ghost Map、Where Good Ideas Come From,以及最近的 Extra Life。PBS/BBC 电视连续剧 Extra Life 和 How We Got to Now 的主持人和联合创作者,以及 American Innovations 播客的主持人。


2022年7月底,当我开始与谷歌合作时,我看到的第一个演示之一是使用PALM模型进行的一系列提示,要求它以不同的解释层次讨论黑洞:像对十岁小孩解释,像对研究生解释,或者用体育比喻解释。当时,PALM几乎肯定是全球最强大的两个语言模型之一,尽管谷歌从未直接向用户开放它。因此,能够亲自体验它已经足够令人兴奋了。它给出的解释非常引人入胜,尽管按照今天的标准有些过于简单。但最让我印象深刻的是该模型在不同解释模式之间切换的能力。仅仅用几句简单的英语指令(比如“用高中水平,用国际象棋隐喻解释”),模型就能迅速从一种解释模式切换到另一种,同时基本保持事实不变。
这这种能力看似高深莫测,尤其是考虑到它仍然存在一些众所周知的问题,比如在基础数学和“幻觉”生成方面的问题。不过,随着时间的推移,我意识到这其实是神经网络近五年来擅长的一种更高级形式:翻译。他能接收输入并将其转换为新的输出,同时保持意思不变。我们最早在谷歌翻译的发布中看到了这种能力的威力,它能将英语文本“魔术般”地转化为西班牙语,这可以说是深度学习第一次在消费者中得到广泛应用的重大突破。到 2022 年我加入时,模型已经进化到能将复杂的天体物理学概念转化为小学生也能理解的比喻。
翻译或总结的能力常常在"通用人工智能"的讨论中引起混淆。几年前,人类是地球上唯一能够以这种方式翻译信息的生物。现在,计算机能够以比任何人类更快、更可靠的方式做到这一点。凭借Gemini模型的支持,NotebookLM可以轻松地在近四十种语言之间切换;你可以阅读一篇日文文章,然后用西班牙语提问,它也不会有任何问题。这是一个巨大的进步。
翻译和总结并不等同于思考。从最基本的层面上看,翻译任务并不涉及生成原创思想。如果你的翻译员在将作品翻译成另一种语言时不断加入自己的理论,那是一个“bug”,而不是功能。翻译和总结或许是AI不平衡发展的最典型例子之一:模型在一些传统上属于人类智能的领域表现得非常好,而在某些连80年代的收音机计算器都能完成的任务上却表现得令人意外地差劲。
部分原因是那些“像我五岁一样解释给我听”的早期体验给我留下了深刻印象,部分原因是专注于模型擅长的领域是一个好策略,因此许多早期的NotebookLM功能(当时它的内部原型代号为Tailwind)都是围绕这个主题展开的。我们有一个名为“解释性隐喻(Explanatory metaphor)”的功能,它能够为你提供的任何文本生成一个帮助理解核心思想的隐喻。我们还进行了许多关于不同总结格式的实验;当时,给模型几段复杂的段落并看着它将这些段落转化为易读的要点,仍然带有某种神奇感。
随着时间的推移,信息从一种格式转化为另一种格式的能力不断扩展,现在可以处理更大规模的文档或文档集合。因为NotebookLM本质上是一个帮助你理解事物的工具,我们开始越来越多地强调让用户将他们处理的信息转换成最适合他们的学习方式的结构。这也是我们在6月份推出Notebook Guide工具时的核心原则之一,该工具允许用户将资料一键转换成学习指南常见问题解答(FAQs)等格式。
所有这些格式有一个共同点:它们都是基于文本的。但并不是每个人都通过阅读来学习效果最好。许多人是听觉学习者,或者更喜欢在走路或开车时获取信息,因为那时无法阅读。我们也从播客收听量的激增中了解到,理解某个话题的最佳方式之一是听两位投入且有深度的人进行对话
但如果这些对话不一定是由真人进行的呢?
周三,NotebookLM团队推出了一个名为“音频概述( Audio Overviews)”的新功能,这是Notebook Guide的新功能,它可以根据你的资料生成一个大约十分钟的“深入”音频对话,由两个AI主持人进行讨论。这是我根据我的最新书《地狱机器》的完整文本创建的音频概述:
相当惊人,对吧?在过去的48小时里,我们看到了极大的兴趣,有人用它生成基于他们简历的概述(显然对自信有很大帮助),也有人上传了最近的公司文件,生成公司内部的“每周回顾”节目与同事分享,甚至有人上传了他们的奇幻小说草稿,看看哪些情节最值得讨论。谷歌的杰夫·迪恩在推特上发布了一个有趣的帖子,分享了很多人使用这个工具的例子。
生成音频概述大约需要五分钟。在后台,进行了多次编辑循环,以确保内容忠实于原材料,描述生动,并以有说服力的语调呈现。(没有人愿意听两个“Siri”对话。)在讨论《地狱机器》时,AI主持人讨论了主要主题并介绍了一些最有趣的角色,尽管这是一本相当复杂的书。他们确实把Alphonse Bertillon的名字读错了,并且把Ludlow大屠杀描述为发生在1913年,而实际上发生在1914年,尽管导致这场争端的劳工纠纷确实始于1913年。但总体而言,这是一份对300页书籍的非常清晰且全面的总结,完全由软件生成。
我听了几十个这样的对话后注意到,尽管整个对话的语气都是轻松的——充满了玩笑和对双关语的偏爱——但我从未听到主持人说出真正有趣的话。我想,随着时间的推移,我们可能会允许用户根据自己的喜好调整对话的语气。(谷歌还有一个很棒的对话音频实验叫做Illuminate,目前更专注于学术文本,通常语气更严肃。)但我并不完全相信这些模型已经具备真正的对话式幽默能力。这可能是AI不平衡发展的另一个例子,我怀疑这是因为幽默在很多方面是翻译和总结的对立面;幽默关乎惊喜,关乎以恰到好处的方式打破常规。
两年间,模型从生成几句关于天体物理学的比喻,发展到能够基于整本书生成一段令人信服的十分钟音频对话。这无论从哪个角度来看,都是令人惊叹的进步。但它们仍然无法让我们发笑。

NoteBookLM是谷歌有备而来的一款产品,它不一定完美,但它似乎找到了讨好用户的方法(PMF)。在学习领域,信息的结构性框架、信息密度、互动方式均是因人而异的。对话式交流降低了密度,但更符合人本身反思的模式。

畅销书《Co-intellegence》作者Ethan Mollick 也提到他目睹这款工具近一年的进步,对于播客生成功能更是给予“无障碍魔法的课程)”的评价。

为什么说谷歌有备而来?它旗下还有另一款计算机科学论文转播客的AI学习工具Illuminate 。这款软件不仅支持生成播客,而且将您的内容转变为人工智能生成的引人入胜的音频讨论,随时提问,和AI互动。

Illuminate界面,这是谷歌不同团队开发的

点击小手就可以进入提问互动环节,提供语音模式


可以想象,AI在学习和教育领域的潜力还有广阔的潜力等待挖掘。

谷歌之所以,选择学习笔记这个场景切入也正是对以神经网络主导的AI的应用的深刻理解。lin师傅认为,在神经网络加持下,AI最初的场景:翻译,并不简单的只是信息对换,这里面更有不同思维模式的高度抽象和压缩和转换。就像不通过文字,儿童也可以快速学习家乡方言一样。教育和学习也不只是文本的传递,更是多种感官的互动的集合。

TEVEN JOHNSON从90年底就开始研究计算机工具对于思考和创意的作用。比如Apple开发的HyperCard,为此,我将深挖学习与思考AI工作流相关领域的最新进展。开通相关话题合集,欢迎关注!


参考资料

https://www.linkedin.com/in/jason-spielman-creative/details/experience/

https://x.com/SeekingN0rth/status/1841528053576724843

本文使用 Notion Nice 排版一键生成



以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。



 点击关注转发公众号     保持你对AI优质内容的敏感


AI趋势全天候
以AI之名,探索未知。 🧠观察行业,关照本心,时常好奇,时常喜欢猫。随缘私信交流
 最新文章