之前还是一个小透明,现在立马变成下一个 ChatGPT。
它是谷歌目前最成功的 AIGC 产品。
很多人喜欢在它前面再加一个形容词,「像病毒一样( a viral AI product)」。
前特斯拉自动驾驶负责人、前 OpenAI 科学家 Andrej Karpathy 毫不掩饰对它的喜爱。
他甚至想到了 ChatGPT,暗示产品新功能可能具有与 ChatGPT 类似的革命潜质。
就连 OpenAI CEO Altman 也认为,它「很酷」。
一直活跃在 AIGC 体验最前沿的宾大沃顿商学院副教授 Ethan Molick 对它极为赞赏:
「简直是目前 AI 界最佳黑科技,用过都说好!」
还特别建议人们去听听 AI 生成的「播客」,暗示这个功能特别令人印象深刻。
没错,它就是 NotebookLM ( LM 代表语言模型),一个至今免费的强大工具,谷歌喜欢称它,「虚拟研究助手」。
我更喜欢叫它「一鱼多吃」:
喂它一个文档,它能立刻将文档变成一个播客、一份学习指南、一个常见问题解答集合、时间轴、提纲,还能和它畅聊。
包你 360 度无死角「吃透」这条「鱼」。
NotebookLM 界面
工具链接:https://notebooklm.google.com/
-1-
啥都可以变播客!
先从最受欢迎的「吃法」开始。
只需要将文件、链接拖放到工具中,NotebookLM 就可以将它们变成有趣、易懂的对话。
谷歌称之为「音频概览」,你可以直接称其为「播客」。
一经上线,火爆全网。
媒体评价这一新功能,「是迄今为止最引人注目、最令人震惊的 AI 潜力展示之一。」
用起来也超级方便。
首先,上传资料。
受益于底层大模型多模态能力( Gemini 1.5 Pro ),除了文本文件,视频、PPT、录音甚至数据集都能变成播客。
换句话说,连你的个人网站、博客、老妈的红烧肉食谱、上课(讲座)录音甚至信用卡账单,都能变成播客。
我上传了斯诺登的传记,很厚的一本书,选择「音频概览」:
几分钟后,我得到了一个约 9 分钟的播客节目。
听完开头,我就很喜欢,因为直奔重点「技术和控制」:
主持人1:好的,系好安全带,因为今天我们将深入探讨爱德华·斯诺登的内心世界。斯诺登,就是那个揭露全球监控的吹哨人。我们将深入探讨他的回忆录《永久记录》的摘录。告诉你,这不是一本典型的自传。这是一个关于一个人的故事。一个面对重大问题的人的故事。他用自己的生活和与技术的关系,特别是帮助我们理解权力和控制的巨大转变。
主持人2:他一开始就很引人注目。我是说,谁小时候会去黑一个时钟呢?
主持人1:我知道,对吧?6岁就疯狂地重新连接家里微波炉的时钟。这个故事充分说明了他早期对系统及其运作方式的迷恋。以及如何去操纵它们。
主持人2:如何控制它们。这就像他所说的早期的公民不服从行为。
播客内容,逻辑清晰,重点明确。
比较遗憾的是,目前仅支持英文,所以我用飞书提取出了AI播客的章节摘要,并翻译成中文。
你可以想象在后台,一个模型正在编写并不断编辑对话脚本。
除了对话的娱乐性,它最重要的职责是要揭示真知灼见:
不只是总结资料,还要找出最有趣和最令人惊讶的部分。
现在看来,NotebookLM 确实做到了。
另外,「主持人」一男一女,声音听起来很自然,和平时听到的 AI 语音播报,很不一样。
他们用「嗯」、「 you know 」进行停顿,还会刻意结巴。
还会用「好的,事情是这样的」来介绍观点,用「 exactly 」等口语来强化对方的观点,对谈很自然。
难怪《华尔街日报》专栏作者 Ben Cohen 说,AI 让他大吃一惊,只有两次。
「一次是第一次接触 ChatGPT。这是第二次。」
「我不知道该感到惊讶还是害怕,」《Acquired》是一档热门商业类音频节目,主持人之一 David Rosenthal 在亲自体验后评价说。
其实,NotebookLM 早在 2023 年就推出了,但热度一般,直至近期上新「播客」功能,立刻引发全网「复杂文档转播客」风潮。
现在 10 个 NotebookLM 用户,恨不得有 9 个人都在使用这个新功能。
比如,有人直接将今年诺贝尔物理学奖得主 Hinton 得意门生 Ilya 推荐的所有经典论文整成了播客。
毕竟,不是每个人都能通过阅读进行高效学习,对于许多听觉类型学习者来说,播客的学习方式可能更为有效。
还有用户将自己的账单变成了一个关于如何在 Uber 上「败家」的播客。
AI 主持人甚至会在节目中表示,因为该用户的奢侈而感到羞耻。
数据集也能变播客,用来详细解释数据集,意不意外?
NotebookLM 编辑总监甚至介绍了一个超赞的学习办法:
使用手机(或录音笔)录制课堂音频,辅以手动笔记,简单记一些课题重点。
然后,将课堂录音和笔记一起传到 NotebookLM,做成一个播客。
每周末听听这些播客,并与它们交流,就等于回顾了最重要的课堂知识。
顺便说一句,谷歌还有另一个很棒的播客实验产品,叫做 Illuminate ,不过目前更专注于学术文本,通常语气更严肃。
-2-
「一鱼多吃」与隐藏的超能力
除了播客生成,「笔记本指南」这个版块提供了五个最为常见的「吃鱼」方式:
常见问题解答、学习指南、目录、时间轴、简报。
视频下方,还有英文原文显示
上传了一段霉霉在 2022 年纽约大学毕业典礼上演讲视频。
「常见问题解答」可以自动总结一些问题,帮助了解视频内容:
「学习指南」像在做阅读理解,对视频内容进行深度理解。
「目录」,顾名思义,就是画出内容的「地图」。
而「简报」就是要点总结。
因为很难从这篇演讲中抽出时间轴,我们选择了一篇讲述今年诺奖医学奖得主的人物故事,来展现「时间轴」的好处。
不过,最让人印象深刻的是与内容的自由「交谈」。
你可以选择系统推荐的相关问题:
也可以自由发问。
亮点在于回答背后的超能力:基于可信来源的事实核查。
几乎每句回答的结尾处,都有相应的注释。
点击数字,系统会立刻追溯到原文出处。
比如,数字「1」,立刻追溯到了原文段落(左侧)。
其次,针对原文中并无明确证据的地方,回答会予以说明和强调。
如,斯诺登并没有讨论过网络实名制,回答补充道,是「推测」的上述分析。
而针对完全超越文本范围的内容,直接拒绝回答。
最后,NotebookLM 还有一个很厉害的地方:可以发现文本之间的知识关联。
如,霉霉演讲、李笑来的《财富的真相》、斯诺登传记《永远记录》以及《批判性思维》等文本背后,思维模式的共同点。
比如,批判性思维和财富思维有什么共通之处?
结束本文之前,有必要提一嘴大模型的幻觉。
其实,Ethan Mollick 早在 2023 年就用过 NotebookLM,当时,他就发现它相当不准确。
Ethan Mollick 在2023 年就用过 NotebookLM,当时发现它相当不准确,比如数字方面。
不过,他现在注意到,再用同样的问题测试,NotebookLM 错误大大减少了,尽管仍然不是完美的。
结合我们的大模型使用经验,如果你的要求是准确无误地显示重要数字,那么,最好还是回到原文出处,比对检查。
参考链接
https://adjacentpossible.substack.com/p/listening-to-the-algorithm
https://x.com/JeffDean/status/1834243986426659023