Andrej Karpathy灼见:Google NotebookLM或引领LLM交互的下一个ChatGPT时刻

文摘   2024-09-29 16:26   广东  

点击⬇️图标关注   抓住你的灵感💡瞬间



一早这位赛博活佛Andrej Karpathy(前OpenAI成员、前Tesla自动驾驶负责人、李飞飞高徒)又在社交媒体发表了惊人的洞察:“NotebookLM 播客节目生成可能触及极具吸引力的 LLM 产品格式的全新领域。感觉让人想起 ChatGPT。也许我反应过度了。

Google NotebookLM简介

这是一款谷歌的大模型笔记应用,已有一年多的历史。支持文档、音视频上传,类似于内置RAG能力的综合笔记软件。用的大模型是Gemini pro,现在免费(谷歌服务在国内无法使用)!整个产品历程如下:

初次亮相

2023年5月: 在 Google I/O 大会上,谷歌首次介绍了代号为 Project Tailwind 的 AI 笔记本项目。

正式命名与初步推出

2023年7月12日: Google 正式将 Project Tailwind 更名为 NotebookLM,并开始向美国的一小部分用户推出这款实验性产品。

功能扩展与全球化

2024年4月10日:NotebookLM 进行了重大更新,扩展了功能并提高了可用性。

2024年9月11日: 谷歌宣布 NotebookLM 已经在全球范围内推广,并新增了音频概览(Audio Overview)功能,允许用户将文档转换为 AI 生成的音频讨论。

2024年9月18日:NotebookLM 作为附加服务在全球超过100种语言中可用。(支持youtube视频来源)

定位是研究助手

基于提供的文件,LMnotebook在问答中进行引用

国内ip会提示无法使用

播客生成就在整个“笔记本指南”的右上角,技术上其实是左侧“帮我创作”几个能力的整合,总结->双人播客对话形式文本转换->文本转语音TTS。

只不过这个播客音频质感是可以的。下面以我写OpenAI o1的宏大叙事与 AlphaGo的第37手这篇文章对o1安全文档分析为例。

当然其实,谷歌也很对播客产品的准确性和局限性做了详细说明,比如只支持英语。


Andrej Karpathy的推荐【译】

NotebookLM 非常强大,值得一试。

它有点像对使用 LLM 的 UI/UX 的重新想象,围绕你上传的一系列资源组织,然后通过查询参考这些资源,查看结果的同时附带引用信息。

但目前最新、最令人印象深刻的功能(有点出人意料地隐藏起来,像是个补充功能)是能够基于你上传的任何内容生成一个双人播客节目。例如,有人将我很久以前写的《从零开始的比特币》文章:[1]转成了播客,效果相当不错:[2]可以将任何东西播客化。我上传了 train_gpt2.c(训练 GPT-2 的 C 代码):[3]并基于此生成了一个播客:[4]

虽然我不完全同意话中的框架、重点或是对 layernorm 和 matmul 等的描述,但这里展现了一些伟大的潜力,而且无论如何,它都非常有趣。

在我看来,LLM 的能力(智力水平、记忆能力(上下文长度)、多模态等)已经远远超越了目前的 UI/UX 设计。想想 Code Interpreter、Claude Artifacts、Cursor/Replit、NotebookLM 等等。我非常期待看到更多不同的交互范式,而不仅仅是聊天功能。

这也是我认为双人播客格式作为 UI/UX 探索如此有吸引力的原因。它解决了两个使用 LLM 的“享受障碍”。

  1. 聊天不容易。你可能不知道该说什么或问什么。在双人播客格式中,提问的任务也交给了 AI,因此体验更加轻松,不再需要在生成过程中同步思考。
  2. 阅读比较累,而坐着听则轻松得多。

LLM交互范式案例分析

以下,我们对Karpathy提到的几个产品,在LLM的交互方式与ChatGPT的差异进行分析

Code Interpreter代码解释器

关键改进:代码解释器扩展了大语言模型的能力,超越了简单的语言任务,增加了直接分析数据、执行计算和创建可视化图表的计算功能。

UI/UX 改进:用户可以更直观地与数据交互,无需提出复杂的数学问题或了解编程语法。这降低了不擅长数据的用户的认知负担。

范式转变:互动从纯文本交流转变为 LLM 直接操作数据的模式。这使得用户能够更有效地获得可执行的见解或计算结果,而无需通过冗长的对话进行沟通。

Claude Artifacts:

关键改进:Claude Artifacts 专注于根据用户输入生成精心策划的成果(例如报告或特定的产出物)。

UI/UX 改进:用户无需通过多次互动引导对话并不断完善输出,Claude Artifacts 可以更加自动化地生成结构化的成果,减轻了用户多次引导对话的需求。

范式转变:该工具从同步的“问答”格式转变为更具任务导向的互动。用户在一开始就明确自己的需求,系统则交付最终成果,类似于自动内容创建,而不是通过迭代的问答过程。

Cursor/Replit(AI 驱动的开发环境):

关键改进:Cursor 和 Replit 将 AI 嵌入到编码环境中,允许用户在实时 AI 帮助下进行编程(如自动补全、调试等)。

UI/UX 改进:用户无需在聊天窗口和编码环境之间切换,使得 AI 帮助编程变得更加无缝。AI 在用户编写代码时提供上下文建议和代码改进,减少了在不同模式(如询问 AI 与编写代码)之间切换的摩擦。

范式转变:这提供了一种“合作伙伴”体验,使 AI 成为编程的协同助手,减少了明确提问的需求。AI 直接嵌入用户的工作流中,提供及时帮助。

NotebookLM:

关键改进:NotebookLM 将 LLM 直接集成到知识组织工具中,使用户更容易与个人或工作相关的文档进行交互和查询。

UI/UX 改进:用户无需事先知道该如何提问,系统可以从他们的笔记或文档中提取相关信息。这减少了构建完美问题的认知负担,因为 AI 会根据用户的数据提供上下文并挖掘洞察。

范式转变:类似于参考书的类比,NotebookLM 将互动从主动的“提问”转向更被动的相关洞察检索。它弥合了处理个人知识和提问之间的差距,消除了摩擦,使用户更容易从他们自己的内容中获得上下文感知的回复。


LLM范式变迁要点总结

  • 从聊天到目标导向的界面:传统聊天界面通常要求用户知道该问什么,这会带来认知挑战。这些新工具将互动转向实现目标(如分析数据、编写代码、生成成果),而无需用户过多的干预。
  • 减少同步限制:这些工具中的许多已经从“来回对话”模式转向异步或任务导向的互动,使用户能够以更少的努力获得更丰富的输出。
  • 增强的上下文处理:NotebookLM 和代码解释器等工具通过直接处理结构化输入(文档、数据)而不是仅依赖用户提供的提示词来增强内存和上下文处理能力。

这些工具正朝着更自然、集成化的 AI 交互方向发展,降低了使用门槛,使 LLM 的使用更加复杂和多样化。

AILin师傅看法

  1. 正面: “有趣”和“有用”,这两方面是一项新技术进入工程化阶段需要迈过的两座大山,有趣低于枯燥的进入门槛,有用是持续汰换、量变引入质变的核心,才能够抵达被普罗大众广泛接受的基础,缺一不可。
    笔记应用通过播客的形式走红,证明对于一向通用技术仅是证明有用很难出圈,融入用户原有的消费情景中才能产生AHa moment。
  2. 反面:从Demo到产品还有很长的路要走,大模型在舆论场处于绝对的“靓仔”位置,但逃不过“看山是山、看山不是山、看山还是山”的演变路径。
    在推文中Andrej Karpathy也提到并不认可LMnotebook对他文章的总结,这说明没有用户主导的介入的内容可能偏离原文含义,这样对于笔记学习其实是个负面影响。在让AI能真正自我总结前,人类的介入强化学习是不可避免的。

一句话,AI产品的突围,等待一个大模型交互等待百花齐放的时刻!

参考资料

[1]

https://karpathy.github.io/2021/06/21/blockchain/

[2]

https://notebooklm.google.com/notebook/ba017fec-7068-4085-9712-0d3207622697/audio

[3]

https://github.com/karpathy/llm.c/blob/master/train_gpt2.c

[4]

https://notebooklm.google.com/notebook/2585c187-b059-475a-b4fb-dd09d0278e18/audio

本文使用 Notion Nice 排版一键生成

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。



 点击关注转发公众号     保持你对AI优质内容的敏感





AI趋势全天候
以AI之名,探索未知。 🧠观察行业,关照本心,时常好奇,时常喜欢猫。随缘私信交流
 最新文章