谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

文摘 2024-10-28 18:09 北京

随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能，将极大地丰富人类用户与 AI 智能体互动的体验。

来源丨机器之心

上个月，谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新，允许用户生成 YouTube 视频和音频文件的摘要，甚至可以创建可共享的 AI 生成音频讨论。加上此前支持的谷歌文档、PDF、文本文件、谷歌幻灯片和网页，NotebookLM 的用例和覆盖范围进一步扩大。

本月初，AI 大牛 Karpathy 发推表示自己只用了两个小时就创建了一个 10 集的系列博客 —— 历史谜团（Histories of Mysteries），其中就使用 NotebookLM 将每个主题的维基百科条目链接在一起，并生成播客视频；同时也使用 NotebookLM 编写博客 / 剧集描述。

就这两天，Meta 推出了 NotebookLM 的开源平替版 ——NotebookLlama，它使用 Llama 模型进行大部分任务处理，包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下图为 NotebookLlama 运行流程，首先从文件（比如新闻文章或博客文章）创建转录文本，然后添加「更多戏剧化」和中断，最后将转录文本馈入到开放的文本到语音模型。

据外媒 Techcrunch 报道，NotebookLlama 的效果听起来不如谷歌 NotebookLM 好，带有明显的机器人口音，并且往往会在奇怪的时刻「互相交谈」。不过，项目背后的 Meta 研究人员表示，使用更强大的模型还可以提高质量。

Meta 研究人员在 NotebookLlama 的 GitHub 页面写到，「文本到语音模型限制了声音的自然程度。」此外，编写播客的另一种方法是让两个智能体就感兴趣的主题进行讨论并编写播客大纲。现在，Meta 只使用了一个模型来编写播客大纲。

就像下面所展示的，虽然播客内容还有一些粗糙，但它听起来已经很不错了。

对于 Meta 的 NotebookLlama，有人直言听起来糟糕透了，要想真正地对标谷歌的 NotebookLM，就要在语音转换效果上接近人类水平。不过也有人认为，虽然目前效果不佳，但随着所有代码的开源，用户可以自定义尝试不同的提示方法等，相信未来会变得更好。

虽然效果还是差点意思，但也有网友表示：「现在是时候让 Google 加快步伐了，Meta 已经紧随其后赶上来了，开源 NotebookLM。」

项目介绍

根据 Meta 发布的教程配方，你可以基于 PDF 文件构建播客。

项目地址：https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

第一步：对 PDF 进行预处理。即使用 Llama-3.2-1B-Instruct 对 PDF 进行预处理，并将其保存为.txt 文件；
第二步：转录文本编写器。使用 Llama-3.1-70B-Instruct 模型从文本中编写播客转录文本；
第三步：对内容重新优化，添加戏剧性。使用 Llama-3.1-8B-Instruct 模型使转录文本更具有创意；
第四步：文本到语音。使用 parer -tts/parer -tts-mini-v1（文本到语音模型）和 bark/suno 生成会话播客。

不过，还有几个值得大家注意的点：

首先，在步骤 1 中，需要提示 1B 模型不要修改文本或对文本进行总结，并严格清理掉可能在 PDF 转录过程中出现的多余字符或垃圾字符。

其次，对于步骤 2，你也可以使用 Llama-3.1-8B-Instruct 模型，然后对比不同模型的效果。项目中采用的是 70B 模型，原因在于它为测试示例提供了更具创意的播客记录。

对于步骤 4，你也可以使用其他模型进行扩展，较新的模型可能听起来更好。

想要顺畅的运行该项目，你需要有 GPU 服务器或者使用 70B、8B 和 1B Llama 模型的 API 提供商。如果你采用的是 70B 模型，那么需要一个总内存约为 140GB 的 GPU 来以 bfloat-16 精度进行推理。

退一步讲，如果你的 GPU 并不是很好，也可以使用 8B 模型跑通整个 pipeline。

接下来是安装。在开始之前，请确保使用 huggingface cli 登录，然后启动 jupyter notebook ，以确保能够下载 Llama 模型。

接着运行代码：

git clone https://github.com/meta-llama/llama-recipescd llama-recipes/recipes/quickstart/NotebookLlama/pip install -r requirements.txt

Notebook 1：Notebook 1 用于处理 PDF，并使用新的 Feather light 模型将其处理为.txt 文件。

Notebook 2：Notebook 2 将接收 Notebook 1 处理后的输出，并使用 Llama-3.1-70B-Instruct 模型创造性地将其转换为播客脚本。如果你拥有丰富的 GPU 资源，也可以使用 405B 模型进行测试！

Notebook 3：Notebook 3 采用了之前的文本，并提示 Llama-3.1-8B-Instruct 在对话中添加更多的戏剧化和中断。

Notebook 4：最后，Notebook 4 从上一个 notebook 中获取结果并将其转换为播客。项目中使用了 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型进行对话。

这里有一个问题：Parler 需要 4.43.3 或更早版本的 transformer，但对于 pipeline 中的步骤 1 到 3，需要最新的版本，所以需要在最后一个 notebook 中切换版本。

最后，项目列出了未来需要改进的地方：

语音模型：TTS 模型使语音听起来不是很自然，未来可以纳入更好的模型；
更好的提示；
支持提取网站、音频文件、YouTube 链接等。

参考链接：https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247533025&idx=3&sn=252f1e731c96e02e515ed075b75b729a

语音之家

助力AI语音开发者的社区

最新文章

上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

语音/音频处理学术速递[11.12]

诺奖AI成果开源了！ AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

智谱，让AI视频正式迈入“有声时代”

语音/音频处理学术速递[11.11]

AI语音招聘岗位合集

王仁华：“这是我们民族的事，应该自己闯出这条路！” | 先生

重磅！刚刚Sam Altman万字采访：AGI将在2025年实现，通往 AGI 的道路已经清晰可见

语音增强的跨域优化：并行还是级联？

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

语音/音频处理学术速递[11.8]

【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

港科大、中科大等推出最强扩散Transformer，「黑神话」级3A大作AI实时游戏生成！

语音/音频处理学术速递[11.7]

CNCC2024技术论坛“多模态大模型时代的语音音频技术：带来哪些机遇与挑战？”圆满举行

腾讯混元开源最大 MoE大模型

语音/音频处理学术速递[11.6]

技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

语音/音频处理学术速递[11.5]

自回归量化连续语音合成，潜在扩散模型；多模态音频理解基准

倒计时3天，ISCSLP2024大会即将开幕！注册参会持续开放中

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

语音/音频处理学术速递[11.4]

AI语音招聘岗位合集

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

Meta发布全新后训练方式CGPO，编程水平直升5%

语音/音频处理学术速递[11.1]

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

语音/音频处理学术速递[10.31]

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

博士招生机会！

智源研究院发布千万级多模态指令数据集Infinity-MM：驱动开源模型迈向SOTA性能

语音/音频处理学术速递[10.30]

语音/音频处理学术速递[10.29]

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

可在嘈杂环境中识别声音，新型液态声学传感器模拟鲸鱼额隆

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

开放下载丨超自然对话语音合成数据集NCSSD

对话语音合成大模型GPT-Talker: Generative Expressive CSS

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

语音/音频处理学术速递[10.28]

AI语音招聘岗位合集

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

语音/音频处理学术速递[10.25]

直播预告丨RTE2024 第十届实时互联网大会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉