用 Python 打造你的AI播客:从转录到语音生成的全过程

科技   2024-11-25 08:06   中国香港  

大家好,我是橙哥!AI改革的春风继续吹满地。
从OpenAI、Claude等产品为代表的对话助手,Midjourney、SD为代表的文生图、Suno为代表的音乐生成,再到Sora、Pika等为代表的视频生成,这回终于席卷到了播客。
最近几年,播客内容特别火,比如,我们经常可以看到马斯克在Lex Fridman Podcast发表一些重要观点。

NotebookLM是Google推出的一款AI 笔记产品,最近因其文本生成播客功能而走红。NotebookLM并不是简单的 TTS(文本生成音频),而是支持各种多模态的内容类型,比如我们可以将公共 YouTube URL 和音频文件以及 PDF、Google 文档、幻灯片、网站等你上传的任何资料,直接添加到笔记本中,或者转换成效果非常逼真的双人对话播客。
下面我们就来尝试自己动手,利用 AI 技术制作一个属于自己的播客。通过这个过程我们来深入理解AI在播客分析和生成方面的潜力。

我们可以把这个过程简单分为“转录、优化、生成”。通过这个过程,我用Python构建了自定义的转录器和优化器,并尝试生成完整的播客内容。在具体操作中,我借助了 OpenAI 和 Claude 来处理音频转录任务,而 Bark 和 Parler 则为生成语音提供支持。为了模拟真实的播客对话,我给不同的 AI 赋予了不同的角色,让它们“对话”起来。

接下来我会和你分享我的整个流程,包括 Python 脚本、配置方法,以及一些试验中发现的有趣问题。

Claude和OpenAI:让文字成为有声对话的灵魂


我的第一步是使用 Claude 来生成播客的转录稿。Claude 有一个特点,它能够在角色的语调和风格上保持一致性。为了更贴合播客的风格,我设计了一套提示词,比如让它扮演“知名主持人的幕后代笔”,生成的对话不仅生动,还会加入“嗯”“啊哈”等语气词,让内容更有亲切感。

Claude 的 Haiku 模型在快速生成内容上非常高效,适合用来测试和迭代。如果需要更细腻、更复杂的对话内容,Claude 的 Sonnet 模型是一个更好的选择。而且流式生成的功能让我可以实时观察对话展开,这种过程就像看一部对话流畅的剧本写作直播。

在 Claude 生成初稿后,我转向 OpenAI 来进一步完善内容。OpenAI 的强项在于生成自然且详尽的语言,它在模拟人类对话时表现得尤为出色。我设置了一个独特的场景,让它充当“播客编剧”,专门为知名主持人设计对话。这种方式不仅让生成的台词有趣,还能适应不同的播客风格。最终,我将这些转录稿保存为文件,方便后续的调整和优化。

Claude让角色对话更有层次


为了让播客的内容更加生动,我进一步优化了 Claude 的输出。通过设计精细的提示词,我为两个“主持人”注入了截然不同的个性。Speaker 1 是一位幽默风趣、擅长用比喻的讲述者,而 Speaker 2 则表现得活泼且充满好奇心,经常用“嗯”“啊哈”或笑声来回应,这种互动让对话更自然。此外,我还对内容进行了格式化处理,确保它能顺利用于语音生成。

用 OpenAI 把控对话节奏


类似地,OpenAI 也承担了优化转录稿的工作。我通过提示词强化了角色个性,同时调整了每位说话者的台词节奏,使得内容适配 TTS(文本转语音)系统。最终,优化的转录稿更加流畅,更贴近真实的播客对话。

从文字到声音:用Bark与Parler进行AI语音生成


在完成内容转录和优化后,我将目光转向语音生成。我选择了两种 TTS 模型:Parler 为 Speaker 1 提供清晰、自信的声音,而 Bark 则为 Speaker 2 提供更自然、互动性强的语音。这种组合模拟了真实播客中主持人之间的对话互动。

然而,这一阶段问题也接踵而至。虽然 Parler 的表现相对稳定,但 Bark 生成的声音偶尔会出现背景噪音,有时甚至会让对话听起来像是在嘈杂的咖啡馆。此外,Speaker 2 的语调不够一致,时而成熟冷静,时而变成“青春洋溢”的风格,显得缺乏连贯性。

为了解决这些问题,我对生成的音频进行了逐段优化,并将其整合为一个完整的播客文件。尽管最终效果距离理想状态还有差距,但播客的雏形已经形成——一个由 AI 创作并生成的对话内容,呈现出一种与人类播客截然不同的风格。

AI播客技术的经验与反思


这次实验带来了许多有趣的发现。首先,Claude 和 OpenAI 在生成转录稿方面的表现超出我的预期,生成的内容自然流畅,甚至让我跳过了许多优化步骤。然而,语音生成部分的问题却暴露了当前 TTS 模型的一些不足。比如,Bark 的背景噪音和声音不一致性,都给最终的播客效果带来了很大的影响。


未来,我计划继续优化语音生成部分,尝试其他 TTS 模型,并改进提示词的设计,力求生成更加自然、流畅的对话。


如果你对 AI 播客技术感兴趣,也想尝试自己动手,欢迎长按扫码获取本文完整源码

点击阅读原文加入AI技术变现训练营

开发者阿橙
宽客邦量化创始人。专注AI技术应用、机器学习与量化投资。
 最新文章