用 Python 打造你的AI播客：从转录到语音生成的全过程

科技 2024-11-25 08:06 中国香港

大家好，我是橙哥！AI改革的春风继续吹满地。

从OpenAI、Claude等产品为代表的对话助手，Midjourney、SD为代表的文生图、Suno为代表的音乐生成，再到Sora、Pika等为代表的视频生成，这回终于席卷到了播客。

最近几年，播客内容特别火，比如，我们经常可以看到马斯克在Lex Fridman Podcast发表一些重要观点。

NotebookLM是Google推出的一款AI 笔记产品，最近因其文本生成播客功能而走红。NotebookLM并不是简单的 TTS(文本生成音频)，而是支持各种多模态的内容类型，比如我们可以将公共 YouTube URL 和音频文件以及 PDF、Google 文档、幻灯片、网站等你上传的任何资料，直接添加到笔记本中，或者转换成效果非常逼真的双人对话播客。

下面我们就来尝试自己动手，利用 AI 技术制作一个属于自己的播客。通过这个过程我们来深入理解AI在播客分析和生成方面的潜力。

我们可以把这个过程简单分为“转录、优化、生成”。通过这个过程，我用Python构建了自定义的转录器和优化器，并尝试生成完整的播客内容。在具体操作中，我借助了 OpenAI 和 Claude 来处理音频转录任务，而 Bark 和 Parler 则为生成语音提供支持。为了模拟真实的播客对话，我给不同的 AI 赋予了不同的角色，让它们“对话”起来。

接下来我会和你分享我的整个流程，包括 Python 脚本、配置方法，以及一些试验中发现的有趣问题。

Claude和OpenAI：让文字成为有声对话的灵魂

我的第一步是使用 Claude 来生成播客的转录稿。Claude 有一个特点，它能够在角色的语调和风格上保持一致性。为了更贴合播客的风格，我设计了一套提示词，比如让它扮演“知名主持人的幕后代笔”，生成的对话不仅生动，还会加入“嗯”“啊哈”等语气词，让内容更有亲切感。

Claude 的 Haiku 模型在快速生成内容上非常高效，适合用来测试和迭代。如果需要更细腻、更复杂的对话内容，Claude 的 Sonnet 模型是一个更好的选择。而且流式生成的功能让我可以实时观察对话展开，这种过程就像看一部对话流畅的剧本写作直播。

在 Claude 生成初稿后，我转向 OpenAI 来进一步完善内容。OpenAI 的强项在于生成自然且详尽的语言，它在模拟人类对话时表现得尤为出色。我设置了一个独特的场景，让它充当“播客编剧”，专门为知名主持人设计对话。这种方式不仅让生成的台词有趣，还能适应不同的播客风格。最终，我将这些转录稿保存为文件，方便后续的调整和优化。

Claude让角色对话更有层次

为了让播客的内容更加生动，我进一步优化了 Claude 的输出。通过设计精细的提示词，我为两个“主持人”注入了截然不同的个性。Speaker 1 是一位幽默风趣、擅长用比喻的讲述者，而 Speaker 2 则表现得活泼且充满好奇心，经常用“嗯”“啊哈”或笑声来回应，这种互动让对话更自然。此外，我还对内容进行了格式化处理，确保它能顺利用于语音生成。

用 OpenAI 把控对话节奏

类似地，OpenAI 也承担了优化转录稿的工作。我通过提示词强化了角色个性，同时调整了每位说话者的台词节奏，使得内容适配 TTS（文本转语音）系统。最终，优化的转录稿更加流畅，更贴近真实的播客对话。

从文字到声音：用Bark与Parler进行AI语音生成

在完成内容转录和优化后，我将目光转向语音生成。我选择了两种 TTS 模型：Parler 为 Speaker 1 提供清晰、自信的声音，而 Bark 则为 Speaker 2 提供更自然、互动性强的语音。这种组合模拟了真实播客中主持人之间的对话互动。

然而，这一阶段问题也接踵而至。虽然 Parler 的表现相对稳定，但 Bark 生成的声音偶尔会出现背景噪音，有时甚至会让对话听起来像是在嘈杂的咖啡馆。此外，Speaker 2 的语调不够一致，时而成熟冷静，时而变成“青春洋溢”的风格，显得缺乏连贯性。

为了解决这些问题，我对生成的音频进行了逐段优化，并将其整合为一个完整的播客文件。尽管最终效果距离理想状态还有差距，但播客的雏形已经形成——一个由 AI 创作并生成的对话内容，呈现出一种与人类播客截然不同的风格。

AI播客技术的经验与反思

这次实验带来了许多有趣的发现。首先，Claude 和 OpenAI 在生成转录稿方面的表现超出我的预期，生成的内容自然流畅，甚至让我跳过了许多优化步骤。然而，语音生成部分的问题却暴露了当前 TTS 模型的一些不足。比如，Bark 的背景噪音和声音不一致性，都给最终的播客效果带来了很大的影响。

未来，我计划继续优化语音生成部分，尝试其他 TTS 模型，并改进提示词的设计，力求生成更加自然、流畅的对话。

如果你对 AI 播客技术感兴趣，也想尝试自己动手，欢迎长按扫码获取本文完整源码：

点击阅读原文加入AI技术变现训练营

http://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653584906&idx=1&sn=588eaf241463ff0d9ae5f58d775d78d9

开发者阿橙

宽客邦量化创始人。专注AI技术应用、机器学习与量化投资。

最新文章

用 Python 打造你的AI播客：从转录到语音生成的全过程

比特币冲击10万美金！币圈美联储MSTR或是最大赢家？

免费金融数据 + Python 自动化采集：机器学习股票预测神器

用 Python 解读股市情绪，让你从韭菜变镰刀

用 LSTM 机器学习模型预测股票价格并自动下单

特朗普成为美国史上首位支持加密货币的总统

牛逼！09年出生，7年编程经验，15岁初中生开发AI应用已赚数百万

用 Python 追踪美国国会参议员股票交易

看懂涨跌信号！对冲基金的动量交易心法

用 Python 计算股票的支撑位和阻力位

股市暴涨暴跌！重读“缠论”的70条交易智慧

用Python 和 Streamlit 对A股技术分析

重磅！上交所更改交易时间，明天起执行

买不到，根本买不到！试试沪深300ETF

抢先布局！牛市中的量化打板策略

狠抓龙头股！股市暴涨下的核心财富密码

拒绝无脑梭哈！用量化信号捕捉行情机会

狂暴大牛市该买点啥？用量化选股抓住机会

牛回速归！央行降息降准，万亿重磅利好来袭

2024仅剩100天！5个实现躺赚的AI变现工具

美股投资必备！全面解读FinViz的强大功能

AI自动化躺赚神器，月入2万只需每天10分钟

完全解读！高性能多指标加密货币量化策略

Python量化交易核心技能学习陪跑

出海赚美元！程序员摆脱35岁危机的出路？

用OpenAI最新 “o1” 模型开发量化交易策略

用Python打造加密货币算法交易机器人

全攻略！一年掌握Python量化交易核心技能

颠覆传统！苹果iPhone 16将助推AGI的实现？

400+业务场景接入，大模型，彻底爆发！

龙头板块精选策略：如何抓住连板股票，实现超额收益？

替代backtrader！用这个库进行量化交易回测

抵御市场波动！用 Python 实现对冲策略

大的来了！1.6万亿航母起航，国泰君安合并海通证券

用飞书机器人逮到了这支连板妖股！

用 Dify 和 Notion 打造轻量级金融数据库

最新AI收入Top榜，让人眼前一亮的5个创意产品

超简单！用AI算法玩转股票交易，快速上手

用GLM-4—Long分析美股最神秘的大数据公司

速成量化交易：一本小册带你玩转500+策略

简单又有效：高股息+低波动=稳健投资

揭秘多因子选股：如何挑选最强势股票？

快进快出：3分钟掌握A股低开涨停套利策略

ETF量化交易信号已集成到飞书群

用飞书机器人发送量化交易信号，抓住信息差！

简单有效的ETF投资逻辑，分享给大家！

量化交易速成：一本小册500+策略全掌握

破纪录！《黑神话：悟空》首日上线爆火，带动相关股票连连涨停！

爆赚超1000%！揭秘年化31%的ETF量化策略

薪资暴涨！揭秘Python量化岗位到底有多赚？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉