随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能,将极大地丰富人类用户与 AI 智能体互动的体验。
来源丨机器之心
第一步:对 PDF 进行预处理。即使用 Llama-3.2-1B-Instruct 对 PDF 进行预处理,并将其保存为.txt 文件;
第二步:转录文本编写器。使用 Llama-3.1-70B-Instruct 模型从文本中编写播客转录文本;
第三步:对内容重新优化,添加戏剧性。使用 Llama-3.1-8B-Instruct 模型使转录文本更具有创意;
第四步:文本到语音。使用 parer -tts/parer -tts-mini-v1(文本到语音模型)和 bark/suno 生成会话播客。
git clone https://github.com/meta-llama/llama-recipes
cd llama-recipes/recipes/quickstart/NotebookLlama/
pip install -r requirements.txt
语音模型:TTS 模型使语音听起来不是很自然,未来可以纳入更好的模型; 更好的提示; 支持提取网站、音频文件、YouTube 链接等。