“Welcome back everybody to the Deep Dive, so today we're diving into a question that honestly is on a lot of people's mind right now: Can AI make a podcast?”
下面是我们用NotebookLM根据本文内容生成的播客音频,还挺像那么回事,有兴趣的朋友可以听听。🤣
前段时间,谷歌旗下AI工具NotebookLM推出了对话生成功能。用户上传电子书、网页或报道等文件,NotebookLM可以根据文件内容,生成两人的英语对话,声音听起来非常接近真人。更厉害的是,NotebookLM生成的对话言之有物,似乎真的能够理解文件内容。紧接着,大小AI公司都推出了类似工具。字节跳动旗下AI开发平台Coze,宣布推出AI生成播客功能,并且可以替换人声和音色。初创公司PodLM也推出了AI播客生成器,除了可以定制AI语音,还支持一键将生成的播客发布到播客平台。一时间,社交媒体上涌现出了大量帖子,感叹「AI颠覆播客」,甚至「播客行业要挂了」。很遗憾,上述所有AI工具都无法生成播客。它们生成的是语音对话、书籍朗读或者资料总结,全都不是播客。播客最核心的部分是人的对话。主播讲述的是自己真实的经验、见解和情感。听众也清楚声音背后是一个活人。这是一种超越技术和工具的信任,是人与人之间的连接。短期内,AI还无法提供人的连接。因为AI生成的对话,还没有复杂到完美模拟人的情感。听众清楚声音背后是AI工具。并且,AI只是将收到的文件资料,生成一段语音对话,内容是二手的,音色是定制的。没有一手的经验、见解和情感,AI工具只适合用在快速读完一本书这类功能性场景。不过,AI改变内容行业是长期趋势,它可以辅助内容创作者,极大提升工作效率。在后期制作、内容分发等环节,AI势必改变播客行业。短期内,AI生成不了播客
在探讨「AI能不能生成播客」之前,首先需要回答一个问题:什么是播客?播客在根源上是一种媒介形式,主播录制自己的对话,将对话上传到播客平台,再通过RSS技术分发。其中,播客的核心是人的对话。人的对话包含了情感表达、即兴互动、一手的经验和见解,以及由此产生的聊天氛围。即便AI可以轻松取代其他播客制作步骤,诸如帮助写大纲、生成封面、一键上传、语音转文字。但AI依然难以模拟人的真实对话。这既是一个单纯的技术问题,AI语音的效果还不够好。如果AI语音能够让人完全听不出来,那么听众也就无从分辨声音背后到底是人还是AI。但也不只是技术问题,因为其中牵扯到了人们听播客的目的。人们听播客的主要目的,不是高效地获取信息。对于播客来说,效率不是一切,人的特质比信息效率更重要。互联网行业里,一种常见的观点是信息效率至上。特别是字节跳动崛起后,张一鸣信奉的信息效率至上成为显学。张一鸣曾在采访中说,信息的效率比信息的展示更重要,最重要的事情是提高分发效率、满足用户的信息需求。今日头条、抖音等产品,都是依靠推荐算法分发内容,极大地提高了信息分发和接受效率,从而取得商业成功。但是,播客显然违背了这一点,播客本来就不是信息效率最高的媒介。公众号、短视频的信息效率都远高于播客。一篇2000字公众号或者5分钟短视频能说完的事情,换成是一期播客,时长将达到一个小时左右。播客与这些媒介的差异是人的声音、人的情感与人的特质——主播和嘉宾从容地讲述自己的故事,在笑声、沉默和语气的细微变化里,自然地流露情感。这几年来,播客在全世界的流行,再次证明了人的重要性,即人们不仅需要信息效率高的文字内容和短视频,同样需要信息效率较低,但充满「人味」的播客。当然,播客依然需要提升信息效率。比如一期播客节目,主播和嘉宾能够更加简明扼要、条理清晰地讲述主题,总是一件好事。只是,在保持人的特质这一核心优势的前提下,播客节目才能够提高信息效率。否则,没有人的特质的播客,比如说那种毫无感情的读稿节目,实质上是在和微信读书、喜马拉雅听书竞争,并不属于播客。因此,「AI能不能生成播客」的真正含义是,AI可以模拟人的特质吗?理论上,只要AI公司研发出更深入的情感建模、更细腻的语音合成、更自然的对话系统,让听众分辨不出来声音背后是人还是AI。那么,AI当然可以模拟人的特质。所以,我们在前文中指出,「AI能不能生成播客」是一个单纯的技术问题。只是,短期内,AI公司还解决不了这个技术问题。AI可以生成流畅的对话,但暂时模拟不出人的特质。NotebookLM生成的对话,已经非常接近真人,可以提供聊天氛围和陪伴感。但是,它的对话过于流畅,听起来像是播音腔,和谈话类播客的随意氛围格格不入。并且,AI最大的问题是无法生产一手知识。无论是ChatGPT、NotebookLM,还是豆包、Kimi,它们全都是根据互联网的已有数据,通过学习和处理这些数据的相关性,生成二手信息。本质上,AI输出的内容都是对已有知识的重组和表达,其中没有原创的一手知识。如何才能生产一手知识呢?人需要实地工作、与他人交谈、独立地思考以及真实的生活体验,还需要一点自我意识,意识到自己是一个主体,敢于得出结论,从众多相似的信息中,产生新的经验、见解和情感。AI暂时无法做到这一点,AI工具只能根据输入内容,生成相似的、二手的信息。五条人乐队有着非常鲜明的风格。有人将五条人的歌词输入AI工具,自动生成歌曲。五条人主唱仁科听后的反应是,AI生成的歌曲像「鸡精味精撒在橡皮筋上面,完全没有human可以食用的东西,全是塑料。」播客和音乐类似,它们的核心是人的特质。就像是AI暂时生成不了像五条人那样风格鲜明的音乐一样,AI也生成不了播客。AI辅助播客制作
如果问大模型Claude,「AI能不能生成播客?」我建议可以将AI作为辅助工具:
用于生成内容框架和初稿
协助进行后期制作
作为人类主持人的补充,而不是完全替代
继续追问Claude,「为什么你建议将AI作为播客的辅助工具,而不是主要工具呢?」理想的协作模式
AI负责:
内容规划和大纲生成
实时资料查询和补充
后期剪辑和处理
文字转录和总结
人类负责:
核心内容输出
情感互动和共鸣
即兴发挥和调节
把握节目整体质量
AI改变内容行业是长期趋势,它会进一步降低创作门槛,让个人可以调动更多的智力资源,进而生成数量更多的内容。作为内容行业的一部分,AI当然也会改变播客。不过,就像是Claude说的那样,AI将作为辅助工具,不是直接替代人类进行内容输出,而是主要改变播客的制作流程。在文字处理上,写节目大纲、Shownotes正是大语言模型擅长的领域,ChatGPT、Claude和豆包都可以辅助人类。在后期处理上,AI降噪、AI剪辑可以大大提高后期效率,Vocut、Phonic的AI降噪比AU自带的降噪功能更好用,Vocut和剪映都支持语音转文字功能,用户可以直接编辑文字,AI工具负责剪辑相应音频。还有一些播客托管平台支持AI生成封面图片、AI划分节目章节。AI则将加剧这种冲击。进一步让所有表达能力不错的人,只要会用AI工具,不需要复杂的前期准备和后期剪辑,就能持续稳定地制作播客,面向公众表达自己的经验、见解和情感。不只是内容供给侧,AI更有前景的领域是信息分发,由AI驱动的推荐算法来分发播客内容。整个互联网都经历了分发方式转型,内容分发从订阅制到推荐制。从Web 1.0时代,用户手动地关注播客,收取邮件;到Web 2.0时代,FaceBook、今日头条和抖音自动为用户推荐内容。与播客同期出现的博客,就经历了从订阅制到推荐制到转型,今天的推特、微博(原意是微型博客)的流量池中,大量流量都来自算法推荐。播客的原始形态是订阅制。原教旨的播客形式,需要听众手动将RSS链接,导入泛用型播客客户端,这样才能订阅并收听节目。显然,这种方式过于复杂,这几年来兴起的播客平台都采用了互联网平台主流的订阅方式。油管、Spotify、小宇宙都不需要用户导入RSS链接,只需要点击关注就能订阅并收听播客节目。那么,播客会进一步从订阅制转向推荐制吗?在社交媒体、公众号和短视频等媒介上,互联网巨头已经验证过了,推荐算法可以根本性提高信息分发效率。而信息效率高的互联网平台,势必竞争过信息分发效率低的互联网平台。只有在内容供给不充足的情况下,因为互联网上的内容太少,订阅制才会有信息效率。而在目前,播客内容供给充足的情况下,听众有机会接受到更多自己感兴趣的内容,而不只是订阅的内容。订阅制的信息效率太低,播客平台势必需要订阅制以外的方式来辅助分发内容。真正的问题是,播客平台也可以用推荐算法来提高信息分发效率吗?目前看来是成立的。油管、Spotify、小宇宙都在用推荐算法来辅助分发播客。油管是全球最大的播客平台,并且主要依靠推荐算法分发内容,播客只是平台上海量内容形式之一。Spotify也在使用推荐算法分发音乐。音乐和播客类似,核心都是人的特质。既然音乐可以用算法分发,播客大概率也可以。AI还可以做得更多,有希望提升播客的信息接受效率。Spotify和苹果播客都会转录逐字稿,也会自动划分章节。这些AI工具将线性、音频的播客节目内容,转变为非线性的文字信息。就像是将一条只能从头流到尾的河流,变成了一张可以任意查看的地图。显然,这些手段更加方便听众接受信息,提升了播客的信息接受效率。唯一的问题在于,推荐算法会让播客趋同,进而损害播客的多样性吗?转录逐字稿、自动划分章节会让播客提升信息效率,进而减少人的特质吗?或者将问题总结成一个,AI究竟会如何改变内容生态呢?无注解插图图源:Superpower Daily, unsplash