Modern_Linguistics
语言是人类文明的基石,是民族团结的粘合剂,也是矛盾冲突中的排头兵。
人工智能驱动的语音合成技术如今能够进行异常逼真的对话,能够模仿口音、悄悄话,甚至复制他人的声音。那么,我们该如何区分它们与人类的声音呢?
全文字数 5000
预计阅读 16分钟
如今,与AI开始对话变得非常容易。只要向一些聊天机器人提问,它们就会以语音做出有趣的回答。你可以与它们进行多语言交流,还可以要求它们以特定方言或口音回答。现在,甚至可以使用人工智能驱动的语音克隆工具复制真人的声音。最近,利用这种技术,把一位名叫迈克尔·帕金森爵士(Sir Michael Parkinson)的已故英国广播员的声音克隆了出来,目的是制作一部八集的播客系列。另一位自然历史广播员大卫·阿滕伯勒爵士(Sir David Attenborough)表示,当他得知自己的声音被AI克隆并发表了他从未说过的话时,感到“深感不安”。在某些情况下,这项技术被用来进行高级诈骗,比如骗钱。不过,并非所有AI生成的语音都用于不好的目的。它们也被嵌入到由大型语言模型驱动的聊天机器人中,从而能够以更加自然、令人信服的方式进行对话。例如,ChatGPT的语音功能现在可以改变语气、在某些词语上重读,就像人类用这些方式表达同情和情感一样。它还能模仿非语言信号,如叹气和抽泣,支持50种语言,并且可以即兴展现各种口音。它甚至可以代替用户拨打电话并帮助处理事务。在OpenAI的一个演示中,系统成功地从一个商贩那里订购了草莓。这些能力引出了一个有趣的问题:人类的声音是否有一些独特的特点,能帮助我们把它与机器语音区分开来?德国慕尼黑大学语音学和数字语音处理教授乔纳森·哈灵顿(Jonathan Harrington)研究人类如何发音、如何产生单词和口音的声音细节,已经有几十年。他对人工智能驱动的语音合成器的能力印象深刻。“在过去50年,特别是最近,语音生成/合成系统已经变得如此优秀,以至于我们很难仅凭耳朵区分AI生成的声音和真实的声音。”他说。然而,他认为仍然有一些重要的线索可以帮助我们分辨是与人类对话,还是与AI对话。在此之前,我们决定设置一个小挑战,看看AI生成的声音与人类声音相比,究竟有多么令人信服。为此,我们邀请了纽约大学斯特恩商学院的首席AI架构师科诺·格雷南(Conor
Grennan),让他制作两组音频片段,朗读简短的文本段落。其中一段文字来自刘易斯·卡罗尔经典童话《爱丽丝梦游仙境》,由格雷南朗读,另一段是通过软件公司ElevenLabs的AI语音克隆工具生成。你可以在下面听听它们,看看你能否分辨出差异。令人惊讶的是,大约一半的听众通过耳朵竟然分辨不出哪一段是AI生成的,哪一段是人类朗读的。不过需要指出的是,我们的实验并不是特别科学,音频也并非通过高端音响设备播放,而仅仅是通过普通的笔记本电脑和智能手机播放。即便是McAfee网络安全公司首席技术官史蒂夫·格罗布曼(Steve Grobman),也很难仅凭耳朵就分辨出哪个声音是人类发出的,哪个是AI生成的。“确实有一些超越语言的因素,比如吸气声让我更倾向于认为是人类发出的声音,但语调、节奏、音质又让我倾向于认为是AI的声音。”他说。对于未经训练的人类耳朵来说,许多细节很难察觉。“人类很差劲。”格罗布曼说。他解释道,深度伪造检测软件可以捕捉到人耳可能忽略的细节。但当不法分子利用真实音频与伪造音频混合时,识别就变得尤为困难。他举了一个例子,微软联合创始人比尔·盖茨(Bill Gates)出现在了推销量子AI股票交易工具的深度伪造视频中。对人耳来说,音频听起来就是那位科技亿万富翁,但将其通过诈骗分类器进行筛查时,却被标记为深度伪造。McAfee最近指出,一则虚假的广告中使用了混合的深度伪造音频和真实的歌手泰勒·斯威夫特(Taylor Swift)的音频。格罗布曼的建议是:“始终注意所说内容的上下文,听起来可疑的事情很可能就是假的。”