人类的声音有什么特别之处？与AI合成的声音相比

文摘 2024-12-23 02:11 湖北

人工智能驱动的语音合成技术如今能够进行异常逼真的对话，能够模仿口音、悄悄话，甚至复制他人的声音。那么，我们该如何区分它们与人类的声音呢？

全文字数 5000

预计阅读 16分钟

如今，与AI开始对话变得非常容易。只要向一些聊天机器人提问，它们就会以语音做出有趣的回答。你可以与它们进行多语言交流，还可以要求它们以特定方言或口音回答。

现在，甚至可以使用人工智能驱动的语音克隆工具复制真人的声音。最近，利用这种技术，把一位名叫迈克尔·帕金森爵士（Sir Michael Parkinson）的已故英国广播员的声音克隆了出来，目的是制作一部八集的播客系列。另一位自然历史广播员大卫·阿滕伯勒爵士（Sir David Attenborough）表示，当他得知自己的声音被AI克隆并发表了他从未说过的话时，感到“深感不安”。

在某些情况下，这项技术被用来进行高级诈骗，比如骗钱。

不过，并非所有AI生成的语音都用于不好的目的。它们也被嵌入到由大型语言模型驱动的聊天机器人中，从而能够以更加自然、令人信服的方式进行对话。例如，ChatGPT的语音功能现在可以改变语气、在某些词语上重读，就像人类用这些方式表达同情和情感一样。它还能模仿非语言信号，如叹气和抽泣，支持50种语言，并且可以即兴展现各种口音。它甚至可以代替用户拨打电话并帮助处理事务。在OpenAI的一个演示中，系统成功地从一个商贩那里订购了草莓。

这些能力引出了一个有趣的问题：人类的声音是否有一些独特的特点，能帮助我们把它与机器语音区分开来？

德国慕尼黑大学语音学和数字语音处理教授乔纳森·哈灵顿（Jonathan Harrington）研究人类如何发音、如何产生单词和口音的声音细节，已经有几十年。他对人工智能驱动的语音合成器的能力印象深刻。

“在过去50年，特别是最近，语音生成/合成系统已经变得如此优秀，以至于我们很难仅凭耳朵区分AI生成的声音和真实的声音。”他说。

然而，他认为仍然有一些重要的线索可以帮助我们分辨是与人类对话，还是与AI对话。

在此之前，我们决定设置一个小挑战，看看AI生成的声音与人类声音相比，究竟有多么令人信服。为此，我们邀请了纽约大学斯特恩商学院的首席AI架构师科诺·格雷南（Conor Grennan），让他制作两组音频片段，朗读简短的文本段落。

其中一段文字来自刘易斯·卡罗尔经典童话《爱丽丝梦游仙境》，由格雷南朗读，另一段是通过软件公司ElevenLabs的AI语音克隆工具生成。你可以在下面听听它们，看看你能否分辨出差异。

令人惊讶的是，大约一半的听众通过耳朵竟然分辨不出哪一段是AI生成的，哪一段是人类朗读的。不过需要指出的是，我们的实验并不是特别科学，音频也并非通过高端音响设备播放，而仅仅是通过普通的笔记本电脑和智能手机播放。

即便是McAfee网络安全公司首席技术官史蒂夫·格罗布曼（Steve Grobman），也很难仅凭耳朵就分辨出哪个声音是人类发出的，哪个是AI生成的。

“确实有一些超越语言的因素，比如吸气声让我更倾向于认为是人类发出的声音，但语调、节奏、音质又让我倾向于认为是AI的声音。”他说。对于未经训练的人类耳朵来说，许多细节很难察觉。

“人类很差劲。”格罗布曼说。他解释道，深度伪造检测软件可以捕捉到人耳可能忽略的细节。但当不法分子利用真实音频与伪造音频混合时，识别就变得尤为困难。他举了一个例子，微软联合创始人比尔·盖茨（Bill Gates）出现在了推销量子AI股票交易工具的深度伪造视频中。对人耳来说，音频听起来就是那位科技亿万富翁，但将其通过诈骗分类器进行筛查时，却被标记为深度伪造。

McAfee最近指出，一则虚假的广告中使用了混合的深度伪造音频和真实的歌手泰勒·斯威夫特（Taylor Swift）的音频。格罗布曼的建议是：“始终注意所说内容的上下文，听起来可疑的事情很可能就是假的。”

摩登语言学

语言是人类文明的基石，是民族团结的粘合剂，也是矛盾冲突中的排头兵。——露易丝•班克斯/《降临》（商务合作请加V：novice_0213）

最新文章

全球首个同步解码语言与动作的脑机接口技术……

《量子语言》探索量子力学与音频合成中的语言保护

路特斯正式更名为莲花-汽车品牌名，到底是音译好还是意译好？

#广东猫用粤语跟主人无障碍交流#猫咪真的能听懂人话吗？

中文版APT为什么“难听”？

2024年全球语言学习报告

2024年十大引人注目的语言发现

关于失语症，你需要知道的一切……

蔡磊先生说话困难，也许AI可以帮助到渐冻症患者

我的联觉可将语音“转化”为脑中字幕

武汉8岁男孩总把数字反着写，当代达芬奇？

为什么手写更有助于记忆和学习？

2024年“摩登语言学”十大热文

考古学家称发现了更古老的字母文字

送你一棵圣诞句法树……

乔姆斯基96岁啦！下一个乔姆斯基在哪里？

为什么叫“处女作”而不叫“处男作”？#张艺谋儿子动画处女作#

人类的声音有什么特别之处？与AI合成的声音相比

为了让“伪中文”再次伟大，日本开发者做了个APP……

投稿屡屡不中的，可以考虑投到这里……

汉字中的外来户：卐、卍、𠁼、歹、兑、〇……（PDF版）

汉字中的外来户：卐、卍、𠁼、歹、兑、〇……

21岁计算机学生借助AI破解千年前被烧毁的卷轴

威廉·拉波夫的学习的一生

少女推动语言变革：新词传播从未如此迅速

腔调大揭秘：你的“某某腔”是如何炼成的？

英语中没有对应鲜的词？不是umami吗？或者MSG？

舒扬专栏 | AI会终结关于人类思维的俗知俗见吗？

异教语言学-语言如何让人产生狂热？

柏克莱的老旁听生——叫我如何不想他？

活动 | 当语言学遇上认知心理学

AI破解千年前被烧毁的卷轴

哎呦！语言学家发现表达疼痛的“全球通用语”

Polarization、brain rot、brat-2024年度词汇揭示了数字生活的危险与力量

中国人算数能力独步天下，是语言的原因吗？

当我让你滚时，你不必以一种圆润的方式离开-脏话“滚”中的词汇语义学

小米YU7公示-雷总，这个YU怎么读啊？

90岁博士奶奶用猩猩语打招呼-猩猩语或可揭示人类语言起源之谜

从瓦伊文字洞察人类书写的演变过程

音乐与语言具有深层遗传联系，16个基因区域揭示了这一点

人说外语时性格也变了，你有没有发现

韩国民主面临“百尺竿头”的危机，还可以这样用？

我特喜欢中国人结束通话的方式：嗯-嗯-嗯-啊-啊-啊

将婴儿放一起，不教说话，会产生新的语言吗？

什么是语言人类学？

一项宣言：语言是平的

陈好为送礼物口误道歉，人们为何会口误？

什么是语言系统的动力学？

冷红生专栏 | “粘贴”还是“黏贴”？zhāntiē还是niántiē？

萨皮尔-沃尔夫假说：语言如何影响我们表达自我的方式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉