首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

微软AI语音技术：因功能太强，不敢公开！

文摘科技 2024-08-08 11:50 中国香港

微软的一个研究团队推出了 VALL-E 2，这是一款显著改进的语音合成人工智能系统。然而，他们认为世界尚未准备好迎接它的发布。

研究团队表示，这是首个能够达到人类水平的语音生成系统，即使是对只有一小段语音样本的陌生人，该系统也能生成语音。该系统能够可靠地生成复杂的句子或重复次数较多的句子。

市面上有售的软件，比如ElevenLabs，可以克隆声音，但需要更冗长的参考资料。VALL-E 2 只需几秒钟就能完成。

VALL-E 2以 2023 年初推出的前身 VALL-E 为基础，使用神经编解码器语言模型来生成语音。这些模型学习将语音表示为一系列代码，类似于数字音频压缩。两项关键改进使这一突破成为可能。

VALL-E 2 提供两项核心创新

首先，VALL-E 2 在解码过程中采用了一种新颖的“重复感知采样”方法，将学习到的代码转换为可听见的语音。代码的选择会动态地适应它们在先前输出序列中的重复性。

第一代 VALL-E 的处理管道就是这样的......| 图片：微软

第二代 VALL-E 的处理管道 | 图片：微软

VALL-E 2 不会像 VALL-E 那样从可能的代码中随机选择，而是智能地在两种采样方法之间切换：“核采样”仅考虑最可能的代码，而随机采样则平等对待所有可能性。这种自适应切换大大提高了解码过程的稳定性，并避免了无限循环等问题。

第二个核心创新是按组而不是单独对编解码器代码进行建模。VALL-E 2 将多个连续代码组合在一起，并将它们作为一种“框架”一起处理。这种代码分组缩短了语言模型的输入序列，从而加快了处理速度。同时，这种方法还通过简化非常长的上下文的处理来提高生成语音的质量。

在 LibriSpeech 和 VCTK 数据集上的实验中，VALL-E 2 在生成语音的稳健性、自然性和相似性方面明显优于人类。只需 3 秒的目标说话者录音就足够了。使用更长的 10 秒语音样本，系统获得了更好的听觉效果。微软已在官网上发布了所有示例。

研究人员强调，训练VALL-E 2只需要成对的语音记录及其转录本，而不需要时间码。

由于滥用风险高，不予发布

据研究人员称，VALL-E 2 可用于教育、娱乐、无障碍或翻译等许多领域。然而，他们也指出了明显的滥用风险，例如在未经说话者同意的情况下模仿声音。因此，它目前仍是一个纯粹的研究项目，微软没有计划将 VALL-E 2 集成到产品中或扩大对公众的访问。

他们认为，首先应该制定一个协议，以确保被听取的人同意合成，以及一种对此类内容进行数字标记的方法。这项提议大概是受到人工智能图像模型行业发展的启发，该行业正在引入C2PA 等水印。然而，它们并没有解决可靠地识别人工智能生成内容的现有问题。

<SDI原创，欢迎转载、投稿联系>

往期精彩推荐:

麻省理工：教你如何成为AI工程师

AI工程师--下一个重大技术角色！

麻省理工预测：2024年十大突破性技术揭晓

麻省理工：如何用生成式AI来培养学生？

麻省理工：大型语言模型帮助机器人导航

西雅图腾讯的10亿人工智能大军，是干什么的？

看更多精彩内容记得点击关注哟！

http://mp.weixin.qq.com/s?__biz=Mzg5MDM2MzY2OA==&mid=2247490978&idx=1&sn=77d05841b9f0fbf87296b0e045bb291b

SDI数字创新

专注AI、XR、元宇宙前沿洞察和商业服务

最新文章

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

GPT 10 月份访问量达 37 亿次，同比增长 115%

假如 AI 欺骗了你

23000 名阿联酋航空机组人员将接受空客和波音 VR 培训

MIT：重新审视生成式人工智能的神秘山谷

国际电信联盟就 AI 和元宇宙做出承诺

Nature：元宇宙技术有助于促进更包容的社会

AI走向人性化：未来我们将如何与其共存？

麻省理工研究：AI聊天机器人可减少信仰阴谋论

沉浸感的诱惑：从爆火的JellyCat到《I Am Cat》VR游戏

福布斯：人工智能革命如何重塑世界？

扎克伯格推出带有神经接口的“Orion” AR 智能眼镜--黄仁勋开箱亲测

Gartner：2027 年，80% 软件开发人员将要接受 AI 培训

特斯拉推出Cybercab出租车，但Optimus机器人确更引人注目

诺贝尔奖的AI时代：为什么物理学奖和化学奖都颁给了人工智能？

Apple Vision Pro 2 传闻及最新消息

为什么女性使用 AI 的频率低于男性？

科隆数字展邀您亲身体验元宇宙与人工智能前沿技术

Roblox 重磅推出文字生成 3D 模型 AI工具

今年最值得关注的沉浸式协作趋势

生成式人工智能是如何忽悠你被解雇的？

AR 智能隐形眼镜将于 2026 年问世

牛津大学：AI科学家写论文，每篇仅需15美元

【深度】黑悟空爆火，再审视元宇宙第一股Roblox

阿迪达斯如何在元宇宙中全速前进

在Vision Pro发布六个月后的9个想法

联想如何使用 GenAI&XR 技术赋能培训？

AI机器人或将多年后参加奥运会？

七夕福利：10 款最佳 AI 约会应用，请查收！

微软AI语音技术：因功能太强，不敢公开！

西雅图腾讯的10亿人工智能大军，是干什么的？

欧洲议会刚刚批准了《人工智能法案》

美国在联合国推动全球人工智能治理

NVIDIA如何使用Vision Pro 训练机器人

这是微软 Co-pilot AR 智能眼镜的首次亮相吗？

AI初学者必看：第 8 篇 - 生成式人工智能的挑战和局限性

AI初学者必看：第 7 篇 - 生成式人工智能中的伦理考量

AI初学者必看：第 6 篇 - 与人工智能沟通的艺术

AI初学者必看：第 5 篇 - 什么是大型语言模型 (LLM)？

AI初学者必看：第 4 篇 - 生成式人工智能简介

AI初学者必看：第 3 篇 - 深度学习基础

AI初学者必看：第 2 篇 - 理解机器学习

MCM的品牌元宇宙创想新体验

Vision Pro里看欧洲杯是种什么快乐？超乎你想象

AI初学者：第 1 篇 - 人工智能简介

麻省理工：一只企鹅引发的AI革命性进展

麻省理工：大型语言模型帮助机器人导航

元宇宙前沿速递：全球趋势、企业动态与行业深度剖析

麻省理工：如何用生成式AI来培养学生？

麻省理工：教你如何成为AI工程师

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉