噪声增强 CAM（连续自回归模型）：推进实时音频生成

科技 2024-12-11 18:31 江苏

自回归模型用于生成离散标记序列。在该方法中，下一个标记由给定序列中的前一个标记决定。

最近的研究表明，自回归生成连续嵌入序列也是可行的。然而，这种连续自回归模型 (CAM) 以类似的顺序生成这些嵌入，但它们面临着诸如在扩展序列上生成质量下降等挑战。这种下降是由于推理过程中的错误积累而发生的，其中小的预测误差随着序列长度的增加而累积，从而导致输出质量下降。

传统的自回归图像和音频生成模型依赖于使用 VQ-VAE 将数据离散化为标记，以使模型能够在离散概率空间内工作。这种方法带来了重大缺陷，包括训练 VAE 时产生额外损失以及增加复杂性。虽然连续嵌入效率更高，但它们往往会在推理过程中积累错误，从而导致分布偏移并降低生成的输出质量。

最近通过连续嵌入进行训练来绕过量化的尝试未能产生令人满意的结果，因为繁琐的非顺序掩蔽和微调技术会降低效率并限制研究界的进一步使用。

为了解决这个问题，玛丽女王大学和索尼计算机科学实验室的一组研究人员进行了详细的研究，并提出了一种方法来抵消误差累积，并在不增加复杂性的情况下在连续嵌入的有序序列上训练纯自回归模型。

为了克服标准 AM 的缺点，CAM 在训练过程中引入了一种噪声增强策略，以模拟推理过程中发生的错误。该方法结合了整流流 (RF) 和 AM 在连续嵌入方面的优势。

所提出的 CAM 背后的主要概念是在训练期间向序列中注入噪声，以模拟容易出错的推理条件。

然后，它应用迭代反向扩散以自回归方式生成序列，逐步改善预测并纠正错误。通过使用噪声序列进行训练，CAM 经过预先训练，在生成较长序列的过程中能够抵御错误累积。

此过程提高了生成序列的总体质量，尤其是对于音乐生成等任务而言，每个预测元素的质量对整体输出至关重要。

该方法在音乐数据集上进行了测试，并与实验的自回归和非自回归基线进行了比较。

研究人员使用约 20,000 个单乐器录音的数据集进行训练和评估，这些录音具有 48 kHz 立体声音频。他们使用 Music2Latent 处理数据，以创建具有 12 Hz 采样率的连续潜在嵌入。基于具有 16 层和 1.5 亿个参数的转换器，CAM 使用 AdamW 进行了 400k 次迭代训练。

与 GIVT 或 MAR 等基线相比，CAM 的表现优于其他模型，FAD 为 0.405，FADacc 为 0.394。CAM 为重建声谱和避免长序列中的错误累积提供了更高质量的基础；噪声增强方法也有助于提高 GIVT 分数。

总之，所提出的方法在连续嵌入上训练纯自回归模型，直接解决误差累积问题。在推理时仔细校准的噪声注入技术进一步减少了误差累积。该方法为实时和交互式音频应用开辟了道路，这些应用受益于自回归模型的效率和顺序性，可以用作该领域进一步研究的基线。

信息源于：marktechpost

关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注于声学新技术、音频测试与分析、声学市场调研、声学创业孵化、知识产权服务等。

合作推广

稿件投稿｜创业支持｜知产服务｜技术转化

请发送需求至以下邮箱，我们将派专人与您联系

21db@ioasonic.com

文中所有图片和文字版权归21dB声学人所有

如需转载或媒体合作，请与我们联系

21dB声学人

中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注声学技术创新与产业化发展，为十万声学人提供声学相关资讯与技术交流合作。

最新文章

网络研讨会 | 1月7日模态测试、分析与仿真，点击立刻报名

研究 | 创新的声学交通监测技术，解决数据稀缺难题，精准识别车辆信息

独特的回声：岩石艺术遗址的声学研究

研究 | 新模型改善低资源条件下的声学场景分类

研究 | 通过流匹配实现高效、高质量的文本转音频生成

讨厌噪音？你可能是个天才：叔本华论噪音

属于21dB声学人的2024年终总结

研究 | 创新无线声学传感网络助力城市环境噪声监测

直播回放 | 声学专利对话：聊聊知识产权那些事

研究 | 高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

动物间谍：情报机构眼中的 “秘密武器”

声学专利对话 | 直播预告：“聊聊知识产权那些事”主题分享周日开播

研究 | 基于模板模式匹配的声学定位模型实现高精度室内声源定位

研究 | 基因调控因子或可帮助失聪患者的听觉细胞再生，逆转耳聋

研究 | 一种基于深度学习的声源定位新方法，显著减少训练数据需求

专利 | 苹果新专利：通过手势激活耳机的隐私模式

专利 | 一种作为耳机扬声器单元的微型换能器

企业推介 | 中科声知知识产权：创新价值的守护与赋能者

研究 | 生物声学研究发现豹子可以通过其独特的吼叫声来识别

研究 | 低功率声学增强紧凑型热交换器，为电子设备的高效冷却提供新方案

从铃铛到唱诗班，独属于圣诞节的音色

前沿 | 近期【声学】相关学术论文整理

研究 | 西安交通大学研究出一种具有低噪声振荡读出电路的 MEMS 石英谐振加速度计

科普 | 太阳会发出噪音吗？

专利 | 带有噪声过滤功能的婴儿监视系统

降噪耳机能做什么和不能做什么

心灵之耳与内心之声：探究大脑的听觉想象力

专利 | 一种主动降噪音响系统

研究 | 为深基坑爆破开发的噪声与振动冲击模拟器

研究 | 贝多芬如何创作音乐？声音和振动在大脑中汇聚以增强感官体验

专利 | Verasonics 获超声波收发器设计专利，实现低失真和实时信号监控

前沿丨基于“虚拟透镜”的水下超分辨率声学成像

如何处理轴承的噪声与振动

推广：网络研讨会 | HBK与立讯 - MEMS扬声器的电声学测试，点击立刻报名

研究 | 深度神经网络与多流架构在助听器中的性能比较：噪声环境中的语音处理

研究 | 增强双模成像：新型换能器同时提供超声和光声成像

专利 | 一种减少压缩机噪声（特别是气动噪声）的消声器装置

研究 | 利用微金属透镜进行超声波成像以实现先进材料诊断

格力新专利：双层隔音棉结构实现宽频降噪

AirPods Pro 2 作为助听器效果如何？测评人员对其进行了测试

研究 | 脑图谱促进对精神分裂症患者语言和幻觉的理解

研究 | 增材制造吸声超材料综述

研究 | 微型机器人通过精准药物输送瞄准肿瘤

森海塞尔麦克风以沉浸式音频捕捉SpaceX星舰试飞

研究 | 多目标非侵入式助听器语音评估模型：HASA-Net+的提出与应用

研究 | 超声引导的微观“花”颗粒在靶向药物输送中显示出良好的前景

噪声增强 CAM（连续自回归模型）：推进实时音频生成

专利 | 格力新风降噪技术：为健康室内空气质量保驾护航

巴黎圣母院重新开放,大教堂内的声学效果有无改变？

研究 | 灵长类动物研究揭示了大脑中分离信号和噪声的神经机制

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉