NPU-ASLP实验室14篇论文被Interspeech2024 录用

文摘   科技   2024-06-19 09:30   陕西  

Interspeech 是由国际语音通讯协会(International Speech Communicaation Association,ISCA)创办的语音处理领域旗舰国际会议,作为全球最大的综合性语音处理领域的科技盛会,历届Interspeech会议都备受全球学术界和工业界的广泛关注。Interspeech 2024将于9月1日至5日在希腊科斯岛举行。本年会议的主题是“Speech and Beyond”,交流内容涵盖语音识别、语音合成、语音增强、口语语言理解、声纹识别、多模态信息处理众多领域。

议网址:https://interspeech2024.org/


西工大音频语音与语言处理研究组(ASLP@NPU)本届会议将携合作伙伴宣读论文14篇,论文的合作单位包括腾讯、出门问问、小米、网易、字节跳动、爱奇艺、阿里巴巴、喜马拉雅、度小满、香港中文大学以下是发表论文的相关信息,与大家分享。

NO.1  FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter

作者列表:吕元骏,李海,闫影,刘俊辉,谢丹明,谢磊

合作单位:爱奇艺

论文摘要:声码器根据声学特征重建语音波形,在TTS系统中发挥着举足轻重的作用。基于频域重建的声码器(如Vocos和APNet2)最近取得了快速发展,在推理速度上超过了时域模型,同时实现了良好的音频质量。然而,这些频域声码器由于参数量过大,从而带来了额外的内存负担。受PriorGrad和SpecGrad的启发,我们使用伪逆估计初始频谱。这种简单的初始化大大减少了声码器所需的参数量。基于APNet2和精简后的幅度谱预测分支,我们提出了FreeV,与APNet2相比,FreeV实现了1.8倍的推理速度提升,而参数几乎只有一半。同时,FreeV在音质上优于APNet2,这说明我们在追求实时、高保真语音合成方面又向前迈进了一步。

论文预印版:https://arxiv.org/abs/2406.08196

代码:https://github.com/BakerBunker/FreeV

Demo: https://bakerbunker.github.io/FreeV

码直通论文

NO.2 Single-Codec: Single-Codebook Speech Codec towards High-Performance Speech Generation

作者列表:李函昭,薛浏蒙,郭浩翰,朱新发,吕元骏,谢磊,陈云琳,殷昊,李志飞

合作单位:出门问问,香港中文大学(深圳),香港中文大学

论文摘要:助多码本的语音编解码器,大语言模型范式能够被用于语音合成。然而多个码本会产生多个离散序列,这对语言模型的推理效率和鲁棒性构成了挑战。为了解决这个问题,我们提出了一种新的单码本语音编解码器——Single-Codec。该编解码器使用解耦的 VQ-VAE 技术,将语音分解为音色、声学环境等信息相关的时不变嵌入与发音相关的单个离散序列。我们还通过以下几种方式进一步提升编解码器的性能:1) 利用 BLSTM 模块进行上下文建模,以充分利用时序信息;2) 使用混合采样模块,以减少上采样和下采样过程中的信息失真;3) 使用重采样模块,以促使离散单元携带更多的发音信息。与多码本的编解码器(如 EnCodec 和 TiCodec)相比,Single-Codec 在仅有 304bps 的较低带宽下,展现出了更高的重建质量。而基于大语言模型的语音合成上的实验结果进一步证实了 Single-Codec 的有效性,合成音频的自然度和说话人相似度均得到了提升。

论文预印版:https://arxiv.org/abs/2406.07422

Demo:https://kkksuper.github.io/Single-Codec

码直通论文

NO.3 Towards Expressive Zero-Shot Speech Synthesis with Hierarchical Prosody Modeling

作者列表:姜月鹏,李涛,杨丰煜,谢磊,孟猛,王育军

合作单位:小米

论文摘要:最近零样本语音合成方面的研究取得了显著进展,特别是在说话人相似性方面。然而当前的工作侧重于音色的泛化上,而忽略了韵律建模,这使得合成语音的自然度和表现力有限。为了解决这个问题,我们提出了一种新的实现音色和层次化韵律建模语音合成模型。该模型在较大规模数据集上进行训练。由于音色是与表现力密切相关的全局属性,我们采用全局向量来建模说话者的音色,同时指导韵律建模。考虑到韵律既包含全局一致性又包含局部变化,我们使用扩散模型作为韵律预测器,并设计韵律适配器来实现层次化韵律建模,进一步增强合成语音的韵律表现。实验结果表明,我们的模型不仅保持了与基线相当的音色克隆能力,还展现出更好的自然度和表现力。

论文预印版:https://arxiv.org/abs/2406.05681

码直通论文

NO.4 RaD-Net 2: A Casual Two-stage Repairing and Denoising Speech Enhancement Network with Knowledge Distillation and Complex Axial Self-attention

作者列表:刘铭帅,夏咸军,黄传增,林丹峰,谢磊

合作单位:字节跳动

论文摘要:在实时通信系统中,语音信号经常遭受多种损伤的干扰。近期,在ICASSP 2024语音信号改善挑战赛上,我们提出了一个基于修复和降噪的两阶段模型RaD-Net,该模型可以有效改善语音信号质量。然而由于没有有效利用未来信息以及卷积感受野的约束,模型的性能受到了限制。为了解决上述问题,我们将RaD-Net扩展为RaD-Net 2。首先,在第一阶段引入基于因果性的知识蒸馏,使用非因果模型作为教师模型来提升非因果模型的性能。此外,在第二阶段将复数轴向自注意机制应用于复数特征编码器和复数特征解码器。实验结果表明,与RaD-Net相比,RaD-Net 2在ICASSP 2024 SSI挑战盲测试集上带来了0.10 OVRL DNSMOS的改进。

论文预印版:https://arxiv.org/abs/2406.07498

码直通论文

NO.5 BS-PLCNet 2: Two-stage Band-split Packet Loss Concealment Network with Intra-model Knowledge Distillation

作者列表:张子晗,夏咸军,黄传增,林丹峰,谢磊

合作单位:字节跳动

论文摘要:音频丢包是实时语音通信中不可避免的问题。最近我们提出了一种针对全频段信号的频带分割丢包隐藏网络(BS-PLCNet)。虽然它在ICASSP 2024 PLC挑战赛中表现优异,但BS-PLCNet是一个大型模型,具有8.95G FLOPS的高计算复杂度。为此我们提出了其改进版本BS-PLCNet 2,以进一步降低计算复杂度并提高性能。具体来说,为了弥补缺失的未来信息,在宽带模块中,我们设计了双路径编码器结构(具有非因果路径和因果路径),并利用模型内知识蒸馏策略将未来信息从非因果教师提炼到因果学生路径。此外,我们在丢包恢复后引入了一个轻量级的后处理模块,以恢复语音失真并去除音频信号中的残留噪声。BS-PLCNet 2只有BS-PLCNet 40%的参数量以及38%的计算量,在ICASSP 2024 PLC挑战盲集上获得了0.18的PLCMOS提升,在该数据集上实现了SOTA的性能。

论文预印版:https://arxiv.org/abs/2406.05961

Demo:https://zzhdzdz.github.io/BS-PLCNet2

码直通论文

NO.6  SCDNet: Self-supervised Learning Feature based Speaker Change Detection

作者列表:李越,王新升,张丽,谢磊

摘要:说话人转换检测 (SCD) 用于识别对话中说话人之间的边界。受 wav2vec 2.0 模型在 SCD 任务中微调成功的启发,本文进一步研究了 SCD 的自监督学习 (SSL) 特征。具体来说,我们提出了一个名为 SCDNet 的 SCD 模型。我们研究了各种最先进的 SSL 模型,包括 Hubert、wav2vec 2.0 和 WavLm。为了辨别 SSL 模型中对 SCD 最有效的层,我们采用了一种可学习的加权方法来分析中间表征的有效性。同时,我们还引入了一种基于微调的方法来进一步比较 SSL 模型在 SCD 任务中的特性。此外,我们还提出了一种对比学习方法来减轻基于微调的方法和 SCDNet 在训练中的过度拟合趋势。实验展示了 WavLm 在 SCD 任务中的优势,也证明了 SCDNet 的良好设计。

论文预印版:https://arxiv.org/abs/2406.08393

码直通论文

NO.7  AS-70: A Mandarin Stuttered Speech Dataset for Automatic Speech Recognition and Stuttering Event Detection

作者列表:龚嵘*,薛鸿飞*,王乐之,徐昕,李其声,谢磊,卜辉,吴少玫,周家名,秦勇,张彬彬,杜俊,宾佳,李明

合作单位:StammerTalk,希尔贝壳,AImpower,南开大学,WeNet开源社区,中国科学技术大学,昆山杜克大学

论文摘要:过去二十年来语音技术突飞猛进,在流利语音的自动语音识别(ASR)任务中取得了接近人类的水平。然而,当这些模型应用于非典型语音(如口吃)时,其效果却大打折扣。本文介绍的 AS-70 是首个公开的普通话口吃语音数据集,也是同类数据集中最大的一个。AS-70 包括对话和语音命令朗读语音,包括逐字人工转录的抄本,适用于各种语音相关任务的研究。此外,我们还建立了基准系统,并展示了 ASR 和口吃事件检测(SED)任务的实验结果。通过将该数据集纳入模型微调,可以观察到当前最先进的ASR模型(如 Whisper 和 Hubert)有了显著改善,从而增强了它们在处理口吃语音方面的包容性

论文预印版:https://arxiv.org/pdf/2406.07256

码直通论文

NO.8  DualVC 3: Leveraging Language Model Generated Pseudo Context for End-to-end Low Latency Streaming Voice Conversion

作者列表:宁子谦,王帅,朱鹏程,王智超,姚继珣,谢磊,毕梦霄

合作单位:网易,香港中文大学(深圳)

论文摘要:流式语音转换因其在实时应用中的潜力而越来越受欢迎。最近提出的 DualVC 2 实现了鲁棒、高质量的流语音转换,延迟时间约为 180 毫秒。然而,识别-合成框架无法端到端的优化,而流式 ASR 模型的不稳定性使得进一步降低延迟成为挑战。为解决这些问题,我们提出了端到端模型 DualVC 3。通过说话人无关的语义 token 来指导内容编码器的训练,消除了对 ASR 的依赖,模型可以在极小的chunk下运行,并消除了级联误差。此外,在内容编码器输出上训练语言模型,通过预测未来帧来生成伪上下文,为解码器提供更多上下文信息,从而提高转换质量。实验结果表明,DualVC 3 在主观和客观指标方面的性能与 DualVC 2 相当,延迟时间仅为 50 毫秒。

论文预印版:https://arxiv.org/abs/2406.07846v1

Demo: https://nzqian.github.io/dualvc3/

码直通论文

NO.9  Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training Strategy

作者列表马林涵,朱新发,吕元骏,王智超,王子谦,贺雯迪,周鸿斌,谢磊

合作单位:喜马拉雅

论文摘要:零样本语音转换旨在将源语音转换为任意未见过的目标说话人音色,同时保持语言内容不变。近来的语音转换方法取得了显著进展,但解耦过程中的语义损失,以及训练和推理之间的不匹配问题仍然阻碍了转换性能。本文提出了一种新颖的由 Vec-Tok Codec 改进而来的基于特征提示的零样本语音转换模型 Vec-Tok-VC+ ,只需3秒的目标说话人提示(Prompt)即可实现语音转换。我们设计了一个残差增强的 K-Means 量化解耦器,通过两层的聚类过程增强对语义内容的提取。此外,我们利用构建的教师模块来指导模型在训练中模拟推理时的转换过程,以消除训练和推理之间的不匹配,形成双模式训练策略。另外,我们设计了一个多码本渐进式的损失函数,对模型的逐层输出进行由粗到细粒度的约束,以提高说话人相似度和内容准确性。客观和主观评估表明,Vec-Tok-VC+ 在自然度、可懂度和说话人相似度方面均优于强基线模型。

论文预印版:https://arxiv.org/abs/2406.09844

Demo: https://ma-linhan.github.io/VecTokVC-Plus/

码直通论文

NO.10  WenetSpeech4TTS: A 12,800-hour Mandarin TTS Corpus for Large Speech Generation Model Benchmark

作者列表:马林涵 *,郭大可 *,宋堃,姜月鹏,王帅,薛浏蒙,许伟铭,赵欢,张彬彬,谢磊

合作单位:深圳大数据研究院,香港中文大学(深圳),WeNet开源社区,上海彼格镁隆技术有限公司

论文摘要:随着大型文本转语音 (TTS) 模型的发展和训练数据规模的扩大,最先进的 TTS 系统取得了令人印象深刻的性能。本文提出了 WenetSpeech4TTS,这是一个源自开源 WenetSpeech 数据集的多域普通话语料库。我们通过调整片段边界、增强音频质量以及消除存在多说话人的片段来改进 WenetSpeech,以适配TTS任务。经过更准确的转录操作和基于数据质量的过滤过程,获得了包含 12,800 小时成对的音频和文本数据的 WenetSpeech4TTS 语料库。此外,我们根据质量评估分数的不同等级划分出了不同大小的子集,以便进行 TTS 模型的训练与微调。我们在这些子集上训练和微调了 VALL-E 和 NaturalSpeech 2 系统,以验证 WenetSpeech4TTS 的可用性,同时为公平对比 TTS 系统的基准建立基线模型。WenetSpeech4TTS 语料库、对应的基准以及训练的模型权重均在 huggingface 上公开获取。

论文预印版:https://arxiv.org/abs/2406.05763

Huggingface link: https://huggingface.co/Wenetspeech4TTS/

Demo:https://wenetspeech4tts.github.io/wenetspeech4tts/

码直通论文

NO.11 Text-aware and Context-aware Expressive Audiobook Speech Synthesis

作者列表:郭大可 ,朱新发,薛浏蒙,张雍茂,田文杰,谢磊

合作单位:香港中文大学(深圳)

论文摘要:近年来,文本到语音技术(TTS)的进步显著提高了合成语音的表现力。然而,一个主要挑战是在不依赖手动标记数据或参考语音的情况下,生成能够捕捉到专业有声书播报人的多样化风格的语音。为此,我们提出了一种结合文本感知和上下文感知的风格建模方法(TACA),用于提升有声书语音合成的表现力。首先,我们在语音风格的监督下通过对比学习建立一个能够覆盖多样风格的文本感知风格空间。之后,我们采用上下文编码器结合跨句子信息和从文本获得的风格嵌入。最后,我们将这一上下文编码器应用到VITS和LM-TTS两种典型的TTS模型中。实验结果显示,我们提出的方法能有效捕捉多样化的风格和连贯的韵律,从而在有声书语音合成中提升语音自然度和表现力。

论文预印版:https://arxiv.org/abs/2406.05672

合成样例:https://dukguo.github.io/TACA-TTS

码直通论文

NO.12  Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech Units: A Pilot Study

作者列表:陈培坤,孙思宁,单长浩,杨青,谢磊

合作单位:度小满

论文摘要:统一的语音-文本模型,如SpeechGPT、VioLA和AudioPaLM,在各种与语音相关的任务中表现出了令人印象深刻的表现,尤其是在自动语音识别(ASR)方面。这些模型通常采用统一的方法来建模离散的语音和文本符号,然后训练一个仅包含解码器的Transformer。然而,它们都是为非流式ASR任务设计的,在解码过程中需要整个语句。因此,我们引入了一个专门为流式识别设计的仅包含解码器的模型,并引入了一个专用的边界符号以促进流式识别,并在训练阶段使用因果注意力掩码。此外,我们引入了右块注意力和各种数据增强技术来提高模型的上下文建模能力。在AISHELL-1和-2数据集上的实验表明,在实现流式语音识别的同时,我们的流式方法在性能上与非流式解码器的对照方法相当。

NO.13  A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition

作者列表:李泱泽,王雄,曹松军,张一珂,马龙,谢磊

合作单位:腾讯

论文摘要:Audio-LLM将音频模态引入到大型语言模型(LLM)中,使得强大的LLM能够识别、理解和生成音频。然而,在嘈杂环境下的语音识别过程中,我们观察到Audio-LLM存在幻听和重复问题,导致引入额外的替换和插入错误。本文提出了一种基于转录提示的Audio-LLM方法,通过引入ASR专家作为转录生成器和混合自回归(AR)非自回归(NAR)解码方法来解决上述问题。在1万小时WenetSpeech普通话语料库上的实验结果显示,与基准模型相比,我们的方法在Test_Net和Test_Meeting评估集上相对降低了12.2%和9.6%的字符错误率(CER)。值得注意的是,我们将评估集上的解码重复率降低到了零,表明解码重复问题得到有效解决。

NO.14  Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper

作者列表:徐天翼,黄凯勋,郭鹏程,周瑜,黄龙涛,薛晖,谢磊

合作单位:阿里巴巴

论文摘要:以Whisper为代表的预训练的多语言语音识别模型已经达到了很好的效果。但在将这些模型迁移到新的特定语上需要消耗大量算力并且有灾难性遗忘的问题。为解决这两个问题,我们探究了保持原有语种的性能的同时,进行新语种微调的策略。特别地,为了减少训练所需算力,我们的研究首先对比了多种基于LoRA(Low Rank Adaptation)的PEFT(Parameter Efficenet Finetuning)方法的效果,以及它们各自受的灾难性遗忘现象影响的程度。为了解决灾难性遗忘问题,我们利用原始模型的LoRA参数来对新的样本进行正交梯度下降优化。同时,我们还引入了一个 可学习的秩系数来提升训练效率。我们的实验在一个用中文微调的Whisper模型上对维吾尔语和藏语进行迁移,以更小的参数量获得了更好的性能。


敬请大家关注实验室公众号的后续更新,将对相关论文进行详细解读。





欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章