ICASSP2025丨人类语言技术实验室(HLT Lab)10篇录用论文分享

文摘   2024-12-24 18:14   北京  
近日,2025年IEEE声学、语音与信号处理国际会议(2025 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2025),发布了审稿结果。南开大学计算机学院人类语言技术实验室(HLT Lab)共10篇论文被会议接收,论文方向涵盖语音识别情感识别音频隐私保护音频编辑音乐质量自动评估虚拟现实持续学习等。

        论文介绍        

01

Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores

作者列表:周家名,赵石顽,王卉,张天昊,孙浩钦,王雪琛,秦勇

论文方向:语音识别

内容简介:

kNN-CTC 模型已被证明在自动语音识别(ASR)任务中具有良好的效果。然而,直接将其应用于多语言场景(如code-switching),即使用单个双语数据存储的 kNN-CTC 模型可能会无意间引入来自另一种语种的噪声。为了解决这一问题,我们提出了一种基于 kNN-CTC 的code-switching ASR(CS-ASR)框架,该框架采用两个单语数据存储和门控数据存储选择机制,以降低噪声干扰。我们的方法在解码每一帧时选择合适的数据存储,确保为 ASR 过程注入特定语种的信息。我们将该框架应用于先进的基于 CTC 的模型。大量实验表明,门控机制在提升零样本中英混合 ASR 性能方面具有显著的效果。


论文链接:https://arxiv.org/abs/2406.03814

02

M2R-Whisper: Multi-stage and Multi-scale Retrieval Augmentation for Enhancing Whisper

作者列表:周家名,赵石顽,贺佳贝,王卉,曾文佳,陈勇,孙浩钦,孔奥博,秦勇

论文方向:语音识别

内容简介:

当前最先进的ASR模型如 OpenAI 的 Whisper 在多语种自动语音识别(ASR)中表现出色,但在识别多样化的方言时仍面临挑战。本文提出了 M2R-Whisper,一种面向低资源场景的多阶段、多尺度检索增强方法。该方法结合上下文学习(ICL)和检索增强技术,在前处理阶段采用sentence-level ICL 利用上下文信息,在后处理阶段引入基于 kNN 的toke-level检索增强以优化输出分布。通过sentence-level与toke-level检索的协同作用,M2R-Whisper 有效降低了识别错误。实验在 AISHELL-1 和 KeSpeech 等普通话及方言数据集上表明,该方法在无需参数更新的情况下显著提升了 ASR 准确率。


论文链接:https://arxiv.org/abs/2409.11889

03

Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment

作者列表:王雪琛,赵石顽,孙浩钦,王卉,周家名,秦勇

论文方向:多模态情感识别

内容简介:

多模态情感识别已成为人机交互中的一个关键领域,特征对齐是否有效会极大程度影响多模态情感识别的结果。大多数现有的方法采用单一的对齐策略,这不仅限制了模型的性能,而且未能解决情感信息中固有的复杂性和模糊性。为此,本文介绍了一个多粒度跨模式对齐(MGCMA)框架,它包含了分布级别、实例级别和token级别的对齐模块。这个框架实现了对于多模态情感信息的多层次感知,在IEMOCAP数据集上,我们验证了方法的有效性。

04

Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework

作者列表:孙浩钦,赵石顽,李绍凯,孔祥裕,王雪琛,孔奥博,周家名,陈勇,曾文佳,秦勇

论文方向:多模态情感识别

内容简介:

多模态情感识别系统在很大程度上依赖于完整的模态数据,当模态数据不完整时,系统性能就会明显下降。为了解决这个问题,我们提出了跨模态对齐、重构和完善(CM-ARR)框架,它依次进行跨模态对齐、重构和完善阶段,以处理缺失的模态并提高情感识别能力。该框架利用基于分布的无监督对比学习来对齐异构模态分布,从而减少差异并有效地模拟语义的不确定性。重建阶段应用归一化流模型来转换这些对齐的分布,并恢复缺失的模态。细化阶段采用基于点的有监督对比学习来破坏语义相关性并突出情感特征,从而丰富重建表征的情感内容。在IEMOCAP和MSP-IMPROV数据集上进行的大量实验证实了CM-ARR在模态缺失和模态完整的情况下均表现出色。值得注意的是,在缺失模态的六种情况下,CM-ARR 在IEMOCAP数据集上的WAR和UAR绝对值分别提高了2.11%和2.12%,在MSP-IMPROV数据集上的WAR和UAR绝对值分别提高了1.71%和1.96%。


论文链接:https://arxiv.org/pdf/2407.09029

05

Emotion-Preserving Prosody Anonymization Network for Voice Privacy Protection

作者列表:贺佳贝、赵石顽、周家明、孙浩钦、王卉、秦勇

论文方向:说话人识别、音频隐私保护

内容简介:

文章致力于解决语音匿名化中情感与隐私平衡的难题。随着人工智能生成内容的兴起,语音隐私受威胁,语音匿名化成为关键。现有方法难以兼顾情感与隐私,如部分方案在隐私保护或情感表达上存在缺陷。

本文提出基于条件变分自编码器的EPPA网络,能提取说话人无关韵律特征,转换风格实现匿名化。结合音色克隆的双重匿名化框架,可有效保留原始语音情感和内容特征,防止说话人信息泄露。经在IEMOCAP和LibriSpeech数据集上的测试,该框架在情感表达、内容清晰度和隐私保护方面的综合表现显著优于VPC2024的所有基线系统,为语音匿名化技术发展提供了新方向。

06

MusicEval: A Generative Music Dataset with Expert Ratings for Automatic Text-to-Music Evaluation

作者列表:刘成,王卉,赵菁华,赵石顽,卜辉,徐昕,周家名,孙浩钦,秦勇

论文方向:音乐质量自动评估

内容简介:

从文本描述生成音乐(Text-To-Music,TTM)的技术取得了快速发展。然而,评估TTM 系统仍然是一项重大挑战,主要是因为使用现有的主观评估和客观评估的方法难以平衡评估的成本和性能。在本文中,我们提出了 TTM 模型自动评估任务,以与人类感知对齐。为了解决由音乐评估的专业要求和文本与音乐之间关系的复杂性带来的 TTM 评估挑战,我们收集了MusicEval数据集,这是第一个生成音乐的评估数据集 。该数据集包含来自31个先进且广泛使用的生成模型针对384个文本提示生成的 2,748 个音乐片段,以及来自 14 位音乐领域专家的 13,740 个评分。此外,我们基于该数据集和CLAP模型设计了一个基线系统,我们的实验结果验证了提出任务的可行性,为 TTM 评估的未来发展提供了有价值的参考。

07

AudioEditor: A Training-Free Diffusion-Based Audio Editing Framework

作者列表:贾宇航、陈杨、赵菁华、赵石顽、曾文佳、陈勇、秦勇

论文方向:音频编辑

内容简介:

本论文提出了一种基于扩散模型反演的音频编辑框架——AudioEditor。该框架通过结合Null-text Inversion和EOT-suppression等图像编辑技术,实现了高效且精确的音频编辑,同时有效保留未编辑部分的音频质量。AudioEditor无需额外的训练数据,而是利用现有的预训练音频生成模型,在无需重新训练的前提下完成精细的音频编辑。实验结果表明,AudioEditor在多个音频编辑任务中表现出显著的性能提升,展示了扩散模型反演技术在音频编辑领域的巨大潜力。

08

Enhancing Continual Learning for Medical Imaging:  Efficient Knowledge Transfer and Multi-Disease Prediction

作者列表:王恩志,李起成,刘迪,杨博

论文方向:医学影像中的持续学习

内容简介:

深度学习模型在医学疾病检测中展现出巨大的潜力,但往往需要大量的标注数据进行训练,这在医学领域是非常稀缺和昂贵的。迁移学习技术可以有效利用大规模源域的知识,但直接微调这些模型会导致灾难性遗忘,使其无法应用于新出现的疾病。现有的持续学习方法可以缓解灾难性遗忘问题,但无法支持高效的知识迁移,并且使用互斥的分类器,这不利于医学影像中的多病种预测。为了解决这些问题,本文提出了一种基于Class-Specific Adapter的持续学习多病种预测框架。该框架使用独立的适配器来建模每种疾病,支持多病种预测和特征整合。此外,还引入了一种基于自注意力的两阶段知识整合方法,该方法将来自先前任务的特性进行拼接,并计算注意力分数,从而有效地利用历史知识。实验结果表明,本文提出的框架有效地支持了多病种预测和知识迁移,并验证了基于自注意力的方法的有效性,为医学疾病检测提供了强大的支持。

09

Non-Pharmacological Interventions: A Virtual Training Framework for Fine Motor Learning 

作者列表:董晓航,李起成

论文方向:人机交互、虚拟现实

内容简介:

本文提出了一种利用手势操作来提高用户手部运动技能的虚拟运动训练系统。该系统利用虚拟现实设备提供了比传统的物理康复更沉浸式和体验式的训练方法。该系统的易用性、灵活性和娱乐价值等关键性能指标受到参与者的高度评价。实验结果表明,该方式在改善手部功能方面的效果优于传统的康复方法对于手部运动协调能力产生了良好的训练效果。

10

kNN-CL:Enhancing Continual Learning with Nearest Neighbor Retrieval

作者列表:王恩志、李起成、陈昊、孙瑞琦、周欣

论文方向:持续学习

内容简介:

持续学习的目标是顺序学习新任务而不忘记之前获得的知识。然而,灾难性遗忘仍然是一个重大挑战。在本文中,我们引入了 kNN-CL,一种简单而有效的方法,它利用 k-最近邻 (kNN) 来减轻持续学习中的遗忘。具体来说,kNN-CL 从之前的任务中识别出 k 个最相似的实例(键值对)来细化模型预测,使模型能够适应给定测试实例的相关任务。值得注意的是,kNN-CL 可以以即插即用的方式无缝集成到现有的持续学习框架中,而无需任何额外的训练。现代深度神经网络在各种任务上都取得了显著的进展。然而,它们在处理顺序数据流时遇到了困难。由于这些网络重新校准其参数以同化新数据,它们无意中损害了之前获得的知识,导致了一个被称为灾难性遗忘的问题。实验结果表明,kNN-CL显着提高了准确率,证明了 kNN-CL 在减轻灾难性遗忘方面的有效性。


永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区

语音之家
助力AI语音开发者的社区
 最新文章