近日,ICASSP
2025会议发出了审稿结果通知,语音及语言信息处理国家工程研究中心多篇论文被会议接收,论文方向涵盖语音识别、语音合成、话者识别、语音增强、情感识别、声音事件检测等。
以下是26篇论文的介绍及分享:
Incremental
Disentanglement for Environment-Aware Zero-Shot Text-to-Speech
Synthesis本论文提出了一种基于渐进式表征解耦的声学环境感知零样本语音合成方法,IDEA-TTS,能够在给定话者参考语音和声学环境参考语音的情况下,合成具有目标声学环境特征的个性化语音。IDEA-TTS采用多话者TTS模型VITS作为核心网络。为了有效解耦声学环境、话者和文本信息,我们提出了一种渐进式解耦策略。具体而言,首先通过声学环境估计器将声学环境的线性谱分解为环境掩膜和增强线性谱。接着,环境掩膜通过声学环境编码器提取声学环境嵌入,而增强线性谱则与通过预训练声学环境鲁棒话者编码器从声学环境语音中提取的话者嵌入共同输入后验编码器,从而进一步解耦话者和文本信息。最终,声学环境嵌入、话者嵌入以及文本特征一同输入解码器,用于生成环境感知语音。实验结果表明,IDEA-TTS在声学环境鲁棒TTS和声学环境感知TTS任务中均表现优异,合成语音的质量、话者相似度和声学环境相似度均显著优于现有的并行解耦方法。此外,IDEA-TTS还能够实现声学环境转换任务,并且在性能上超越了当前最先进的方法。
Demo语音网页:https://yxlu-0102.github.io/IDEA-TTS
Self-supervised
Prosody Learning at Phoneme-level with Momentum Contrast for Speech
Synthesis本文研究了如何利用大规模语音数据来增强语音合成中的韵律建模,并介绍了一种名为SP2MC(Self-supervised
Prosody Learning at Phoneme-level with Momentum
Contrast)的模型,该模型通过动量对比(Momentum
Contrast)策略实现了音素级的自监督韵律学习。该模型包含两个卷积编码器分别用于处理语音和线性预测编码(LPC)残差输入,以生成音素级嵌入向量,这些嵌入向量经掩码处理后再由Transformer模型进行处理,从而生成韵律表征。本文采用了两个监督模块,以便从语音波形和残差中生成音素级监督信息,并利用动量对比策略来选择对比学习中的负样本。最后,本文将SP2MC表征集成到一个基于FastSpeech2和PnGBERT的声学模型中用于语音合成。实验结果表明,通过所提方法合成的语音的自然度明显优于基线方法合成语音的自然度。
Demo语音网页:https://ttsbylzc.github.io/SP2MC/(或扫描下方二维码)
Anchored Monotonic Alignment and Representation Substitution for Rare
Spontaneous Behaviors in Spontaneous Speech Synthesis口语现象是口语化语音中的一大挑战。目前,口语化语音合成领域对口语现象的探索与处理仍显不足,大多数研究依赖于专门设计并录制的数据。而真实世界的数据往往更能反映日常生活中自然、逼真的口语风格,且包含更丰富的口语现象。然而,这类数据通常不具备录音室级的质量,并且不同口语现象的出现频率高度不均衡。本研究基于VITS2框架,利用真实世界的口语语音数据开展口语化语音合成。在训练阶段,为了有效处理稀有的口语现象,本研究提出了锚定单调对齐方法,它将标注的稀有口语现象位置作为锚点,改进了VITS2原始的对齐策略。在合成阶段,本研究设计了口语现象隐层特征替换的机制,实现了口语现象的语音转换与拼接合成。实验结果表明,这些方法不仅提升了模型的对齐性能,解决了稀有口语现象难以合成的问题,还显著增强了合成语音的自然度。Demo语音网页:https://nqwu.github.io/spon/
CASC-XVC:
Zero-Shot Cross-Lingual Voice Conversion with Content Accordant and
Speaker Contrastive Losses作者:郭瀚杰,杜荟鹏,盛峥彦,陈丽萍,艾杨,凌震华 跨语言话者转换是一项在目标、源话者说不同语言的情况下,仅改变源话者的话者信息,保持其内容信息不变的语音合成技术。先前研究主要采用常规的零资源话者转换方法,利用预训练的音素后验图(phonetic
posterior grams, PPGs) 特征或变分自编码器(variational
auto-encoder, VAE)架构解耦话者和内容信息,但受限于语种相关性和特殊瓶颈设计,在跨语言情境下效果不佳。因此,本研究针对跨语言话者转换特性,从内容和话者两个方面出发,提出了一种结合内容一致(content
accordant, CA) 和话者对比(speaker
contrastive, SC)损失的跨语言话者转换方法,并利用不同语言的语料进行跨语言微调以更新模型。一方面约束内容编码器对转换前后的语音产生一致的分布,保留了源话者的内容。另一方面引入话者对比损失,减少语言变化对话者编码的影响,从而减轻了转换语音中由于语言不同带来的口音。此外还使用多语言自监督表征代替PPGs,减少了对标注数据的依赖。主、客观实验均表明,所提方法在自然度和话者相似程度等指标上均优于基线方法。
论文资源:语音样例https://hjguo01.github.io/CASC-XVC/
Projection
Valued-based Quantum Machine Learning Adapting to Differential
Privacy Algorithm for Word-level Lipreading作者:陈航,王昶,杜俊,Chao-Han
Huck Yang,祁均 视觉语音识别(VSR)旨在通过分析仅来自说话人嘴部和面部的视觉信息来识别口述的单词,而不依赖任何音频线索。这一技术也被称为唇读,可在嘈杂环境或静音交流等音频不可用或不可靠的场景中发挥重要作用。我们在本研究中尝试将量子机器学习(QML)方法应用于单词级VSR。具体而言,我们构建了一种混合量子-经典的网络架构,以解决传统深度学习方法的两个潜在问题:(1)代表性特征提取;以及(2)隐私保护。与传统机器学习相比,QML的潜在优势源自量子比特的独特性质:叠加性和纠缠性。首先,叠加性意味着量子比特(量子计算机的基本单元)可以同时存在于多个状态(与只能表示0或1的经典比特不同)。这使得QML算法能够同时探索大量可能性,从而为语音处理提供更快速高效的解决方案。尽管目前在许多常见任务中,经典方法更为高效,但QML在高效表示复杂数据和更好地保护数据隐私方面具有潜力。因此,在本研究中,我们重点研究通过QML算法实现多分类的单词级视觉语音识别(VSR)。具体而言,我们设计了一种投影值编码(PVE)和投影值测量(PVM),通过量子电路将经典数据转换为量子数据。我们提出的PVE和PVM分别从正算子值编码(POVE)和正算子值测量(POVM)发展而来,使QML模型能够处理维度为2n的数据输入和输出,这显著增强了量子电路的表达能力。尤其是,我们利用基于量子电路的PVE和PVM超越了经典深度学习方法。此外,我们通过引入差分隐私算法(即差分隐私随机梯度下降算法,DP-SGD),验证了QML在VSR任务中的卓越隐私保护性能。
Multi-modal
Streaming ASR in Cross-talk Scenario for Smart Glasses在CHiME-8挑战赛的MMCSG任务中,如何在低资源的多模态数据条件下同时实现实时说话人的日志和转录是一项重大的挑战。为了应对这一问题,我们提出了一种新颖的自动语音识别ASR框架,该框架能够流式处理纯音频和多模态输入。首先,针对纯音频模态,我们通过分析和模拟真实音频的特征,利用多通道仿真技术生成具有多混叠率、多信噪比的增强数据集,从而有效减少真实数据和模拟数据之间的模型训练偏差。此外,我们还在网络结构中融合惯性测量单元(Inertial
Measurement
Unit,IMU)数据和音频数据以搭建多模态流式ASR框架,实验证明,经过频域高通滤波和编码的IMU数据可以辅助音频模态信息使得模型获得更好的实时语音识别性能。在比赛中,基于上述方案的探索,我们获得了挑战赛子赛道的第一名,同时,我们也是首个系统性地探讨融合IMU数据完成这一任务的可行性和有效性的团队。
Phoneme-Level
Contrastive Learning for User-Defined Keyword Spotting with Flexible
Enrollment用户定义的关键词检测(User-defined
keyword spotting,
KWS)通过允许用户自定义关键词唤醒来增强用户体验。然而,在开放词汇场景中,大多数现有方法通常会因容易混淆的词而产生较高的误报率,并且仅限于音频或文本单一注册方式。因此,本文提出了音素级对比学习(Phoneme-Level
Contrastive Learning,
PLCL),该方法在音素级别上对注册词和输入音频表示进行细化对齐。该方法通过细粒度的正负样本比较,从而实现了更准确的对齐,并且能够实现语音注册,文本注册和语音文本同时注册的不同注册方式。此外,我们维护了一个上下文无关的音素记忆库,用于构建混淆负样本进行数据增强。基于此,特别设计了一个第三类判别器,用于区分困难负样本。总体而言,我们开发了一个鲁棒且灵活的KWS系统,支持在统一框架下使用不同的模态注册方法。通过在LibriPhrase数据集上的验证,所提出的方法达到了最先进的性能。
Large Language Models Are Efficient Learners as Zero-Shot Speech
Translators作者:刘晨璇,陈丽萍*,唐培旺,张为泰,李小喜,Sreyan
Ghosh,叶忠义,余铭佳 单位:中国科学技术大学,科大讯飞股份有限公司,马里兰大学,中国计量大学近期用结合语音基础模型(Speech
Foundation Models, SFM)和大语言模型(Large
Language Models, LLM)的方式处理语音翻译(Speech-to-Text
Translation,
ST)任务方面取得了显著进展。然而,对大语言模型进行微调以推进特定的下游任务需要大量的训练资源,因此往往不可行。本文提出使用基于大模型思维链(Chain-of-Thought,
CoT)的方法来对自动语音识别结果进行错误校正,然后再将其翻译成目标语言。这种方法以一种轻量的方式融合了SFM和LLM,无需微调大语言模型、或用大量的平行语料库投入训练。此外,我们提出了翻译图思维链(Translation
Graph CoT,
TGCoT)的方法,让大模型进行迭代反馈和回译。当大模型检测到错误时可以进行自我检查,有效减少多步CoT推理过程中的错误累积,从而提高翻译准确性。结果表明,本文所提出的方法具有鲁棒性和优越性,更好地开发和应用了LLM的能力,并以最少的资源适应下游ST任务。
Adversarial Speech-Text Pre-Training for Speech Translation作者:刘晨璇,陈丽萍*,张为泰,李小喜,唐培旺,余铭佳,Sreyan
Ghosh,叶忠义 单位:中国科学技术大学,科大讯飞股份有限公司,中国计量大学,马里兰大学大规模的预训练已被证明可用于语音翻译任务。然而现有的多模态预训练工作依赖于平行语料库进行语义对齐,因此训练性能受限于可用数据的规模,导致数据不平衡。本文针对语音翻译任务提出了一种对抗性语音-文本预训练(Adversarial
Speech-text pre-Training,
AST)方案,调整语音和文本模态的特征分布,而非基于平行语料库强制进行语义对齐。具体来说,该方案引入了双流机制,通过语音、文本和共享编码器来链接语音和文本模态。此外,我们设计了一种对抗性桥接方法,专注于语音和文本特征分布之间的差异。该方法使用鉴别器和隐层级特征单元替换策略来强调语音表示中的语义信息,因此不受平行语料库规模的限制。我们将AST应用于端到端的语音翻译和大语言模型架构。在IWSLT测试集上的实验结果表明,AST提高了语音翻译模型的性能,并且可与大语言模型兼容。Bridging Modality Gap with Large Speech and Language Models for
End-to-End Speech-to-Text Translation作者:张为泰,Simran
Naagar,叶忠义,唐培旺,周心远,刘俊华,戴礼荣 本文提出了一种基于预训练的语音和语言模型构建的端到端语音翻译模型架构LaSaLM-ST,用以改进语音到文本的翻译效果。具体地,语音编码器首先对源语音序列进行处理,随后通过一个适配器和语音解码器将语音特征投射到大语言模型(LLM)的特征空间中,大语言模型再通过多模态注意力交互来对齐语音和文本模态的表示空间。在此基础上,本文利用了一种多步微调的训练方法以保留预训练阶段的多语言知识,并在端到端模型训练的过程中保持稳定。在国际口语翻译研讨会(IWSLT2023)离线语音到文本翻译的实验表明,我们的方法取得了当前最优的BLEU效果,并且在无资源限制场景下优于级联的语音到文本翻译系统。
Semi-Supervised Multilingual Alignment with Lexical Memory for
Massively Parallel Text Mining作者:张为泰,唐培旺,林超,Simran
Naagar,叶忠义,刘俊华 本文提出了一种基于双语知识词典的半监督多语言对齐算法,旨在从海量单语文本中提取高质量的平行文本,以提升低资源和零资源语言的机器翻译效果。在获取和处理海量小语种单语文本之后,我们设计了两阶段的训练方案来学习语言无关的句子嵌入表示:首先是基于词汇知识增强的预训练得到Pretrain模型,然后在一个最小规模的平行数据上利用对比损失进行有监督微调。此外,我们还通过采用一种迭代训练方法来提升模型的性能,该方法同时利用了挖掘到的数据以及人工合成扩充的数据。各种下游任务展示了我们的方法创建高质量平行文本的能力,并且在零资源和低资源场景下能够超越以往最先进的有监督方法。
PNP-RKD:
A Positive-Negative Pair based Relational Knowledge Distillation
Method for Cross-Domain Speaker Verification作者:顾庆、宋彦、江南、蔡鹏飞、Ian
McLoughlin 现有的说话人验证(SV)方法在域偏移条件下会面临性能下降的问题,无监督域适应(UDA)技术是通常用以缓解这一问题的手段。多数UDA方法都能够提升跨域的全局统计一致性,但其过程中可能会忽略或错误对齐判别性信息。为了解决这一挑战,我们提出了PNP-RKD,一种基于正负样本对的关系知识蒸馏方法,利用多任务学习框架同时处理源域和目标域中的正负样本对。为支持PNP-RKD,我们在源域和目标域中分别设计了两个辅助任务。在带标签的源域中,采用监督学习的方式进行嵌入表征学习,为模型提供稳健的先验知识基础;而对于无标签的目标域,我们采用基于交换预测的原型级对比学习方法,提高目标域表征的噪声鲁棒性以及码本的质量,使目标域的正负样本对采样更加可靠。我们在NIST
SRE16和SRE18基准上验证了提出方法的可靠性。
Aligning
Noisy-Clean Speech Pairs at Feature and Embedding Levels for Learning
Noise-Invariant Speaker Representations作者:李作亮,艾杨,张结,彭圣宇,管煜,古斌,郭武 在本文中,我们提出了一种噪声不变性的说话人表征学习(SRL)方法,通过在特征和嵌入级别对齐噪声-干净语音对以进行模型训练。具体来说,我们首先在训练期间使用数据增强构建噪声-干净对。然后,基于Conformer的增强模块处理噪声特征。通过最小化增强数据和原始干净数据之间的均方误差来实现特征级对齐。在嵌入级别,我们引入了具有噪声自适应间隔的监督对比学习损失,以同时增强说话人内紧凑性和说话人间可分离性并更好地适应不同的噪声水平,结合Barlow
Twins 自监督损失来对齐噪声-干净数据对并减少嵌入空间中的噪声冗余。最后,将这些损失组件与传统分类损失相结合以训练SRL网络。在各种合成噪声源的VoxCeleb1测试集上的实验结果证明了所提方法的有效性。
A
Study of Multi-Scale Feature Learning From Pre-Trained Models on
Speaker Verification作者:彭圣宇,郭武,张结,李作亮,管煜,古斌,艾杨 本文提出了一种多尺度特征融合范式,旨在充分发挥预训练模型在文本无关说话人验证任务上的潜力。模型框架由多尺度特征提取器和级联的增强型ECAPA-TDNN后端组成。特征提取器结合预训练模型CNN层的局部表征以及Transformer层的全局线索,从而构建多尺度的判别表征。特征提取器的输出送入到增强型ECAPA-TDNN后端以获取最终的说话人embedding。实验结果表明,该框架在VoxCeleb数据集上的性能优越,基于base和large的预训练模型在Vox1-O测试集上的EER分别达到了0.633%和0.457%。
Incorporating
Spatial Cues in Modular Speaker Diarization for Multi-channel
Multi-party Meetings作者:王若愚,牛树同,杨高斌,杜俊,钱双庆,高天,潘嘉 尽管完全端到端的说话人日志系统近年来取得了显著进展,但模块化系统由于其更强的适应性和鲁棒性,在实际场景中往往表现出更优的效果。然而,传统的模块化说话人日志方法很少讨论如何利用多通道语音的空间线索。本论文提出了一种三阶段模块化系统,通过利用多通道语音的空间线索提升单通道神经说话人日志系统的性能和识别效果。具体而言,我们的系统通过以下步骤为每个阶段的神经说话人日志(neural
speaker diarization,NSD)解码提供更精确的初始化:对多通道语音进行重叠检测和连续语音分离(continuous
speech
separation,CSS),以获得更干净的单说话人语音片段用于聚类,然后执行第一轮NSD解码。第一轮解码的结果初始化复杂的角度中心高斯混合模型(complex
Angular Central Gaussian Mixture
Model,cACGMM),以估计多通道语音中按说话人划分的掩模,通过重叠相加(Overlap-add)和掩模转语音活动检测(Mask-to-VAD)获得更低说话人错误率(SpkErr)的初始化,然后进行第二轮NSD解码。第二轮解码结果用于引导源分离(guided
source
separation,GSS),识别并过滤少于一个词的短语音片段,以获得更干净的语音片段,随后重新聚类并执行最终的NSD解码。我们在CHiME-8
NOTSOFAR-1(Natural
Office Talkers in Settings Of Far-field Audio
Recordings,自然办公对话远场音频记录设置)挑战中展示了逐步探索的评估结果,证明了我们系统的有效性及其对提升识别性能的贡献。我们的最终系统在该挑战中获得了第一名的成绩。
Recursive
Feature Learning from Pre-Trained Models for Spoofing Speech
Detection近年来,人们发现进行欺骗语音检测时,相比使用传统的手工制作的声学特征,使用从预训练模型提取的特征可以获得更好的性能。因此在本文中,我们提出了一种基于递归学习的方法来增强预训练模型提出的特征。具体来说,我们将顶层的transformer层的输出递归式的输入到底层的transformer层,并把从底层得到的递归特征与最上层的特征融合在一起。之后融合后的特征被输入到后端分类器中。在两个基准数据集(即ASVspoof
2019 LA和Asvspoof2021
LA)上进行了实验,实验结果显示了我们所提出的方法的优越性。
A Lightweight and Real-Time Binaural Speech Enhancement Model with
Spatial Cues Preservation双耳语音增强(BSE)旨在联合提高助听设备接收到的嘈杂信号的语音质量和可懂度,同时保留目标声音的空间线索以实现自然聆听。现有方法通常在噪声抑制(NR)能力和空间线索保留(SCP)准确性之间存在折衷,并且在复杂声学场景中计算需求较高。在本研究中,我们提出了一种基于学习的轻量级双耳复数卷积网络(LBCCN),该网络通过滤除低频段并保留其余部分,在噪声抑制方面表现出色。此外,我们的方法明确结合了通道间相对声学传递函数的估计,以确保空间线索的保真度和语音清晰度。结果表明,在说话人方向确定的前提下,所提出的LBCCN能够以更低的计算成本实现与当前最先进方法相当的噪声抑制性能。
代码与音频示例:https://github.com/jywanng/LBCCN
Leveraging Boolean Directivity Embedding for Binaural Target Speaker
Extraction作者:汪意迟,张结,蒋承乾,张为泰,叶忠义,戴礼荣 当考虑双耳场景中的基于到达方向(Direction
of Arrival, DOA)的目标说话人提取(Target
Speaker Extraction,
TSE)时,有几个关键因素需要考量。首先,在双耳设置中,由于麦克风阵列数量较小且间距未知,如何有效利用方向线索对TSE性能有着重要影响。其次,还需解决DOA特征与混合音频信号之间存在的粒度不匹配问题。为此,本文提出了一种新的双耳目标说话人提取方法。首先提出一种新的时频域特征——布尔方向编码(Boolean
Directivity
Embedding,BDE),用于在双耳环境中精确锁定目标说话人,而无需依赖特定的麦克风阵列配置。其次,设计了一种简单有效的编码器,可以准确地将BDE与混合音频信号对齐以实现特征融合。考虑到布尔表示可能缺乏足够的空间和时间信息,我们通过将其与多通道时空特征结合,来提高兼容性并增强目标说话人提取的能力。此外,还可以通过逐帧修改BDE和多通道时空特征,来适应目标说话人的切换和移动情况。实验结果表明,该方法在静止和动态场景下均能取得良好效果。
代码与音频示例:https://github.com/ichi131/Direction-based-BiTSE
Learning-Based Utility Estimation with Application to Speech
Enhancement of a Moving Speaker本文提出了一种麦克风效用估计模型,实时选择无线声学传感网络(WASN)中麦克风子集用于移动声源语音增强任务。相比传统仅适用于静态语音源的方法,本文模型通过结合预训练的wav2vec2.0模型提取时域语音特征,并结合离散傅里叶变换(DFT)幅值,构建了基于深度学习的麦克风效用评估框架。该框架通过时间变化的效用评估实现麦克风子集的动态优化选择,有效提升了动态语音增强的性能。实验结果表明,该方法在效用估计的Pearson相关系数(PCC)和语音增强效果方面显著优于现有方法,在降低计算负载的同时,实现了移动语音场景下的能效优化,为无线声学传感网络的进一步应用提供了新方向。
LiSenNet:
Lightweight Sub-band and Dual-Path Modeling for Real-Time Speech
Enhancement本文提出了一种名为LiSenNet的轻量级语音增强网络,针对现有语音增强模型在低资源设备和实时应用中的计算复杂度高、资源需求大的问题,提供了一种高效的解决方案。该模型采用子带下采样和上采样模块,优先保留低频分辨率以确保人耳感知的关键特征,同时压缩高频特征以降低计算负担。此外,双路径递归模块(DPR)被用于建模时间和频率之间的依赖关系,显著提升了语音信号建模能力。为了优化相位重构效果,LiSenNet结合了Griffin-Lim算法,细化带噪语音相位以提高感知音质。模型还创新性地引入了噪声检测器模块,该模块能够动态检测语音中的噪声片段,仅对含噪部分进行增强处理,从而进一步降低了计算资源的消耗。实验结果表明,LiSenNet在多个数据集上均表现优异,以极低的资源消耗取得了有竞争力的语音增强效果。在引入噪声检测器后,LiSenNet在低噪声比例场景下的计算复杂度可进一步降低,为实时语音增强的低资源设备部署提供了新的可能性。
代码与音频示例:https://github.com/hyyan2k/LiSenNet
Geometry-Constrained
EEG Channel Selection for Brain-Assisted Speech Enhancement脑辅助的语音增强(Brain-Assisted
Speech
Enhancement,BASE)旨在利用脑电图(Electroencephalogram,EEG)信号作为辅助模态,从复杂的多说话者场景中提取目标说话者的语音,因为听者的听觉注意力可以从脑部电神经信号中解码。这为将EEG电极与听力设备集成以提高听力受损用户的语音可懂度提供了可能性,最近提出的BASEN(Brain-Assisted
Speech Enhancement
Network)模型已经证明了这一点。由于多通道EEG信号通常高度相关,其中一些信号甚至与聆听无关,盲目地引入所有EEG通道会导致高经济成本和计算成本。因此,在本研究中,我们提出了一种几何约束的EEG通道选择方法用于BASE。我们设计了一种新的加权多膨胀时间卷积网络(Weighted
Multi-Dilation Temporal Convolutional
Network,WD-TCN)作为主干网络,替代BASEN中的Conv-TasNet。在定义了适合集成的电极几何结构的原始通道集合后,我们提出了一种用于WD-TCN的几何约束卷积正则选择(Geometry-Constrained
Convolutional Regularization
Selection,GC-ConvRS)模块,以筛选出信息量高的EEG子集。基于公共数据集的实验结果表明,所提出的WD-TCN优于BASEN。GC-ConvRS模块能够进一步优化在几何约束条件下的有用EEG子集,从而实现性能与集成成本之间的更佳平衡。
Enhancing Multimodal Sentiment Analysis for Missing Modality through
Self-Distillation and Unified Modality Cross-Attention本文提出了一种多模态情感分析任务下应对文本模态缺失问题的双流自蒸馏框架,通过结合统一模态跨注意力机制(UMCA)和模态想象自编码器(MIA),实现了在完整模态和文本模态缺失情况下的鲁棒性能。该方法利用基于LLM-ASR从语音到文本的多模态能力生成仿真文本表征,将仿真的文本模态表征借助音频和视觉模态生成的表征进行模态想象优化,同时引入模态知识蒸馏损失、以及RNC回归对比损失等优化策略,以增强模型在情绪效价回归任务中的表现。实验结果表明,该方法在CMU-MOSEI数据集上MAE等多项指标显著优于现有方法,尤其在文本模态缺失情况下表现出色,充分验证了其设计的有效性和鲁棒性。
Can
Automated Speech Recognition Errors Provide Valuable Clues for
Alzheimer’s Disease Detection?作者:刘寅龙,冯锐,鲁叶欣,陈佳鑫,艾杨,袁家宏,凌震华 本文通过深入研究自动语音识别(ASR)技术在阿尔茨海默症(AD)检测中的应用,揭示了ASR错误可能为AD检测提供额外线索的潜力。本文首先从DementiaBank中收集了数据,微调了18种主流ASR模型(包括Wav2Vec
2.0、HuBERT、WavLM和Whisper),并生成了36种ASR转录文本用于分析。在实验中,提出了两种基于语言模型的AD检测方法:一种是对大型语言模型(LLMs,如Llama、Qwen等)进行参数高效微调(PEFT),另一种是融合LLMs与预训练语言模型(PLMs,如BERT和RoBERTa)。实验结果表明,某些ASR转录文本在分类准确率上优于人工转录文本,且融合方法在手动和ASR转录文本上均表现最佳,这表明ASR错误引入的非对称性偏差可能为区分AD与健康对照组(HC)提供了有价值的线索。进一步的解释性研究通过语言学和SHAP分析揭示了AD和HC群体在ASR文本中具有更显著的词汇分布差异,而这些差异被模型利用以提高分类性能。本文的贡献不仅在于首次系统性评估了多种ASR模型生成的文本在AD检测中的性能,还通过解释性分析提供了重要的研究发现,展示了ASR技术在全自动化、低成本的AD检测系统开发中的巨大潜力,并表明未来将对ASR错误和模型可解释性做进一步研究。
Prototype based Masked Audio Model for Self-Supervised Learning of
Sound Event Detection作者:蔡鹏飞、宋彦、江南、顾庆、Ian
McLoughlin 受限于数据标注成本,声音事件检测领域的数据集中往往存在大量未经标记的无标签数据。如何在训练中有效的利用这些无标签数据,构成了声音事件检测任务的一大挑战。之前的相关工作多采用半监督算法利用无标签数据,其效果很大程度上受限于有标记数据的规模和质量。在本篇工作中,我们探索采用自监督学习的方式来进一步的利用海量的无标记数据。具体来说,我们提出了一种基于原型的掩码语言模型(Prototype
based Masked Audio Model, PMAM)算法,以进行自监督表征学习。该算法采用高斯混合模型离线的进行原型分布建模,为无标记数据生成帧级别的伪标签。之后,伪标签被用于掩蔽音频模型(Masked
Audio Model, MAM)的学习。此外,考虑到声音事件的标注存在多标签的性质,我们采用基于原型的二进制交叉熵损失代替无监督学习中广泛使用的InfoNCE损失,以解耦不同原型的损失计算。在基于PMAM算法的自监督训练之后,仅需少量有标记数据对模型进行微调,即可得到高性能的声音事件检测模型。实验结果表明该算法在DESED数据集上性能超越了当前最先进的声音事件检测模型,证明了本文方法的有效性。
MVANet:
Multi-Stage Video Attention Network for Sound Event Localization and
Detection with Source Distance Estimation作者:洪珩轶,王青,韦若禹,蔡明琦,方昕
本文提出了一种用于声音事件定位和检测(SELD)的多阶段视频注意力网络(MVANet),该网络能够同时估计声源的距离,即三维SELD(3D
SELD)。MVANet利用多阶段音频特征自适应地捕捉视频中声源的空间信息。我们提出了一种新颖的输出表示方法,通过计算实际的笛卡尔坐标来结合声源的方向到达(DOA)和距离,以解决在检测和分类声学场景和事件(DCASE)2024挑战赛中新引入的声源距离估计(SDE)任务。此外,我们还采用了多种有效的数据增强和预训练方法。在STARSS23数据集上的实验结果证明了我们提出的MVANet的有效性。通过整合上述技术,我们的系统在不使用模型集成的情况下,超越了我们在DCASE
2024挑战赛中使用的音视频(AV)3D
SELD任务的排名第一的方法。
An
Experimental Study on Joint Modeling for Sound Event Localization and
Detection with Source Distance Estimation在传统的声音事件定位与检测(SELD)任务中,通常关注声音事件检测(SED)和到达方向(DOA)估计,但这些方法无法提供关于声源的完整空间信息。3D
SELD任务通过集成源距离估计(SDE)来解决这一限制,从而实现完整的空间定位。我们提出了三种方法来应对这一挑战:一种新颖的方法,采用独立训练和联合预测,首先将DOA和距离估计视为独立任务,然后将其结合起来解决3D
SELD问题;一种双分支表示方法,使用源的笛卡尔坐标进行DOA和距离估计的同时建模;以及一种三分支结构,在统一框架内联合建模SED、DOA和SDE。我们提出的方法在DCASE
2024挑战赛任务3中获得了第一名,展示了联合建模在解决3D
SELD任务中的有效性。