ICASSP2025丨IMU语音理解与生成实验室3篇论文分享

文摘   2024-12-23 18:02   北京  

近日,2025年IEEE声学、语音与信号处理国际会议(2025 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2025)发布录用通知,内蒙古大学语音理解与生成实验室共3篇论文被录用。

实验室此次被录用的3篇论文涉及智能语音交互领域的诸多研究方向,包括对话语音合成、视频配音、大语言模型辅助的视觉语音合成等。


论文一

论文题目:Multi-Source Spatial Knowledge Understanding for Immersive Visual Text-to-Speech
作者:何树伟,刘瑞



工作简介:
视觉文本转语音Visual Text-to-Speech(VTTS)旨在以空间环境图像作为提示,合成对应口语内容的混响语音。先前的研究集中在RGB模态用于全局环境建模,忽视了深度、说话者位置和环境语义等多源空间知识的潜力。为了解决这些问题,我们提出了一种新颖的用于沉浸式VTTS的多源空间知识理解方案,称为MS2KU-VTTS。具体而言,我们首先将RGB图像作为主要知识源,并考虑深度图像、来自目标检测的说话者位置知识,以及来自图像理解LLM的语义标题作为辅助知识源。随后,我们提出了一个串行交互机制,深度融合主要和辅助来源。根据它们的贡献,动态集成产生的多源知识。这种丰富的多源空间知识的交互和集成指导了语音生成模型,增强了沉浸式空间语音体验。实验结果表明,MS2KU-VTTS在生成沉浸式语音方面优于现有基线模型。

代码和Demo:https://github.com/AI-S2-Lab/MS2KU-VTTS



论文二

论文题目:Intra- and Inter-modal Context Interaction Modeling for Conversational Speech Synthesis

作者:贾真琦,刘瑞



工作简介:
对话式语音合成(Conversational Speech Synthesis,CSS)旨在有效地利用多模态对话历史(Multimodal Dialogue History,MDH)生成具有适当会话语境的目标话语。CSS的关键挑战在于对MDH和目标话语之间的交互进行建模。需要注意的是,在MDH中,文本和语音模态具有独特的跨模态影响,同时它们相互补充以对目标话语的表达产生综合影响。先前的研究没有显式建模这种模态内部和模态间的交互。为了解决这个问题,我们提出了一种基于新的模态内部和模态间上下文交互方案的CSS系统,称为I3-CSS。具体来说,在训练阶段,我们将MDH与目标话语中的文本和语音模态相结合,得到四种模态组合,包括“历史文本-下一个文本”,“历史语音-下一个语音”,“历史文本-下一个语音”和“历史语音-下一个文本”。然后,我们设计了两个基于对比学习的模态内部交互和两个模态间交互模块,以深入学习模态内部和模态间上下文交互。在推理阶段,我们使用MDH并采用训练好的交互模块来充分推断目标话语文本内容的语音韵律。
在DailyTalk数据集上进行的主观和客观实验表明,I3-CSS在韵律表达方面优于先进的基线模型。

代码和Demo:https://github.com/AI-S2-Lab/I3CSS



论文三

论文题目:Towards Expressive Video Dubbing with Multiscale Multimodal Context Interaction
作者:赵源,刘瑞,丛高翔(中科院计算所)



工作简介:

自动视频配音(Automatic Video Dubbing,AVD)从脚本中生成与嘴唇运动和面部情绪对齐的语音。最近的研究关注建模多模态上下文以增强韵律表达,但忽略了两个关键问题:1)上下文中的多尺度韵律表达属性影响当前句子的韵律。2)上下文中的韵律线索与当前句子互动,影响最终的韵律表达。为了解决这些挑战,我们提出了M2CI-Dubber,一种用于AVD的多尺度多模态上下文交互方案。该方案包括两个共享的M2CI编码器,用于建模多尺度多模态上下文并促进其与当前句子的深度交互。通过为上下文中的每种模态提取全局和局部特征,利用基于注意力机制的聚合和交互,并采用基于交互的图注意力网络进行融合,所提出的方法增强了合成语音的韵律表达,使其更适合当前句子。对Chem数据集上的实验证明,我们的模型在配音表现方面优于基线模型。

代码和Demo:https://github.com/AI-S2-Lab/M2CI-Dubber



永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区

语音之家
助力AI语音开发者的社区
 最新文章