ICASSP2025丨内蒙古大学语音信号处理组5篇录用论文分享

文摘 2024-12-26 18:38 北京

近日，2025年IEEE声学、语音与信号处理国际会议（2025 IEEE International Conference on Acoustics, Speech, and Signal Processing,ICASSP 2025)，发布了审稿结果。内蒙古大学语音信号处理组（IMUSPEECHLab）张学良教授、张晖副教授共5篇论文被接收录用，涉及语音信号处理领域的多通道语音增强、回声消除、频带扩展、目标说话人波达方向估计等研究方向。

注：欢迎对实验室工作感兴趣的行业同仁通过邮件与我们交流

Enhancing Multi-Channel Speech with Limited Microphones via Spherical Harmonic Transform

作者列表：潘佳慧、张晖、张学良

单位：内蒙古大学

论文方向：多通道语音增强

内容简介：在多通道语音增强领域，传统的波束形成算法受到麦克风数量的限制，通常使用更多的麦克风可以提升性能。然而，在实际应用中，由于成本和结构限制，设备中可用的麦克风数量往往是有限的。为了解决这一问题，我们提出了一种创新的虚拟麦克风估计方法，结合了传统方法和深度学习技术的优势，采用了球谐变换（SHT）来克服两者的局限性。该方法通过球谐变换提取真实麦克风信号的空间信息，并利用神经网络预测虚拟位置的球谐系数，再通过逆变换重建虚拟语音信号。与传统方法相比，这种新方法能够更加准确地表征空间信息，提高虚拟麦克风信号的质量，尤其在混响和噪声环境下表现更加优异。在对公开的MS-SNSD数据集进行评估发现，该方法在多个噪声和混响条件下显著优于现有的基准算法，展现了其在语音增强中的巨大潜力。

通讯邮箱：panjiahui@mail.imu.edu.cn

Attention-Enhanced Short-Time Wiener Solution for Acoustic Echo Cancellation

作者列表：赵飞，张学良

单位：内蒙古大学

论文方向：回声消除

内容简介：声学回声消除（AEC）技术在语音信号处理领域扮演着重要角色，它能够消除麦克风捕捉到的回声，确保全双工通信的自然流畅。尽管当前基于深度学习的AEC技术主要致力于模型架构的优化，但往往忽视了与传统滤波器理论的融合。我们提出了一种创新的AEC方法，该方法巧妙地将短期维纳滤波与注意力机制相结合。为了应对双讲场景带来的挑战，我们引入了注意力机制来预处理短期维纳滤波的输入，使模型能够专注于单讲情况下的关键特征，进而提升对清晰语音信息的提取效率。短期维纳滤波是对传统维纳滤波的改进，适用于有限且因果的输入信号，它不仅构成了输入信号处理的基础，还为我们的AEC方法提供了坚实的理论支撑。实验结果证明了我们提出的方法在AEC Challenge的合成数据集和盲测集上均展现出卓越的性能，这为深度学习与传统方法的结合提供了新的视角。

通讯邮箱：zhaofei@mail.imu.edu.cn

Attention-Based Beamformer For Multi-Channel Speech Enhancement

作者：白景霖，李号，张学良，陈霏

单位：内蒙古大学、南方科技大学

论文方向：多通道语音增强

内容简介：多通道语音增强技术利用多个麦克风捕获空间线索，能够更精准地提取语音信号，是现代通信系统的重要组成部分。最小方差无失真响应（MVDR）波束形成器因其减少语音失真的能力而广受欢迎。其降噪性能很大程度上依赖于语音和噪声空间协方差矩阵（SCM）的估计精度。然而，现有基于掩模的波束形成方法通常假设声源位置静止，这种假设在声源移动的场景下会导致性能下降。为解决这一挑战，我们提出了一种基于注意力机制计算语音和噪声SCM的方法，该方法结合了原地卷积算子和频率无关的LSTM，充分挖掘了空间信息的潜力，并提升了系统在复杂场景下的适应能力。我们通过大量实验证明了方法的有效性。

论文链接：https://arxiv.org/abs/2409.06456

通讯邮箱：bjlin@mail.imu.edu.cn

Vector Quantized Diffusion Model Based Speech Bandwidth Extension

作者：方元，白景霖，王佳杰，张学良

单位：内蒙古大学，商汤科技

论文方向：频带扩展

论文简介：语音频带扩展，是语音信号处理中的一项关键任务，旨在为低分辨率语音补充高频成分，从而提升语音质量并增强其自然性。本文首次提出了一种基于神经网络音频编解码器离散特征的语音频带扩展方法，克服了传统方法在高频细节重建中的限制。我们所提出的模型包括两个部分，首先是特征提取模块负责获得扩散模型的条件；另外一个是扩散模型部分，使用双向的Mamba-2对Token数据进行建模对输入序列进行去噪。大量实验证明，该方法在对数频谱距离（LSD）和ViSQOL指标上显著优于现有方法，同时实现了更高的语音质量和自然性。通过在高度压缩的离散编码中恢复高频细节，本文提出的方法展现了其在语音信号处理任务中的巨大潜力。

论文链接：https://arxiv.org/pdf/2409.05784

通讯邮箱：32209021@mail.imu.edu.cn

Robust Target Speaker Direction of Arrival Estimation

作者：李子轩，何树林，张学良

单位：内蒙古大学

论文方向：目标说话人波达方向估计

论文简介：在复杂的多说话人环境中，准确估计目标说话人的波达方向（DOA）对于增强语音清晰度和分离目标语音至关重要。然而，传统的DOA估计技术在噪声和混响的影响下表现欠佳，且在存在干扰说话人时会导致失效。为了克服这些挑战，我们提出了一种鲁棒的实时DOA估计系统——RTS-DOA。该系统融合了语音增强、说话人特征建模和空间信息建模技术。具体来说，RTS-DOA系统由三个核心模块构成：首先是语音增强模块，它负责提升语音信号的质量；其次是空间信息模块，它负责捕捉和学习环境中的空间特性；最后是说话人特征提取模块，它专注于识别和提取目标说话人的独特特征。通过这些模块的协同工作，RTS-DOA系统能够有效地处理多说话人场景中的语音信号。我们在LibriSpeech数据集上进行的实验表明，RTS-DOA系统在处理多说话人场景时表现出色，相较于同等计算资源的基线模型，其性能提升了约30%。

通讯邮箱：cslzx@mail.imu.edu.cn

论文作者简介

潘佳慧

博士四年级，指导教师：张学良主要研究方向：多通道语音增强、语音鉴伪。2019年于内蒙古大学获得学士学位，同年开始硕博连读。博士期间，她曾在中国科学院自动化研究所模式识别重点实验室进行访问交流，并以第一作者身份发表相关论文。此外，她还与思必驰科技股份有限公司合作，发表了相关领域的研究成果。截至目前，潘佳慧在语音鉴伪领域以第一作者身份发表1篇论文，合作发表1篇论文；在多通道语音增强领域，她以第一作者身份发表了3篇论文，合作发表1篇论文。

赵飞

博士二年级指导教师：张学良主要研究方向：声学回声消除、主动降噪。2021年于内蒙古大学获得学士学位，同年开始硕博连读。截止目前，赵飞同学在INTERSPEECH以第一作者发表2篇论文，在ICASSP以第一作者发表1篇论文。

白景霖

硕士三年级指导教师：张学良主要研究方向：语音增强。2022年于内蒙古大学获得学士学位，同年开始攻读内蒙古大学硕士学位。截止目前，白景霖在ICASSP以一作身份录用1篇论文，合作作者身份录用论文1篇。2024年于商汤科技（北京）实习。

方元

硕士三年级指导教师：张学良主要研究方向：脑电信号处理，语音增强。2021年于内蒙古大学获得学士学位，2022年开始攻读内蒙古大学硕士学位，2024年于商汤科技、58同城实习。截止目前，方元在语音领域以一作身份共录用2篇论文，合作作者身份发表论文1篇。

李子轩

硕士一年级指导教师：张学良主要研究方向：多模态目标说话人提取，语音增强。2024年于内蒙古大学获得学士学位，同年开始攻读内蒙古大学硕士学位。截止目前，李子轩在语音领域顶级会议ICASSP以一作身份共录用1篇论文。

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

语音之家

助力AI语音开发者的社区

天工版o1、4o同时上线！实时语音陪聊太上头

通过流匹配实现高效、高质量的文本转音频生成

语音/音频处理学术速递[1.6]

AI语音招聘岗位合集

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

活动报名丨第五届全国人工智能大赛

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

语音/音频处理学术速递[1.3]

AI教父辛顿力挺马斯克，明确反对 OpenAI 的营利化转型。

分享 10 款免费在线 TTS 工具，开启语音新世界大门

4o-mini只有8B，Claude 3.5 Sonnet有175B，微软论文「透露」了下顶级模型参数

高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

使用知识图谱增强大语言模型生成问答逻辑形式

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

ICASSP2025丨语音国家工程研究中心26篇录用论文分享

国产大模型全球“刷屏”，总训练成本557万美元，性能比肩GPT-4o

语音/音频处理学术速递[12.31]

ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享

2024年人工智能年终总结报告｜Artificial Analysis

语音/音频处理学术速递[12.30]

AI语音招聘岗位合集

听见未来，AI+Audio｜2025中国国际音频产业大会（GAS）

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

ICASSP2025丨内蒙古大学语音信号处理组5篇录用论文分享

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

全球首个中文安全领域事实性基准评测集发布

音频版ControlNet来了！Adobe推出Sketch2Sound

AI首次自主发现人工生命！人类窥见上帝造物

INFP：照片+音频让蒙娜丽莎秒变播客主理人

语音/音频处理学术速递[12.25]

CultureLLM 与 CulturePark：增强大语言模型对多元文化的理解

ICASSP2025丨人类语言技术实验室（HLT Lab）10篇录用论文分享

o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

语音/音频处理学术速递[12.24]

ICASSP2025丨IMU语音理解与生成实验室3篇论文分享

开源更新丨通义3D-Speaker多说话人日志功能

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

语音/音频处理学术速递[12.23]

AI语音招聘岗位合集

GAS"消费电子科创奖” | 展示消费电子行业突破性成果

WavChat：深入探索语音对话模型的前沿

Interspeech 2025丨首届言语健康挑战赛

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

内大语音理解与生成实验室最新视觉语音合成工作分享

语音/音频处理学术速递[12.20]

【AI对话系统新挑战】FutureDial-RAG Challenge详解

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

语音/音频处理学术速递[12.19]

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉