注:欢迎对实验室工作感兴趣的行业同仁通过邮件与我们交流
Enhancing Multi-Channel Speech with Limited Microphones via Spherical Harmonic Transform
作者列表:潘佳慧、张晖、张学良
单位:内蒙古大学
论文方向:多通道语音增强
内容简介:在多通道语音增强领域,传统的波束形成算法受到麦克风数量的限制,通常使用更多的麦克风可以提升性能。然而,在实际应用中,由于成本和结构限制,设备中可用的麦克风数量往往是有限的。为了解决这一问题,我们提出了一种创新的虚拟麦克风估计方法,结合了传统方法和深度学习技术的优势,采用了球谐变换(SHT)来克服两者的局限性。该方法通过球谐变换提取真实麦克风信号的空间信息,并利用神经网络预测虚拟位置的球谐系数,再通过逆变换重建虚拟语音信号。与传统方法相比,这种新方法能够更加准确地表征空间信息,提高虚拟麦克风信号的质量,尤其在混响和噪声环境下表现更加优异。在对公开的MS-SNSD数据集进行评估发现,该方法在多个噪声和混响条件下显著优于现有的基准算法,展现了其在语音增强中的巨大潜力。
通讯邮箱:panjiahui@mail.imu.edu.cn
Attention-Enhanced Short-Time Wiener Solution for Acoustic Echo Cancellation
作者列表:赵飞,张学良
单位:内蒙古大学
论文方向:回声消除
内容简介:声学回声消除(AEC)技术在语音信号处理领域扮演着重要角色,它能够消除麦克风捕捉到的回声,确保全双工通信的自然流畅。尽管当前基于深度学习的AEC技术主要致力于模型架构的优化,但往往忽视了与传统滤波器理论的融合。我们提出了一种创新的AEC方法,该方法巧妙地将短期维纳滤波与注意力机制相结合。为了应对双讲场景带来的挑战,我们引入了注意力机制来预处理短期维纳滤波的输入,使模型能够专注于单讲情况下的关键特征,进而提升对清晰语音信息的提取效率。短期维纳滤波是对传统维纳滤波的改进,适用于有限且因果的输入信号,它不仅构成了输入信号处理的基础,还为我们的AEC方法提供了坚实的理论支撑。实验结果证明了我们提出的方法在AEC Challenge的合成数据集和盲测集上均展现出卓越的性能,这为深度学习与传统方法的结合提供了新的视角。
Attention-Based Beamformer For Multi-Channel Speech Enhancement
作者:白景霖,李号,张学良,陈霏
单位:内蒙古大学、南方科技大学
论文方向:多通道语音增强
内容简介:多通道语音增强技术利用多个麦克风捕获空间线索,能够更精准地提取语音信号,是现代通信系统的重要组成部分。最小方差无失真响应(MVDR)波束形成器因其减少语音失真的能力而广受欢迎。其降噪性能很大程度上依赖于语音和噪声空间协方差矩阵(SCM)的估计精度。然而,现有基于掩模的波束形成方法通常假设声源位置静止,这种假设在声源移动的场景下会导致性能下降。为解决这一挑战,我们提出了一种基于注意力机制计算语音和噪声SCM的方法,该方法结合了原地卷积算子和频率无关的LSTM,充分挖掘了空间信息的潜力,并提升了系统在复杂场景下的适应能力。我们通过大量实验证明了方法的有效性。
论文链接:https://arxiv.org/abs/2409.06456
Vector Quantized Diffusion Model Based Speech Bandwidth Extension
作者:方元,白景霖,王佳杰,张学良
单位:内蒙古大学,商汤科技
论文方向:频带扩展
论文简介:语音频带扩展,是语音信号处理中的一项关键任务,旨在为低分辨率语音补充高频成分,从而提升语音质量并增强其自然性。本文首次提出了一种基于神经网络音频编解码器离散特征的语音频带扩展方法,克服了传统方法在高频细节重建中的限制。我们所提出的模型包括两个部分,首先是特征提取模块负责获得扩散模型的条件;另外一个是扩散模型部分,使用双向的Mamba-2对Token数据进行建模对输入序列进行去噪。大量实验证明,该方法在对数频谱距离(LSD)和ViSQOL指标上显著优于现有方法,同时实现了更高的语音质量和自然性。通过在高度压缩的离散编码中恢复高频细节,本文提出的方法展现了其在语音信号处理任务中的巨大潜力。
论文链接:https://arxiv.org/pdf/2409.05784
Robust Target Speaker Direction of Arrival Estimation
作者:李子轩,何树林,张学良
单位:内蒙古大学
论文方向:目标说话人波达方向估计
论文简介:在复杂的多说话人环境中,准确估计目标说话人的波达方向(DOA)对于增强语音清晰度和分离目标语音至关重要。然而,传统的DOA估计技术在噪声和混响的影响下表现欠佳,且在存在干扰说话人时会导致失效。为了克服这些挑战,我们提出了一种鲁棒的实时DOA估计系统——RTS-DOA。该系统融合了语音增强、说话人特征建模和空间信息建模技术。具体来说,RTS-DOA系统由三个核心模块构成:首先是语音增强模块,它负责提升语音信号的质量;其次是空间信息模块,它负责捕捉和学习环境中的空间特性;最后是说话人特征提取模块,它专注于识别和提取目标说话人的独特特征。通过这些模块的协同工作,RTS-DOA系统能够有效地处理多说话人场景中的语音信号。我们在LibriSpeech数据集上进行的实验表明,RTS-DOA系统在处理多说话人场景时表现出色,相较于同等计算资源的基线模型,其性能提升了约30%。
通讯邮箱:cslzx@mail.imu.edu.cn
潘佳慧
赵飞
白景霖
方元
李子轩
硕士一年级 指导教师:张学良 主要研究方向:多模态目标说话人提取,语音增强。2024年于内蒙古大学获得学士学位,同年开始攻读内蒙古大学硕士学位。截止目前,李子轩在语音领域顶级会议ICASSP以一作身份共录用1篇论文。