微信公众号:EW Frontier
关注可了解更多的雷达、通信、人工智能相关代码。问题或建议,请公众号留言;
如果你觉得EW Frontier对你有帮助,欢迎加入我的知识星球或面包多,更多代码等你来学
知识星球:https://wx.zsxq.com/dweb2/index/group/15552518881412
面包多:https://mbd.pub/o/author-a2mYl2tsbA==/workQQ交流群:729981694
如有侵权请联系删除~
摘要
我们提出了一种新的基于学习的方法来估计到达方向(DOA)的声源使用卷积递归神经网络(CRNN)通过回归训练合成数据和笛卡尔标签。我们还描述了一种改进的方法来生成合成数据,以使用最先进的声音传播算法来训练神经网络,该算法对声音的镜面反射和漫反射进行建模。我们将我们的模型与使用同一问题的不同公式训练的其他三个CRNN进行比较:分类标签上的分类和球坐标标签上的回归。在实践中,我们的模型实现了高达43%的角度误差比以前的方法减少。与基于图像源方法的先前方法相比,使用漫反射导致LOCATA和SOFA数据集的角度预测误差分别减少34%和41%。我们的方法比使用分类网络的先前方案额外减少了3%的错误,并且我们使用的网络参数减少了36%。索引术语:语音识别,声音传播,到达方向估计,数据增强。
引言
声源的到达方向(DOA)估计一直是分析多通道录音的重要问题[1,2]。在这些应用程序中,目标是根据在任何多通道设置中记录的声音片段来预测声源相对于麦克风的方位角和仰角。其中一个较简单的问题是水平面上的DOA估计[3]。更复杂的问题包括三维空间中的DOA估计或音频源的方向和距离的识别。甚至更具有挑战性的问题对应于在嘈杂和混响的环境中执行这些目标。
为了分析录音中的空间信息,必须使用至少两个已知相对位置的麦克风。在实践中,包括双耳、5.1声道、7.1声道等的各种空间记录格式已经应用于空间音频相关系统[4]。高保真度立体声格式使用球谐函数基分解声场[5]。与其他替代产品相比,高保真度立体声具有硬件独立的优势-它不一定将麦克风规格编码到录音中。
最近的工作[6]将Ambisonics格式应用于DOA估计,并训练了CRNN分类器,该分类器比使用独立分量分析的基线方法产生更准确的预测。虽然回归公式对于DOA估计的问题似乎更自然,但一些最近的工作[3]表明回归公式可能产生比多层感知器的分类公式更差的性能。在这项工作中,我们提出了一种新的基于学习的方法,用于从立体混响音频中估计单个声源的DOA,建立在现有的深度学习框架上[6]。我们提出了一个CRNN预测DOA作为一个3-D笛卡尔向量。我们介绍了一种方法来生成合成数据,使用几何声音传播模型镜面反射和漫反射,这导致高达43%的误差减少与图像源方法相比。我们对笛卡尔回归网络、两个用交叉熵损失训练的分类网络和一个用角损失训练的回归网络进行了四向比较。最后,我们研究了两个第三方数据集的结果:LOCATA [7]和SOFA [8],与现有方法相比,我们的最佳模型将角度预测误差降低了43%。
在分类公式中,使用分类表示对DOA进行编码:近似均匀的网格定义了可能类别的有限集合中的每个类别的得分,其中每个类别对应于连续DOA空间的唯一区域。通过在给定分辨率下细分DOA空间来定义网格网格。DOA被解码为与具有最高分数的仓相关联的方向。分类配方使用离散编码,贷款本身的DOA估计的类为基础的配方。麦克风阵列的广义互相关(GCC)特征向量输入已经被馈送到多层感知器分类器,其预测一个角度维度上的DOA [3],并且在各种尺寸的模拟和真实的房间中显示出优于经典最小二乘法[10]的上级性能。Perotin等人。[6]使用音频的一阶高保真度立体声表示来计算声学强度向量。该表示用作CRNN的输入,CRNN预测两个角度维度中的DOA。他们的CRNN比使用独立成分分析的基线方法产生更准确的预测。CRNN也已在[13]中用于在两个角度维度上识别重叠声源的DOA。
在回归公式中,通常使用DOA的两种表示,我们称之为笛卡尔和球面。利用笛卡尔表示,DOA被编码为笛卡尔(x,y,z)坐标中的指向源的三维矢量。利用球面表示,DOA被编码为方位角(θ)和仰角(φ)的二维矢量。这两种配方编码的DOA在连续空间中,导致回归公式的DOA估计。在以前的工作中,回归公式没有显示出上级经验的DOA估计结果。在[3]中声称回归的角度误差高于分类的角度误差。CNN回归已在[14]中用于估计3-D空间中声源的笛卡尔坐标。CRNN回归已在[13]中使用,并且观察到回归的波达方向估计比分类的波达方向估计有更高的角度误差。类似于这个结果,我们的实验表明,更高的角度误差回归球面波达方向比分类。然而,我们发现一个较低的角度误差回归笛卡尔波达方向,比分类波达方向和回归球面波达方向。
文章插图
结论
在本文中,我们证明了使用几何声传播模拟器的好处,与图像源的方法相比,用于训练DOA估计网络,通过报告更高的精度评估数据。我们评估了CRNN模型在三种输出公式中的性能:分类,笛卡尔和球形。我们在两个第三方数据集上进行了测试,结果表明我们的笛卡尔回归模型比分类和球形模型具有上级性能。
评估分类模型涉及到一个额外的因素:分类网格的分辨率,我们保持固定。此外,我们的工作仅限于单源定位问题,而在多源定位问题,分类与回归模型相比,量化模型可能具有固有的优势。最后,我们将模拟限制在非常简单的房间设置,以保证与图像处理方法进行公平的比较。未来的工作可能涉及更复杂的房间配置的实验。