学术简讯 | 基于随机循环一致性准则的语音信息分解工作获 Odyssey 最佳学生论文奖

文摘   科技   2022-07-03 00:09   北京  

在昨晚闭幕的 Odyssey 2022 学术研讨会上,清华大学语音和语言技术中心孙浩然同学的研究工作《Cycleflow: Purify Information Factors by Cycle Loss》获最佳学生论文奖。Odyssey 是说话人识别和语种识别领域的代表性会议,是本领域顶尖学者的技术交流盛宴。



语音信号中包含发音内容、发音人、发音情绪等多种信息;这些信息混杂在一起,使语音信息处理任务异常困难。如果能够将这些各异性的信息进行分解,不仅可以显著提高下游语音处理任务的性能,还可以增进我们对语音信号本身的理解。



近年来,基于信息瓶颈的语音信息分解工作受到研究者的关注。通过设计合理的信息通道容量和信息偏置,理论上可以将语音中的信息完美地分离出来。然而,信道容量和信息偏置的设计非常困难,导致这一方法生成的信息编码依然混杂了各种信息。目前,大多数研究组都采用一种称为 "信息约束" 的方法,通过降低不同因子的互信息量来寻求更独立的信息因子。然而,这种方法训练极不稳定,而且无法保证信息因子的独立性。


CycleFlow 一文提出了一种基于还原论的信息因子分解方法。我们知道科学探索经常采用一种 "还原归因" 的思路。物质世界五花八门,我们将物质还原成基本化学元素;生物特性千奇百怪,我们将生物性状还原成基因表达,如此种种。将事物还原成更基础的组分和更简单的原因,是科学家们的基本思路。基于这一思想,事物可以被还原成基本元素,这些元素又可以互相组合,形成新的事物,而这些新事物又可以被重新还原。这一原则称为 "分析-合成" 原则



基于分析-合成原则,CycleFlow 一文提出了一种称为随机循环一致性的学习准则,用于提取语音信号中的信息因子。简单地说,我们用一个编码器将两段语音 X1 和 X2 编码成 Z1 和 Z2,每个编码中都包含若干因子。交换 Z1 和 Z2 中的因子生成新编码 Z',将这一新编码还原成语音后再经过编码器,应该可以得到原来的编码 Z'理论证明,当训练完美收敛时,编码器将得到完全独立的信息因子。


CycleFlow 一文将随机循环一致性和信息瓶颈结合起来,极大提高了信息分解的性能,而且显著超过当前广泛采用的互信息惩罚方法,开辟了一个信息分解的新方向。当应用于语音转换任务时,显著提高了转换成功率,并提高了转换语音的听觉感知质量。值得说明的是,分析-合成原则是一个基本原则,基于此设计的随机循环一致性准则也是一个基本准则,可广泛应用于各种机器学习任务中。


该方法的代码目前已经开源,详情请访问项目网站:http://cycleflow.cslt.org.

清语赋
清华大学语音语言团队 (CSLT) 科研学术分享和日常生活百态
 最新文章