论文导读 I 基于通用音素识别器的低资源语言发音词典生成探索(网络首发)

文摘   2024-06-19 09:01   上海  

  交大学报英文版 论文导读


探|索|科|技|前|沿 强|国|复|兴|有|我

导语


本期推介论文已在《上海交通大学学报(英文版)》网络首发。欢迎相关领域的研究者阅读、引用!

Exploring Generation of Pronunciation Lexicon for Low-Resource Language Automatic Speech Recognition Based on Generic Phone Recognizer

基于通用音素识别器的低资源语言发音词典生成探索



清华大学电子工程系语音与音频技术实验室(SATLab)×上海交通大学计算机科学与工程系智能语音技术实验室


本期推介论文已在《上海交通大学学报(英文版)》网络首发,研究了如何利用音素识别器在低资源语言数据量较少的情况下自动生成发音词典,以供语音识别系统使用。

欢迎相关领域的研究者转发、引用!


PART.1  本文亮点



1、探讨了如何利用通用音素识别器以语音数据驱动的方式生成低资源语言的发音词典。

2、构建简单且通用的流程,通过子词单元与发音间的过滤与映射等方法,优化生成词典的质量。

3、在多个低资源语言的混合语音系统和预训练模型微调的性能上,使用生成词典时系统的性能优于使用基于字素的词典,并可与使用专家词典相比较。


PART.2 内容简介


基于通用音素识别器的低资源语言发音词典生成探索

发音词典是传统混合自动语音识别系统的重要组成部分,然而, 高质量词典需要语言专家的精心标注, 通常难以获得, 特别是对于低资源语言。
本文要解决的问题是, 如何利用多语言语音数据和发音词典训练获得的通用音素识别器, 通过语音数据驱动的方式为低资源语言生成发音词典。提出了一个简易的方案来生成发音词典, 并将其应用到自动语音识别系统中。生成词典步骤是通用的:首先, 在语音数据上使用国际音标(IPA)音素识别器, 然后将音素识别结果与参考文本进行对齐, 接着进行过滤以获得一系列子词, 利用来生成AUTO-subword词典和AUTO-IPA词典。将生成的发音词典用于混合系统和微调预训练模型。实验结果表明, 能够在无需语言专家资源的情况下构建词典, 并应用到语音识别系统中。


图文导读

提出的发音词典生成流程如图1所示,由音素识别、对齐、过滤和最终映射生成。首先,我们使用语言无关的音素识别器生成音素序列;然后,利用对齐在单词或子词层面对生成的音素序列进行分割。过滤模块的目的是去除音素识别和对齐过程中产生的一些噪声输出,经过过滤步骤后,可以得到一系列称为 AUTO-subword的子词,从而生成两种类型的词典。一种是AUTO-subword词典,将单词分割成子词;另一种是 AUTO-IPA 词典,根据为每个AUTO-subword对应的发音生成而得。


图1  提出的生成发音词典的流程

研究结果或研究发现:

在索马里语与粤语上的结果如表1所示。在索马里语的语音识别系统中,使用字素词典和专家词典之间的性能差距很小,而使用 AUTO-subword词典的性能要优于使用专家词典的性能。这表明我们可以通过提取 AUTO-subword单元来替代字素作为最小建模单元以进行改进。

表1 将词典应用于混合语音系统与预训练微调系统的词错误率对比



对于粤语,使用字素词典和专家词典之间的性能差距较大,而使用 AUTO-IPA 词词典可以缩小没有专家知识的情况和使用专家词典的情况之间的差距。在混合系统中,使用 AUTO-IPA 词典能够缩小约 51.8%的差距,而在微调预训练系统中,这一数值达到了 68.3%。还与其他生成方法进行了对比如图2所示,对比结果如表2所示。

图2  用不同方法生成词典以进行比较

表2 将不同生成方法的词典应用于混合语音系统的词错误率对比


从结果中可以看出,直接使用对齐后得到的词-音素序列对应关系作为词典内容时的性能很差。即使在对齐步骤后使用 G2P 模型生成词典,其性能也与提出的方法生成的词典有明显差距。这表明了提出的生成方法所做的改进能够提升系统的性能。
随着语音识别模型性能的不断优化,未来此方法将有机会更高效地为更多低资源语言生成发音词典。


PART.3 作者简介



李金朋,清华大学电子工程系在读硕士研究生,主要研究方向为基于大规模语音模型的语音分类与小语种语音识别。目前已在ICASSP与INTERSPEECH上发表多篇文章。


陈谐上海交通大学计算机科学与工程系副教授,博士生导师。博士毕业于剑桥大学信息工程系,先后在剑桥大学从事博士后研究,美国微软研究院任高级研究员,资深研究员,2021年9月加入上海交通大学。主要研究方向为深度学习,智能语音和声音信号处理,在本领域的国际权威会议和期刊发表论文80余篇。


通讯作者简介:

张卫强,清华大学电子工程系副研究员,语音与音频技术实验室负责人。2009年在清华大学获博士学位,2009年至今在在清华大学电子工程系任教,2017年在斯坦福大学任访问学者。主要研究方向为语音与音频信号处理、低资源语音识别等。以负责人身份承担自然科学基金联合重点项目、国家重点研发专项课题等多个项目。发表学术论文200余篇;申请国家发明专利40余项。获教育部科技进步一等奖、科技奥运先进集体奖,获得NIST等多项国际语音比赛冠军。





PART.4 引文信息


Li Jinpeng, Chen Xie, Zhang Weiqiang. Exploring Generation of Pronunciation Lexicon for Low-Resource Language Automatic Speech Recognition Based on Generic Phone Recognizer. Journal of Shanghai Jiao Tong University(Science), 2024.(Online First)


文章链接:https://link.springer.com/article/10.1007/s12204-024-2730-3

撰文:李金朋

编辑:李博文

责任编辑:黄   伟


感谢关注,欢迎投稿 !

关于我们

《上海交通大学学报》是由教育部主管、上海交通大学主办的自然科学综合性学术刊物。刊登内容主要包括新型电力系统与综合能源、船舶海洋与建筑工程、机械与动力工程、电子信息与电气工程、材料科学与工程等方面的最新研究成果。本刊为中国科技论文统计源核心期刊、CSCD来源期刊、中文核心期刊(北大核心),并被《美国工程索引》(EI)、Scopus、DOAJ等国际权威检索系统所收录。

敬请关注和赐稿!

投稿须知

1.本刊只刊登首发稿,稿件须具有创新性、学术性、科学性和准确性。为保证作者的署名权和知识产权,所有作者应在版权转让协议上签名,须与原稿同时上传。请勿一稿多投、重复内容多次投稿、不同文种重复投稿。

2.本刊为同行评议期刊,审稿结果在4个月内通知作者,在此期间,请勿将稿件投往他处。个别稿件送审时间可能较长。如果作者决定改投他刊或撤稿,请通知编辑部后,再进行处理。

3.在稿件的修改过程中,若超过稿件修改时限30日,编辑部将以作者返回修改稿日期作为投稿日期;无故超过30日,编辑部将对稿件做退稿处理。

4.文责自负,作者同意编辑部根据国家出版规范要求对稿件进行编辑和修改等必要处理。

5.为便于学术信息传播,本刊实行开放获取,收取审稿费和发表费,同时编辑部赠寄当期杂志2册。 

中文版主页https://xuebao.sjtu.edu.cn/CN/1006-2467/home.shtml

英文版主页:https://xuebao.sjtu.edu.cn/sjtu_en/EN/1007-1172/home.shtml

英文版on Springer:https://link.springer.com/journal/12204


   

  

👈学报视频号                    学报b站号👉


扫描二维码   关注我们

Tel:(021)62933373

E-mail:xuebao3373@sjtu.edu.cn


上海交通大学学报
发布学报(自然科学版)最新内容、投稿指南、学报活动,与读者沟通交流
 最新文章