论文导读 I 基于通用音素识别器的低资源语言发音词典生成探索（网络首发）

文摘 2024-06-19 09:01 上海

交大学报英文版论文导读

探|索|科|技|前|沿强|国|复|兴|有|我

导语

本期推介论文已在《上海交通大学学报（英文版）》网络首发。欢迎相关领域的研究者阅读、引用！

Exploring Generation of Pronunciation Lexicon for Low-Resource Language Automatic Speech Recognition Based on Generic Phone Recognizer

基于通用音素识别器的低资源语言发音词典生成探索

清华大学电子工程系语音与音频技术实验室（SATLab）×上海交通大学计算机科学与工程系智能语音技术实验室

本期推介论文已在《上海交通大学学报（英文版）》网络首发，研究了如何利用音素识别器在低资源语言数据量较少的情况下自动生成发音词典，以供语音识别系统使用。

欢迎相关领域的研究者转发、引用！

PART.1 本文亮点

1、探讨了如何利用通用音素识别器以语音数据驱动的方式生成低资源语言的发音词典。

2、构建简单且通用的流程，通过子词单元与发音间的过滤与映射等方法，优化生成词典的质量。

3、在多个低资源语言的混合语音系统和预训练模型微调的性能上，使用生成词典时系统的性能优于使用基于字素的词典，并可与使用专家词典相比较。

PART.2 内容简介

基于通用音素识别器的低资源语言发音词典生成探索

发音词典是传统混合自动语音识别系统的重要组成部分，然而, 高质量词典需要语言专家的精心标注, 通常难以获得, 特别是对于低资源语言。

本文要解决的问题是, 如何利用多语言语音数据和发音词典训练获得的通用音素识别器, 通过语音数据驱动的方式为低资源语言生成发音词典。提出了一个简易的方案来生成发音词典, 并将其应用到自动语音识别系统中。生成词典步骤是通用的：首先, 在语音数据上使用国际音标（IPA）音素识别器, 然后将音素识别结果与参考文本进行对齐, 接着进行过滤以获得一系列子词, 利用来生成AUTO-subword词典和AUTO-IPA词典。将生成的发音词典用于混合系统和微调预训练模型。实验结果表明, 能够在无需语言专家资源的情况下构建词典, 并应用到语音识别系统中。

图文导读

提出的发音词典生成流程如图1所示，由音素识别、对齐、过滤和最终映射生成。首先，我们使用语言无关的音素识别器生成音素序列；然后，利用对齐在单词或子词层面对生成的音素序列进行分割。过滤模块的目的是去除音素识别和对齐过程中产生的一些噪声输出，经过过滤步骤后，可以得到一系列称为 AUTO-subword的子词，从而生成两种类型的词典。一种是AUTO-subword词典，将单词分割成子词；另一种是 AUTO-IPA 词典，根据为每个AUTO-subword对应的发音生成而得。

图1 提出的生成发音词典的流程

研究结果或研究发现：

在索马里语与粤语上的结果如表1所示。在索马里语的语音识别系统中，使用字素词典和专家词典之间的性能差距很小，而使用 AUTO-subword词典的性能要优于使用专家词典的性能。这表明我们可以通过提取 AUTO-subword单元来替代字素作为最小建模单元以进行改进。

表1 将词典应用于混合语音系统与预训练微调系统的词错误率对比

对于粤语，使用字素词典和专家词典之间的性能差距较大，而使用 AUTO-IPA 词词典可以缩小没有专家知识的情况和使用专家词典的情况之间的差距。在混合系统中，使用 AUTO-IPA 词典能够缩小约 51.8%的差距，而在微调预训练系统中，这一数值达到了 68.3%。还与其他生成方法进行了对比如图2所示，对比结果如表2所示。

图2 用不同方法生成词典以进行比较

表2 将不同生成方法的词典应用于混合语音系统的词错误率对比

从结果中可以看出，直接使用对齐后得到的词-音素序列对应关系作为词典内容时的性能很差。即使在对齐步骤后使用 G2P 模型生成词典，其性能也与提出的方法生成的词典有明显差距。这表明了提出的生成方法所做的改进能够提升系统的性能。

随着语音识别模型性能的不断优化，未来此方法将有机会更高效地为更多低资源语言生成发音词典。

PART.3 作者简介

李金朋，清华大学电子工程系在读硕士研究生，主要研究方向为基于大规模语音模型的语音分类与小语种语音识别。目前已在ICASSP与INTERSPEECH上发表多篇文章。

陈谐，上海交通大学计算机科学与工程系副教授，博士生导师。博士毕业于剑桥大学信息工程系，先后在剑桥大学从事博士后研究，美国微软研究院任高级研究员，资深研究员，2021年9月加入上海交通大学。主要研究方向为深度学习，智能语音和声音信号处理，在本领域的国际权威会议和期刊发表论文80余篇。

通讯作者简介：

张卫强，清华大学电子工程系副研究员，语音与音频技术实验室负责人。2009年在清华大学获博士学位，2009年至今在在清华大学电子工程系任教，2017年在斯坦福大学任访问学者。主要研究方向为语音与音频信号处理、低资源语音识别等。以负责人身份承担自然科学基金联合重点项目、国家重点研发专项课题等多个项目。发表学术论文200余篇；申请国家发明专利40余项。获教育部科技进步一等奖、科技奥运先进集体奖，获得NIST等多项国际语音比赛冠军。

PART.4 引文信息

Li Jinpeng, Chen Xie, Zhang Weiqiang. Exploring Generation of Pronunciation Lexicon for Low-Resource Language Automatic Speech Recognition Based on Generic Phone Recognizer. Journal of Shanghai Jiao Tong University（Science）, 2024.（Online First）

文章链接：https://link.springer.com/article/10.1007/s12204-024-2730-3

撰文：李金朋

编辑：李博文

责任编辑：黄伟

感谢关注，欢迎投稿！

关于我们

《上海交通大学学报》是由教育部主管、上海交通大学主办的自然科学综合性学术刊物。刊登内容主要包括新型电力系统与综合能源、船舶海洋与建筑工程、机械与动力工程、电子信息与电气工程、材料科学与工程等方面的最新研究成果。本刊为中国科技论文统计源核心期刊、CSCD来源期刊、中文核心期刊（北大核心），并被《美国工程索引》(EI)、Scopus、DOAJ等国际权威检索系统所收录。

敬请关注和赐稿！

投稿须知

1.本刊只刊登首发稿，稿件须具有创新性、学术性、科学性和准确性。为保证作者的署名权和知识产权，所有作者应在版权转让协议上签名，须与原稿同时上传。请勿一稿多投、重复内容多次投稿、不同文种重复投稿。

2.本刊为同行评议期刊，审稿结果在4个月内通知作者，在此期间，请勿将稿件投往他处。个别稿件送审时间可能较长。如果作者决定改投他刊或撤稿，请通知编辑部后，再进行处理。

3.在稿件的修改过程中，若超过稿件修改时限30日，编辑部将以作者返回修改稿日期作为投稿日期；无故超过30日，编辑部将对稿件做退稿处理。

4.文责自负，作者同意编辑部根据国家出版规范要求对稿件进行编辑和修改等必要处理。

5.为便于学术信息传播，本刊实行开放获取，收取审稿费和发表费，同时编辑部赠寄当期杂志2册。

中文版主页：https://xuebao.sjtu.edu.cn/CN/1006-2467/home.shtml

英文版主页：https://xuebao.sjtu.edu.cn/sjtu_en/EN/1007-1172/home.shtml

英文版on Springer：https://link.springer.com/journal/12204

👈学报视频号 学报b站号👉

扫描二维码 关注我们

Tel：(021)62933373

E-mail：xuebao3373@sjtu.edu.cn

http://mp.weixin.qq.com/s?__biz=MzU1NDc4NTEyOA==&mid=2247502633&idx=1&sn=1f6634d5a87079ec18bd87a2fcfcc63d

上海交通大学学报

发布学报（自然科学版）最新内容、投稿指南、学报活动，与读者沟通交流

最新文章

封面竞猜结果出炉！| 英文版第29卷第5期

新型电力系统与综合能源 |《上海交通大学学报》2024年第9期目次

会议预告丨上海交通大学学报“作者沙龙”第7期之“船舶海洋与建筑工程”专场

征稿启事丨“智能机器人”专辑

封面文章我来猜 I 《上海交通大学学报（英文版）》2024年第5期

论文导读 I 基于Voronoi Tessellation 算法为骨组织工程开发的径向梯度骨支架的力学和渗透特性（网络首发）

机械与动力工程 |《上海交通大学学报》2024年第8期目次

作者沙龙丨第6期之“新型电力系统与综合能源”专场成功举办

专辑论文导读 I 基于多目标松散同步搜索的多目标多智能体异步路径规划

会议预告丨上海交通大学学报“作者沙龙”第6期之“新型电力系统与综合能源”专场

船舶海洋与建筑工程 |《上海交通大学学报》2024年第7期目次

专辑推荐｜多智能体协同感知与控制

论文导读 I 共享储能关键技术与应用

论文导读 I 基于安全深度强化学习的电网有功频率协同优化控制

新型电力系统与综合能源 |《上海交通大学学报》2024年第6期目次

作者沙龙丨第5期之“新型电力系统与综合能源”专场成功举办

新型电力系统与综合能源 |《上海交通大学学报》2024年第5期目次

《上海交通大学学报》作者群期待您的加入~

论文导读 I 基于通用音素识别器的低资源语言发音词典生成探索（网络首发）

封面竞猜结果出炉！| 英文版第29卷第3期

会议预告丨上海交通大学学报“作者沙龙”第5期之“新型电力系统与综合能源”专场

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉