通过AI工具,可以恢复因喉癌或下咽癌等疾病失去的声音。大阪大学研究生院信息科学研究科的御堂义博特任副教授(全职)、三浦典之教授,以及该校研究生院医学系研究科的猪原秀典教授组成的研究团队开发出了 “基于AI读唇的日语发声系统Lip2ja”,并将其制成了智能手机的应用程序。该程序使用可通过短时间的发声录音实现个性化语音合成的发声平台 “CoeFont”,使其能够模仿本人的声音发声。研究团队已经在第75届日本气管食道科学会上发表了相关成果。
通过手机相机拍摄说话人的口型合成声音
因喉癌等失去声音的人可以使用替代音声发声,但需要在脖子上佩戴特殊设备,或通过颈部开口发声,对身体负担大,且声音与本人原来的声音相去甚远。
通过摄像头拍摄口部视频来推测发声内容的机器读唇软件,在母音数量较多(约24个)的英语中已实现高精度应用。然而,在母音只有5个的日语中,如 “ka” 和 “a” 的口部形状上几乎相同,因此被认为难以实现读唇。
2009年,神奈川工科大学信息学部的宫崎刚助教等人提出了 “口型代码”。并发现了日语发声时口部形状变化中,不仅仅是发声字符的母音,还要考虑到前后文字关系的规律性,并成功将这一关系编码为口型代码。口型代码有16种,比日语的5个母音更详细地将口部形状与发声字符关联到一起。
研究小组将根据口部视频推测口型代码的AI以及根据推测得到的口型代码转换为日语文字的AI组合到了一起,开发出了两段式AI读唇应用程序。通过将自然语言处理AI应用于高精度推测的口型代码,成功地将普通日本人无法辨识的口型代码翻译成了自然的日语。
此外,通过利用记录简短语音来合成个性化声音发声平台 “CoeFont”,还实现了用本人的声音 “读出” 内容的功能。
可能会因手术等失去声音的患者可以事先录入自己的声音,这样手术后便可仅通过口部动作重现失去的声音。这种声音再现不仅对患者本人,还可帮助与其共同生活的家人提高生活质量。
CoeFont公司向研究小组无偿提供了该软件,使其成功开发出此次的系统。
御堂副教授表示:“此次大阪大学的医工合作研发的系统,通过语音实现无障碍沟通,即使不幸无法自然发声,也能以尽可能接近发声状态进行交流。当回忆起与家人朋友的往事时,伴随着图像唤起生动的声音的情景并不罕见。我们成功开发出了技术方面存在困难的日语读唇发声系统,希望该系统不仅能提升日常生活质量,还能为珍贵的记忆添上声音的色彩。在2024年5月举行的第125届日本耳鼻咽喉科头颈部外科学会总会及学术讲演会的专题讨论会上,CoeFont的AI声音的高品质给我留下了深刻印象。该公司快速支持了我们的研究,大幅改进了通过读唇实现用本人声音发声的系统。”
原文:《科学新闻》
翻译:JST客观日本编辑部