在即将开幕的 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2023) 中,清华大学语音和语言技术团队发表了论文,报告了在视觉到语音合成(Video to Speech Synthesis, VTS)领域的研究进展,并公开了一个新的大规模普通话视听多模态数据集CN-CVS。论文作者陈琛同学即将前往希腊线下参加会议,并于6/8/2023 15:40:00 (EEST)在Human-Centric Multimedia Session 进行 Poster 展示,欢迎参会学者参与讨论。数据下载和论文信息请参考文末【资源】一节。
在人类感知并理解对话信息时,视觉模态起着相当重要的作用。在听觉信息缺失或受损时,视觉信息的重要性更是尤为突出。视觉到语音合成(VTS)旨在根据无声的对话视频(通常为面部或口唇部位),重建出相应的音频信号。相较于多模态语音识别(Audio-visual Speech Recognition, AVSR)和唇语识别(Lip Reading / Visual Speech Recognition, VSR),VTS任务的研究尚不充分,目前大多数工作仍然在GRID,TCD-TIMIT等具有较少说话人和受限词汇量的小规模数据集上进行研究。但也有一部分工作已经开始涉足多说话人、大词汇量连续语音的数据集,比如LRS2,LRS3。
然而,大多数公开的视听多模态数据集只包含英语内容,因此绝大多数VTS相关研究都只在英文数据上进行开发与测试。为了支持中文及跨语言VTS任务的研究和应用,我们收集并开源了一个新的大规模普通话视听多模态数据集CN-CVS,并使用当前领先的方法通过实验验证了数据集的挑战性与实用性。CN-CVS数据集分为News和Speech两个部分,其数据分别来源于新闻类电视节目和演讲类网络节目。CN-CVS/News具有较少的说话人、相对标准的说话方式和相对固定的环境信息;而CN-CVS/Speech则具有大量的说话人和更加复杂多变的环境,充分体现了现实生活中对话场景和内容的复杂性。据我们所知,在目前公开的中文视听多模态数据集中,CN-CVS是规模最大、说话人最多的数据集。CN-CVS总共有超过2500名说话人,数据总条数超过二十万,总时长超过300小时。具体信息如下表所示:我们从信息的角度对VTS任务的难点进行分析,从而确定CN-CVS数据集的收集准则。
一段对话蕴含着丰富的信息成分,人们通过在脑海中酝酿思考,整理形成文本内容,并通过口唇与声带共同作用发出声音信号进行表达。在这个过程中,我们把包括对话内容、对话者等需要交流的信息作为对话的整体信息空间。在其中,听觉和视觉包含着不同的信息成分。从视觉的角度出发,其所包含的信息可以根据 是否和对话相关 及 是否和语音信息有对应 分为三部分。其中和对话不相关的是噪声信息,和对话相关但和语音没有对应的是非匹配信息,剩下的和语音信息的交叠部分则是匹配信息。例如,环境光照与摄像机的角度、噪点构成了噪声信息的一部分;说话人的表情、手势等贡献出部分非匹配信息;口唇的形状和变化则提供了与内容直接相关的匹配信息。VTS任务希望从视觉信息获取尽可能多的恢复语音信号所需要的信息。然而,这一任务面临着许多困难和挑战。噪声信息对于VTS任务往往是有害的,非匹配信息对语音信号的重建也没有帮助,并且匹配信息也难以包含重建所需的全部信息。为了使模型能够更好的学习匹配信息,需要有大量的、能覆盖更多词汇量的连续语音数据。为了使模型能够甄别非匹配信息,数据集中大量的说话人和迥异的说话风格有助于训练说话人无关的模型。而不同视频中摄像机的角度、环境光照等噪声信息则有助于在训练中提升模型的鲁棒性。CN-CVS总共有两千五百多人的超过二十万条数据,数据总时长超过三百小时。更多统计数据请参考阅读原文链接。
我们使用目前在GRID数据集上表现优异的VCA-GAN模型在CN-CVS上面进行了实验。结果表明,在单说话人/多说话人/陌生说话人三种不同的实验设置下,VCA-GAN均无法解决CN-CVS提出的挑战。可见,CN-CVS所代表的大词汇量连续视觉到语音合成(Large Vocabulary Continuous VTS, LVC-VTS)任务相较于小词汇量的VTS任务具有更高的挑战性。
此外,我们也使用另外两个中文视听多模态数据集CAS-VSR-W1k(LRW1000)和CMLR进行了相关实验。
首先,对于词级别的数据集LRW1000,我们在LRW1000和CN-CVS/Speech上分别训练模型,并在两个数据集上进行测试。结果显示,使用CN-CVS/Speech训练的模型效果优于另外一个。这表明在CN-CVS上进行LVC-VTS的训练能够方便地迁移到词级别VTS任务上。
然后,利用句级别数据集CMLR的数据,我们探究了使用CN-CVS/Speech进行预训练对训练数据较少时模型训练效果的影响。我们使用了CMLR中四个说话人的各一小时数据。
可以看出,在单人数据仅有一小时的情况下,使用CN-CVS/Speech进行预训练之后,模型仅需十分之一的训练量即可超越只在单人数据上训练的结果。
近期已经有相当多使用大量英文视听多模态数据训练的预训练模型在英文LVC-VTS任务上体现出相当优秀的成绩,并且预训练模型也在其他任务上表现相当优异,而中文VTS任务的研究仍然没有突出的进展。我们公开CN-CVS数据集,也是希望能够和研究者同志们一起共建中文视听多模态数据集的开源生态,为中文视听多模态相关任务的研究贡献一份微小的力量。希望有更多的学界业界的研究者们能够一起努力,分享自己的研究成果,相互促进,共同进步。1. 论文地址:https://ieeexplore.ieee.org/document/10095796
2. 项目网站(数据、样例、代码):http://cncvs.cslt.org