学术简讯 | CN-CVS：大规模普通话视听多模态数据集公开发布

文摘科技 2023-06-01 10:40 北京

在即将开幕的 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2023) 中，清华大学语音和语言技术团队发表了论文，报告了在视觉到语音合成（Video to Speech Synthesis, VTS）领域的研究进展，并公开了一个新的大规模普通话视听多模态数据集CN-CVS。论文作者陈琛同学即将前往希腊线下参加会议，并于6/8/2023 15:40:00 (EEST)在Human-Centric Multimedia Session 进行 Poster 展示，欢迎参会学者参与讨论。数据下载和论文信息请参考文末【资源】一节。

内容介绍

在人类感知并理解对话信息时，视觉模态起着相当重要的作用。在听觉信息缺失或受损时，视觉信息的重要性更是尤为突出。视觉到语音合成（VTS）旨在根据无声的对话视频（通常为面部或口唇部位），重建出相应的音频信号。

相较于多模态语音识别（Audio-visual Speech Recognition, AVSR）和唇语识别（Lip Reading / Visual Speech Recognition, VSR），VTS任务的研究尚不充分，目前大多数工作仍然在GRID，TCD-TIMIT等具有较少说话人和受限词汇量的小规模数据集上进行研究。但也有一部分工作已经开始涉足多说话人、大词汇量连续语音的数据集，比如LRS2，LRS3。

然而，大多数公开的视听多模态数据集只包含英语内容，因此绝大多数VTS相关研究都只在英文数据上进行开发与测试。为了支持中文及跨语言VTS任务的研究和应用，我们收集并开源了一个新的大规模普通话视听多模态数据集CN-CVS，并使用当前领先的方法通过实验验证了数据集的挑战性与实用性。

CN-CVS数据集分为News和Speech两个部分，其数据分别来源于新闻类电视节目和演讲类网络节目。CN-CVS/News具有较少的说话人、相对标准的说话方式和相对固定的环境信息；而CN-CVS/Speech则具有大量的说话人和更加复杂多变的环境，充分体现了现实生活中对话场景和内容的复杂性。

据我们所知，在目前公开的中文视听多模态数据集中，CN-CVS是规模最大、说话人最多的数据集。CN-CVS总共有超过2500名说话人，数据总条数超过二十万，总时长超过300小时。具体信息如下表所示：

数据特点

我们从信息的角度对VTS任务的难点进行分析，从而确定CN-CVS数据集的收集准则。

一段对话蕴含着丰富的信息成分，人们通过在脑海中酝酿思考，整理形成文本内容，并通过口唇与声带共同作用发出声音信号进行表达。在这个过程中，我们把包括对话内容、对话者等需要交流的信息作为对话的整体信息空间。在其中，听觉和视觉包含着不同的信息成分。从视觉的角度出发，其所包含的信息可以根据 是否和对话相关 及 是否和语音信息有对应 分为三部分。其中和对话不相关的是噪声信息，和对话相关但和语音没有对应的是非匹配信息，剩下的和语音信息的交叠部分则是匹配信息。例如，环境光照与摄像机的角度、噪点构成了噪声信息的一部分；说话人的表情、手势等贡献出部分非匹配信息；口唇的形状和变化则提供了与内容直接相关的匹配信息。

VTS任务希望从视觉信息获取尽可能多的恢复语音信号所需要的信息。然而，这一任务面临着许多困难和挑战。噪声信息对于VTS任务往往是有害的，非匹配信息对语音信号的重建也没有帮助，并且匹配信息也难以包含重建所需的全部信息。

为了使模型能够更好的学习匹配信息，需要有大量的、能覆盖更多词汇量的连续语音数据。为了使模型能够甄别非匹配信息，数据集中大量的说话人和迥异的说话风格有助于训练说话人无关的模型。而不同视频中摄像机的角度、环境光照等噪声信息则有助于在训练中提升模型的鲁棒性。

因此，CN-CVS基于以下设计准则来收集：

复杂的对话内容
大量的说话人
复杂的环境因素
适量的视觉噪声

统计数据

CN-CVS总共有两千五百多人的超过二十万条数据，数据总时长超过三百小时。

更多统计数据请参考阅读原文链接。

实验结果

我们使用目前在GRID数据集上表现优异的VCA-GAN模型在CN-CVS上面进行了实验。结果表明，在单说话人/多说话人/陌生说话人三种不同的实验设置下，VCA-GAN均无法解决CN-CVS提出的挑战。

可见，CN-CVS所代表的大词汇量连续视觉到语音合成（Large Vocabulary Continuous VTS, LVC-VTS）任务相较于小词汇量的VTS任务具有更高的挑战性。

此外，我们也使用另外两个中文视听多模态数据集CAS-VSR-W1k（LRW1000）和CMLR进行了相关实验。

首先，对于词级别的数据集LRW1000，我们在LRW1000和CN-CVS/Speech上分别训练模型，并在两个数据集上进行测试。结果显示，使用CN-CVS/Speech训练的模型效果优于另外一个。这表明在CN-CVS上进行LVC-VTS的训练能够方便地迁移到词级别VTS任务上。

然后，利用句级别数据集CMLR的数据，我们探究了使用CN-CVS/Speech进行预训练对训练数据较少时模型训练效果的影响。我们使用了CMLR中四个说话人的各一小时数据。

可以看出，在单人数据仅有一小时的情况下，使用CN-CVS/Speech进行预训练之后，模型仅需十分之一的训练量即可超越只在单人数据上训练的结果。

展望

近期已经有相当多使用大量英文视听多模态数据训练的预训练模型在英文LVC-VTS任务上体现出相当优秀的成绩，并且预训练模型也在其他任务上表现相当优异，而中文VTS任务的研究仍然没有突出的进展。我们公开CN-CVS数据集，也是希望能够和研究者同志们一起共建中文视听多模态数据集的开源生态，为中文视听多模态相关任务的研究贡献一份微小的力量。希望有更多的学界业界的研究者们能够一起努力，分享自己的研究成果，相互促进，共同进步。

资源

1. 论文地址：https://ieeexplore.ieee.org/document/10095796

2. 项目网站（数据、样例、代码）：http://cncvs.cslt.org

http://mp.weixin.qq.com/s?__biz=MzI2MzU4NDI4NA==&mid=2247485707&idx=1&sn=2268c9251967de5c4b430891f92ccad5

清语赋

清华大学语音语言团队 (CSLT) 科研学术分享和日常生活百态

中文读唇总动员：CNVSRC 2024 研讨会圆满落幕

中文读唇总动员：CNVSRC 2024 研讨会将于本周五开幕

《人工智能通识课讲义》全面升级，开放下载

中文读唇总动员：CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放

中文读唇总动员：第二届视觉语音识别挑战赛 CNVSRC 2024 启动

【AI100问(19)】人工智能是大杂烩吗？

中文读唇总动员：CNVSRC 2023 研讨会圆满落幕

中文读唇总动员：CNVSRC 2023 研讨会本周六晚开幕

中文读唇总动员：CNVSRC 2023 中文连续视觉语音识别挑战赛 Leaderboard开放

学术简讯 | Pattern Recognition：最大化高斯性准则

中文读唇总动员：CNVSRC 2023 中文连续视觉语音识别挑战赛评测集开放

中文读唇总动员：CNVSRC 2023 视觉语音识别挑战赛启动

学术简讯 | CN-Celeb-AV: 多场景视听多模态数据集发布

学术简讯 |《图解人工智能》正式出版

学术简讯 | CN-CVS：大规模普通话视听多模态数据集公开发布

明星声纹总动员：CNSRC 2022 说话人识别竞赛全栈资源发布

学术简讯 | 基于随机循环一致性准则的语音信息分解工作获 Odyssey 最佳学生论文奖

明星声纹挑战赛 CNSRC 2022 收官，上海交大、国音智能、北理工拔得头筹

明星声纹总动员：CNSRC 2022 声纹识别竞赛研讨会即将召开

明星声纹总动员：CNSRC 2022 系统技术报告提交与 Odyssey 2022 特殊议题征稿

O-COCOSDA 2022 征稿

明星声纹总动员：CNSRC 2022 说话人识别竞赛 Leaderboard 开放

明星声纹总动员：CNSRC 2022 说话人识别竞赛开发集和基线系统发布

明星声纹总动员：CNSRC 2022 说话人识别竞赛启动

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉