本文主要详细介绍了语音中最常见的数据集(包含各个语种)及主要内容等~
1. 数据集
1.1. LJSpeech 单人
官网链接:The LJ Speech Dataset
数据集大小:2.6 GB
内容:包含13,100个音频剪辑,由单位演讲者朗读非小说书籍的片段,总时长约24小时。
文件格式:
单声道 16 位 PCM WAV,采样率为 22050 Hz
元数据存于
metadata.csv
,每行包含:ID | 转录 | 规范化转录
。
快速下载与解压:
wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2
tar -jxvf LJSpeech-1.1.tar.bz2
1.2. JSUT (日语单人语料库)
官网链接:JSUT
数据集大小:2.7 GB
内容:女性演讲者朗读10小时日语文本,包括基本日常用语、拟声词、借词、旅行短句等。
采样率:48kHz,录音在消声室进行。
1.3. RUSLAN (俄语语料库)
官网链接:RUSLAN
内容:22,200条高质量俄语音频样本,总时长超31小时。
用途:主要用于文本到语音转换(TTS)研究。
1.4. RyanSpeech
官网链接:Mohammad H. Mahoor
内容:提供10小时的高质量男性语音数据,用于TTS研究。
采样率:44.1kHz
1.5. VocBench
GitHub 地址:VocBench
用途:为神经声码器性能提供基准测试。
1.6. Arabic Speech Corpus
官网链接:Arabic Speech Corpus
内容:1.5 GB的阿拉伯语(大马士革口音)语音数据,由专业录音室录制。
1.7. Silent Speech EMG
官网链接:Zenodo Repository
内容:记录无声语音和发声语音期间的面部肌电信号。
相关论文:EMNLP 2020
1.8. Hi-Fi Multi-Speaker English TTS Dataset
内容:基于LibriVox与Gutenberg计划,有291.6小时语音,10位演讲者参与。
采样率:44.1kHz
论文:arXiv
1.9. KSS 单人 (韩语语料库)
数据集地址:Kaggle
内容:韩国女性语音数据,适用于TTS研究。
1.10. VCTK 多人
论文:VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit
内容:包含110位发音各异的英语母语者的语音数据。
数据集具体描述:VCTK 数据集包括 110 名具有不同口音的英语母语人士所说的语音数据。每个演讲者朗读大约400个句子,其中大部分是从报纸加上彩虹通道和识别说话者口音的引出段落中挑选出来的。彩虹段落和引出段落对于所有演讲者都是相同的。报纸文本摘自《先驱报》(格拉斯哥),经《先驱报》和时代集团许可。每个说话者阅读一组不同的报纸句子,每组都是使用贪婪算法选择的。
1.11. LibriTTS 多人
论文:LibriTTS
内容:24小时的英语语音,专为TTS研究设计,源自LibriSpeech项目。
数据下载:openslr.org
数据包含了中文和英文,共20个演讲者,每个演讲者都包含5个情绪,每个情绪包含350个语音文件,
2. 多任务数据集
2.1. ESD Dataset
官网链接:https://hltsingapore.github.io/ESD/
内容:包括中文和英文,共20位演讲者,每人覆盖5种情绪。
2.2.EMILA
官网链接:https://opendatalab.com/Amphion/Emilia
内容:包含超过101,000小时的语音数据;涵盖六种不同的语言:英语 (En)、中文 (Zh)、德语 (De)、法语 (Fr)、日语 (Ja) 和韩语 (Ko);
3. 语音情绪识别数据集
3.1. IEMOCAP
内容:302段视频对话,涵盖9种情绪(如愤怒、快乐、惊讶等),用于多模态情绪识别。
数据:录制5组会话,每组有2位演讲者。
数据下载:openslr.org
想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。