数据集调研 | 语音合成,语音识别常见数据集及数据格式详情

文摘   2024-11-07 14:30   印度尼西亚  
👆点击上方名片关注哟👆

本文主要详细介绍了语音中最常见的数据集(包含各个语种)及主要内容等~

1. 数据集

1.1. LJSpeech 单人

  • 官网链接:The LJ Speech Dataset

  • 数据集大小:2.6 GB

  • 内容:包含13,100个音频剪辑,由单位演讲者朗读非小说书籍的片段,总时长约24小时。

  • 文件格式

    • 单声道 16 位 PCM WAV,采样率为 22050 Hz

    • 元数据存于metadata.csv,每行包含:ID | 转录 | 规范化转录

快速下载与解压:

wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2  tar -jxvf LJSpeech-1.1.tar.bz2


1.2. JSUT (日语单人语料库)

  • 官网链接:JSUT

  • 数据集大小:2.7 GB

  • 内容:女性演讲者朗读10小时日语文本,包括基本日常用语、拟声词、借词、旅行短句等。

  • 采样率:48kHz,录音在消声室进行。


1.3. RUSLAN (俄语语料库)

  • 官网链接:RUSLAN

  • 内容:22,200条高质量俄语音频样本,总时长超31小时。

  • 用途:主要用于文本到语音转换(TTS)研究。


1.4. RyanSpeech

  • 官网链接:Mohammad H. Mahoor

  • 内容:提供10小时的高质量男性语音数据,用于TTS研究。

  • 采样率:44.1kHz


1.5. VocBench

  • GitHub 地址:VocBench

  • 用途:为神经声码器性能提供基准测试。


1.6. Arabic Speech Corpus

  • 官网链接:Arabic Speech Corpus

  • 内容:1.5 GB的阿拉伯语(大马士革口音)语音数据,由专业录音室录制。


1.7. Silent Speech EMG

  • 官网链接:Zenodo Repository

  • 内容:记录无声语音和发声语音期间的面部肌电信号。

  • 相关论文:EMNLP 2020


1.8. Hi-Fi Multi-Speaker English TTS Dataset

  • 内容:基于LibriVox与Gutenberg计划,有291.6小时语音,10位演讲者参与。

  • 采样率:44.1kHz

  • 论文:arXiv


1.9. KSS 单人 (韩语语料库)

  • 数据集地址:Kaggle

  • 内容:韩国女性语音数据,适用于TTS研究。


1.10. VCTK 多人

  • 论文:VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit

  • 内容:包含110位发音各异的英语母语者的语音数据。

数据集具体描述:VCTK 数据集包括 110 名具有不同口音的英语母语人士所说的语音数据。每个演讲者朗读大约400个句子,其中大部分是从报纸加上彩虹通道和识别说话者口音的引出段落中挑选出来的。彩虹段落和引出段落对于所有演讲者都是相同的。报纸文本摘自《先驱报》(格拉斯哥),经《先驱报》和时代集团许可。每个说话者阅读一组不同的报纸句子,每组都是使用贪婪算法选择的。


1.11. LibriTTS 多人

  • 论文:LibriTTS

  • 内容:24小时的英语语音,专为TTS研究设计,源自LibriSpeech项目。

论文:LibriTTS:A Corpus Derived from LibriSpeech for Text-to-Speech

论文地址:https://arxiv.org/pdf/1904.02882.pdf

数据下载:openslr.org

数据包含了中文和英文,共20个演讲者,每个演讲者都包含5个情绪,每个情绪包含350个语音文件,

2. 多任务数据集


2.1. ESD Dataset

  • 官网链接:https://hltsingapore.github.io/ESD/

  • 内容:包括中文和英文,共20位演讲者,每人覆盖5种情绪。


2.2.EMILA 

  • 官网链接:https://opendatalab.com/Amphion/Emilia

  • 内容:包含超过101,000小时的语音数据;涵盖六种不同的语言:英语 (En)、中文 (Zh)、德语 (De)、法语 (Fr)、日语 (Ja) 和韩语 (Ko);

3. 语音情绪识别数据集

3.1. IEMOCAP

  • 内容:302段视频对话,涵盖9种情绪(如愤怒、快乐、惊讶等),用于多模态情绪识别。

  • 数据:录制5组会话,每组有2位演讲者。

论文:LibriTTS:A Corpus Derived from LibriSpeech for Text-to-Speech

论文地址:https://arxiv.org/pdf/1904.02882.pdf

数据下载:openslr.org




想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。

AI Pulse
"AI Pulse - AI脉动",探索AI技术前沿,深入解析算法精髓,分享行业应用案例,洞察智能科技未来。欢迎关注,与我们共赴AI学习之旅。
 最新文章