数据集调研 | 语音合成,语音识别常见数据集及数据格式详情

文摘 2024-11-07 14:30 印度尼西亚

👆点击上方名片关注哟👆

本文主要详细介绍了语音中最常见的数据集（包含各个语种）及主要内容等~

1. 数据集

1.1. LJSpeech 单人

官网链接：The LJ Speech Dataset
数据集大小：2.6 GB
内容：包含13,100个音频剪辑，由单位演讲者朗读非小说书籍的片段，总时长约24小时。
文件格式：

单声道 16 位 PCM WAV，采样率为 22050 Hz
元数据存于metadata.csv，每行包含：ID | 转录 | 规范化转录。

快速下载与解压：

wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2  tar -jxvf LJSpeech-1.1.tar.bz2

1.2. JSUT (日语单人语料库)

官网链接：JSUT
数据集大小：2.7 GB
内容：女性演讲者朗读10小时日语文本，包括基本日常用语、拟声词、借词、旅行短句等。
采样率：48kHz，录音在消声室进行。

1.3. RUSLAN (俄语语料库)

官网链接：RUSLAN
内容：22,200条高质量俄语音频样本，总时长超31小时。
用途：主要用于文本到语音转换（TTS）研究。

1.4. RyanSpeech

官网链接：Mohammad H. Mahoor
内容：提供10小时的高质量男性语音数据，用于TTS研究。
采样率：44.1kHz

1.5. VocBench

GitHub 地址：VocBench
用途：为神经声码器性能提供基准测试。

1.6. Arabic Speech Corpus

官网链接：Arabic Speech Corpus
内容：1.5 GB的阿拉伯语（大马士革口音）语音数据，由专业录音室录制。

1.7. Silent Speech EMG

官网链接：Zenodo Repository
内容：记录无声语音和发声语音期间的面部肌电信号。
相关论文：EMNLP 2020

1.8. Hi-Fi Multi-Speaker English TTS Dataset

内容：基于LibriVox与Gutenberg计划，有291.6小时语音，10位演讲者参与。
采样率：44.1kHz
论文：arXiv

1.9. KSS 单人 (韩语语料库)

数据集地址：Kaggle
内容：韩国女性语音数据，适用于TTS研究。

1.10. VCTK 多人

论文：VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit
内容：包含110位发音各异的英语母语者的语音数据。

数据集具体描述：VCTK 数据集包括 110 名具有不同口音的英语母语人士所说的语音数据。每个演讲者朗读大约400个句子，其中大部分是从报纸加上彩虹通道和识别说话者口音的引出段落中挑选出来的。彩虹段落和引出段落对于所有演讲者都是相同的。报纸文本摘自《先驱报》（格拉斯哥），经《先驱报》和时代集团许可。每个说话者阅读一组不同的报纸句子，每组都是使用贪婪算法选择的。

1.11. LibriTTS 多人

论文：LibriTTS
内容：24小时的英语语音，专为TTS研究设计，源自LibriSpeech项目。

论文：LibriTTS：A Corpus Derived from LibriSpeech for Text-to-Speech
论文地址：https://arxiv.org/pdf/1904.02882.pdf
数据下载：openslr.org

数据包含了中文和英文，共20个演讲者，每个演讲者都包含5个情绪，每个情绪包含350个语音文件，

2. 多任务数据集

2.1. ESD Dataset

官网链接：https://hltsingapore.github.io/ESD/
内容：包括中文和英文，共20位演讲者，每人覆盖5种情绪。

2.2.EMILA

官网链接：https://opendatalab.com/Amphion/Emilia
内容：包含超过101,000小时的语音数据；涵盖六种不同的语言：英语 (En)、中文 (Zh)、德语 (De)、法语 (Fr)、日语 (Ja) 和韩语 (Ko)；

3. 语音情绪识别数据集

3.1. IEMOCAP

内容：302段视频对话，涵盖9种情绪（如愤怒、快乐、惊讶等），用于多模态情绪识别。
数据：录制5组会话，每组有2位演讲者。

论文：LibriTTS：A Corpus Derived from LibriSpeech for Text-to-Speech
论文地址：https://arxiv.org/pdf/1904.02882.pdf
数据下载：openslr.org

想要了解更多内容，可在小程序搜索🔍AI Pulse,获取更多最新内容。

http://mp.weixin.qq.com/s?__biz=MzIzODI0MzQ5Mw==&mid=2650903859&idx=1&sn=6935347120a2e36ecc85aa86677956ea

AI Pulse

"AI Pulse - AI脉动"，探索AI技术前沿，深入解析算法精髓，分享行业应用案例，洞察智能科技未来。欢迎关注，与我们共赴AI学习之旅。

最新文章

NLP | GloVe(带有全局向量的词嵌入) 图文详解及代码

NLP | 自然语言处理经典seq2seq网络BERT详解及代码

NLP | XLNet ：用于语言理解的广义自回归预训练论文详解

数据集调研 | 语音合成,语音识别常见数据集及数据格式详情

Speech | 分割单个/批量音频python实现语音处理代码

Speech | 文本转语音中的声码器(Vocoder)

生成模型 | 代码简单实现生成对抗网络GAN

论文调研 | 一文总览万字语音合成系列基础知识及论文总结

论文调研合集：计算机视觉篇

论文调研 | Segment Anything Model(SAM)在医学影像上的各种方法

论文调研 | 室内语义建图(Semantic Image Segmentation)

论文调研 | 医学影像上的图像分类分割模型

NLP | SentenceTransformer将句子进行编码并计算句子语义相似度实战

CV | [顶刊CVPR2024]YOLO-World论文详解

Speech | NaturalSpeech2语音合成论文解析

论文调研 | Segment Anything Model(SAM)在医学影像上的各种方法

Speech | 人工智能中语音质量评估方法详解及代码

生成模型 | GAN生成系列论文及代码调研总结

CV | Medical-SAM-Adapter论文详解及项目实现

CV | 室内语义建图(Semantic Image Segmentation)的论文调研

Speech | 提取语音(数据集)的语音特征工具合集数据处理教程

实用篇 | 一文学会使用huggingface🤗

论文调研 | 2010-2024年万字情绪识别(EmotionRecognition)论文总结

数据集 | 基于语音（Speech）/多模态（Multimodal）的情绪识别数据集，格式及下载(图文详情)

API相关 | 一文学会人工智能中API的Flask编写(内含模板)

API相关 | 一文快速构建人工智能前端展示streamlit应用

CV | 手把手教你使用YOLO11训练自己的数据集

环境配置 | 在VSCode配置anaconda环境(图文详情)

CV | 医学影像上的图像分类分割模型调研【更新于20241015】

论文Idea | 人工智能与建筑的交叉领域探索

Mamba：使用选择性状态空间的线性时间序列建模

从银幕到现实：擎天柱机器人即将改变我们的生活

一文快速构建人工智能前端展示streamlit应用

LLM | 一些开源的AI代码生成模型调研及总结

MLLM | 多模态论文调研

TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)

YOLO | 用YOLOv7训练自己的数据集（超详细版）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉