首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

开放下载丨超自然对话语音合成数据集NCSSD

文摘 2024-10-28 18:09 北京

内蒙古大学S2LAB 刘瑞研究员 联合字节跳动、香港中文大学（深圳）等单位推出了涵盖中英双语、超过236小时的超自然对话语音合成数据集——NCSSD，并在GitHub平台开源了搜集子集的数据构建Pipeline，在Hugging Face平台开放了数据下载页面。🚀🚀🚀

您可以通过以下链接免费下载并立即开始使用：

Hugging Face数据集页面：

https://huggingface.co/datasets/walkerhyf/NCSSD

GitHub数据仓库：

https://github.com/walker-hyf/NCSSD

GitHub源码仓库：

https://github.com/walker-hyf/GPT-Talker

GPT-Talker样例页面：

https://walker-hyf.github.io/GPT-Talker/

arXiv预印本论文：

https://arxiv.org/pdf/2407.21491

NCSSD数据集简介：

🔎 超236小时自然对话语音数据，包括搜集自互联网的电视剧集片段（搜集子集），以及人工录制的对话内容（录制子集）。
🌏 支持两种语言：中文（Zh）和英语（En）
📣 丰富的对话场景，涵盖多种对话主题和内容，丰富的说话人（776人以上）。
🏆 基于NCSSD训练的GPT-Talker性能优秀，可以为agent合成自然且具有表现力的对话语音。

NCSSD 数据集统计

GPT-Talker模型结构图

NCSSD数据集构建过程

通过NCSSD数据集，研究者和开发者可以进行大规模语音合成模型的训练和开发，为多语言环境下的语音应用提供强有力的支持！期待大家在使用NCSSD数据集时能够发掘更多惊喜，欢迎分享您的研究成果与经验！

🔔 请注意：该数据集仅可用于非商业科研目的，S2LAB团队不拥有搜集子集部分(CL-ZH和CL-EN)音频文件的版权，版权仍归原始视频或者音频的所有者。想把该数据集及Pipeline用于商业用途，请联系S2LAB团队。

联系我们：liurui_imu @163.com, hyfwalker@163.com

内蒙古大学语音理解与生成实验室 S2LAB：https://ttslr.github.io/

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247533025&idx=1&sn=34e2806017db29ac37eb85455fea0f8b

助力AI语音开发者的社区

最新文章

上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

语音/音频处理学术速递[11.12]

诺奖AI成果开源了！ AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

智谱，让AI视频正式迈入“有声时代”

语音/音频处理学术速递[11.11]

AI语音招聘岗位合集

王仁华：“这是我们民族的事，应该自己闯出这条路！” | 先生

重磅！刚刚Sam Altman万字采访：AGI将在2025年实现，通往 AGI 的道路已经清晰可见

语音增强的跨域优化：并行还是级联？

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

语音/音频处理学术速递[11.8]

【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

港科大、中科大等推出最强扩散Transformer，「黑神话」级3A大作AI实时游戏生成！

语音/音频处理学术速递[11.7]

CNCC2024技术论坛“多模态大模型时代的语音音频技术：带来哪些机遇与挑战？”圆满举行

腾讯混元开源最大 MoE大模型

语音/音频处理学术速递[11.6]

技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

语音/音频处理学术速递[11.5]

自回归量化连续语音合成，潜在扩散模型；多模态音频理解基准

倒计时3天，ISCSLP2024大会即将开幕！注册参会持续开放中

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

语音/音频处理学术速递[11.4]

AI语音招聘岗位合集

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

Meta发布全新后训练方式CGPO，编程水平直升5%

语音/音频处理学术速递[11.1]

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

语音/音频处理学术速递[10.31]

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

博士招生机会！

智源研究院发布千万级多模态指令数据集Infinity-MM：驱动开源模型迈向SOTA性能

语音/音频处理学术速递[10.30]

语音/音频处理学术速递[10.29]

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

可在嘈杂环境中识别声音，新型液态声学传感器模拟鲸鱼额隆

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

开放下载丨超自然对话语音合成数据集NCSSD

对话语音合成大模型GPT-Talker: Generative Expressive CSS

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

语音/音频处理学术速递[10.28]

AI语音招聘岗位合集

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

语音/音频处理学术速递[10.25]

直播预告丨RTE2024 第十届实时互联网大会

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉