ModelCube数据集 | 语音性别识别数据集

文摘 2024-09-12 07:58 浙江

ModelCube（modelcube.cn）是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术，实现了科研场景中全类型数据管理与标注，实验环境快速获取与灵活定制，模型的全生命周期管理，科研成果的管理与发布，以及 AI驱动的论文检索和学习等功能。

介绍

基于语音分析的性别识别。创建这个数据是为了根据声音和语音的声学特性来识别声音是男性还是女性。该数据集由3168个记录的语音样本组成，这些样本来自男性和女性说话者。语音样本通过使用seewave和tuneR软件包中的声学分析进行预处理，分析的频率范围为0hz-280hz(人声范围)。

字段说明

字段名称	字段说明
meanfreq	平均频率(kHz)
sd	频率的标准偏差
median	中值频率(kHz)
Q25	第一个分位数(kHz)
Q75	第三个分位数(单位:kHz)
IQR	分位数范围(kHz)
skew	偏斜度(请参见specprop描述中的注释)
kurt	峰度(见specprop描述中的注释)
sp.ent	光谱熵
sfm	光谱平坦度
mode	模式频率
centroid	频率质心(见specprop)
peakf	峰值频率(能量最高的频率)
meanfun	通过声学信号测量的基频的平均值
minfun	通过声学信号测量的最小基频
maxfun	通过声学信号测量的最大基频
meandom	通过声学信号测量的主频的平均值
mindom	通过声学信号测量的主频的最小值
maxdom	通过声学信号测量的主频的最大值
dfrange	通过声学信号测量的主频范围
modindx	调制指数。计算为基频相邻测量值之间的累积绝对差除以频率范围
label	男性或女性

准确性

基线(总是预测男性)

50%/50%

逻辑回归

97%/98%

CART

96%/97%

随机森林

100%/98%

SVM

100%/99%

XGBoost

100%/99%

数据引用

数据集的原始分析可以在以下文章中找到:

使用机器学习识别声音的性别

最佳模型在测试集上实现了99%的准确率。根据CART模型，观察平均基频似乎足以准确地对语音进行分类。然而，一些男声使用更高的频率，尽管它们的共鸣与女声不同，并且可能被错误地归类为女声。对于人的耳朵来说，决定声音性别的显然不仅仅是简单的频率。

数据集的用途

1.男声和女声有哪些不同之处？

2.我们能在男声和女声之间找到共鸣的区别吗？

3.我们能从普通声音中辨别假声吗？(可能需要单独的数据集)

4.数据中还有其他有趣的特征吗？

参考文献

哈佛哈斯金斯定时演讲数据库

麦吉尔大学电信与信号处理实验室(TSP)语音数据库，主页

VoxForge语音语料库，主页

卡内基梅隆大学Festvox CMU_ARCTIC语音数据库

数据文件

下载数据集请登录ModelCube
http://modelcube.cn/dataset/dataset-detail/10128

http://mp.weixin.qq.com/s?__biz=MzU2NTcxODIyMg==&mid=2247515942&idx=1&sn=a71580acb87162c084bdba35e49a683b

数据科学人工智能

聚焦数据科学，大数据，人工智能，区块链和云计算等话题。技术资料分享，院士名家观点分享，前沿资讯分享。

最新文章

ModelCube数据集 | NBA球员数据集（1950年至今）

ModelCube数据集 | 泰坦尼克号数据集

ModelCube数据集 | 英国二手车数据集

ModelCube数据集 | 语音性别识别数据集

ModelCube数据集 | 印度板球超级联赛数据集

ModelCube数据集 | 心脏病数据集

ModelCube数据集 | 手语数字数据集

ModelCube数据集 | 2020年世界卫生统计报告数据集|完整|地理分析

ModelCube数据集 | 印度创业基金数据集

ModelCube数据集 | 太阳能发电数据集

ModelCube数据集 | 拉面评分数据集

ModelCube数据集 | 《权力的游戏》数据集

ModelCube数据集 | PJM小时能耗数据集

ModelCube数据集 | 枪支暴力数据集

ModelCube数据集 | 糖尿病数据集

ModelCube数据集 | 用于讽刺检测的新闻标题数据集

ModelCube数据集 | 国际足联世界杯数据集

ModelCube数据集 | 零售数据分析数据集

ModelCube数据集 | 校园招聘数据集

ModelCube数据集 | Spotify2019年Top50歌曲数据集

ModelCube数据集 | 钻石数据集

ModelCube数据集 | 标准普尔500指数股票数据集

ModelCube数据集 | 医疗预约数据集

ModelCube数据集 | IMDB 50K电影评论数据集

ModelCube阅读列表 | 机器学习运维MLOps

ModelCube数据集 | 亚马逊Top50畅销书数据集（2009-2019年）

ModelCube数据集 | 视频游戏销售额与评级数据集

ModelCube阅读列表 | 对抗生成网络

ModelCube数据集 | 女性电子商务服装评论数据集

ModelCube阅读列表 | ImageNet架构和技巧

ModelCube数据集 | WHO预期寿命数据集

ModelCube数据集 | 加州房价数据集

ModelCube阅读列表 | 强化学习

ModelCube数据集 | 用于脑肿瘤检测的脑MRI图像

ModelCube数据集 | 全球大学排行数据集

ModelCube实验 | 基于Seaborn的保险费用数据散点图实践

ModelCube阅读列表 | 数据挖掘十大算法

ModelCube数据集 | 移动应用商店（7200个应用）数据集

ModelCube实验 | 基于出租车数据的城市交通流分析

ModelCube数据集 | Zomato Bangalore餐厅评论数据集

ModelCube数据集 | （MBTI）Myers-Briggs人格类型数据集

ModelCube实验 | 使用Pandas对美国橄榄球联盟 (NFL) 数据进行数据清洗

ModelCube阅读列表 | 主题模型

ModelCube数据集 | 巧克力棒评分数据集

ModelCube数据集 | 人力资源分析：数据科学家工作变动数据集

ModelCube实验 | 基于集成学习的肾结石预测

ModelCube阅读列表 | 神经网络优化

ModelCube数据集 | 国际象棋游戏数据集（Lichess）

ModelCube实验 | 在线送餐客户流失分析与预测

ModelCube数据集 | 水质数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉