ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。
介绍
基于语音分析的性别识别。创建这个数据是为了根据声音和语音的声学特性来识别声音是男性还是女性。该数据集由3168个记录的语音样本组成,这些样本来自男性和女性说话者。语音样本通过使用seewave和tuneR软件包中的声学分析进行预处理,分析的频率范围为0hz-280hz(人声范围)。
字段说明
字段名称 | 字段说明 |
---|---|
meanfreq | 平均频率(kHz) |
sd | 频率的标准偏差 |
median | 中值频率(kHz) |
Q25 | 第一个分位数(kHz) |
Q75 | 第三个分位数(单位:kHz) |
IQR | 分位数范围(kHz) |
skew | 偏斜度(请参见specprop描述中的注释) |
kurt | 峰度(见specprop描述中的注释) |
sp.ent | 光谱熵 |
sfm | 光谱平坦度 |
mode | 模式频率 |
centroid | 频率质心(见specprop) |
peakf | 峰值频率(能量最高的频率) |
meanfun | 通过声学信号测量的基频的平均值 |
minfun | 通过声学信号测量的最小基频 |
maxfun | 通过声学信号测量的最大基频 |
meandom | 通过声学信号测量的主频的平均值 |
mindom | 通过声学信号测量的主频的最小值 |
maxdom | 通过声学信号测量的主频的最大值 |
dfrange | 通过声学信号测量的主频范围 |
modindx | 调制指数。计算为基频相邻测量值之间的累积绝对差除以频率范围 |
label | 男性或女性 |
准确性
基线(总是预测男性)
50%/50%
逻辑回归
97%/98%
CART
96%/97%
随机森林
100%/98%
SVM
100%/99%
XGBoost
100%/99%
数据引用
数据集的原始分析可以在以下文章中找到:
使用机器学习识别声音的性别
最佳模型在测试集上实现了99%的准确率。根据CART模型,观察平均基频似乎足以准确地对语音进行分类。然而,一些男声使用更高的频率,尽管它们的共鸣与女声不同,并且可能被错误地归类为女声。对于人的耳朵来说,决定声音性别的显然不仅仅是简单的频率。
数据集的用途
1.男声和女声有哪些不同之处?
2.我们能在男声和女声之间找到共鸣的区别吗?
3.我们能从普通声音中辨别假声吗?(可能需要单独的数据集)
4.数据中还有其他有趣的特征吗?
参考文献
哈佛哈斯金斯定时演讲数据库
麦吉尔大学电信与信号处理实验室(TSP)语音数据库,主页
VoxForge语音语料库,主页
卡内基梅隆大学Festvox CMU_ARCTIC语音数据库
数据文件
下载数据集请登录ModelCube
http://modelcube.cn/dataset/dataset-detail/10128