ModelCube数据集 | 语音性别识别数据集

文摘   2024-09-12 07:58   浙江  

ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。

介绍

基于语音分析的性别识别。创建这个数据是为了根据声音和语音的声学特性来识别声音是男性还是女性。该数据集由3168个记录的语音样本组成,这些样本来自男性和女性说话者。语音样本通过使用seewave和tuneR软件包中的声学分析进行预处理,分析的频率范围为0hz-280hz(人声范围)。

字段说明

字段名称字段说明
meanfreq平均频率(kHz)
sd频率的标准偏差
median中值频率(kHz)
Q25第一个分位数(kHz)
Q75第三个分位数(单位:kHz)
IQR分位数范围(kHz)
skew偏斜度(请参见specprop描述中的注释)
kurt峰度(见specprop描述中的注释)
sp.ent光谱熵
sfm光谱平坦度
mode模式频率
centroid频率质心(见specprop)
peakf峰值频率(能量最高的频率)
meanfun通过声学信号测量的基频的平均值
minfun通过声学信号测量的最小基频
maxfun通过声学信号测量的最大基频
meandom通过声学信号测量的主频的平均值
mindom通过声学信号测量的主频的最小值
maxdom通过声学信号测量的主频的最大值
dfrange通过声学信号测量的主频范围
modindx调制指数。计算为基频相邻测量值之间的累积绝对差除以频率范围
label男性或女性

准确性

基线(总是预测男性)

50%/50%

逻辑回归

97%/98%

CART

96%/97%

随机森林

100%/98%

SVM

100%/99%

XGBoost

100%/99%

数据引用

数据集的原始分析可以在以下文章中找到:

使用机器学习识别声音的性别

最佳模型在测试集上实现了99%的准确率。根据CART模型,观察平均基频似乎足以准确地对语音进行分类。然而,一些男声使用更高的频率,尽管它们的共鸣与女声不同,并且可能被错误地归类为女声。对于人的耳朵来说,决定声音性别的显然不仅仅是简单的频率。

数据集的用途

1.男声和女声有哪些不同之处?

2.我们能在男声和女声之间找到共鸣的区别吗?

3.我们能从普通声音中辨别假声吗?(可能需要单独的数据集)

4.数据中还有其他有趣的特征吗?

参考文献

哈佛哈斯金斯定时演讲数据库

麦吉尔大学电信与信号处理实验室(TSP)语音数据库,主页

VoxForge语音语料库,主页

卡内基梅隆大学Festvox CMU_ARCTIC语音数据库

数据文件


下载数据集请登录ModelCube

http://modelcube.cn/dataset/dataset-detail/10128

数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
 最新文章