ModelCube数据集 | 用于命名实体识别标注语料库

文摘   2024-10-14 08:10   浙江  

ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。

背景

用于命名实体识别的注释语料库使用GMB(Groningen Measure Bank)语料库,通过自然语言处理将具有增强和常用特征的实体分类应用于数据集。

介绍

该数据集是从GMB语料库中提取的,经过标记、注释和专门构建,用于训练分类器预测命名实体,如名称、位置等。

已标记实体的数量:

标签实体数
'O'1146068
'geo-nam'58388
'org.nam'48034
'per-nam'23790
'gpenam'20680
'tim-dat'12786
'tim-dow'11404
'per-tit'9800
'per-fam'8152
'tim-yoc'5290
'tim-moy'4262
'per-giv'2413
'tim-clo'891
'art-nam'866
'eve-nam'602
'nat-nam'300
'tim-nam'146
'eve-ord'107
'per-ini'60
'org.leg'60
'per-ord'38
'tim-dom'10
'per-mid'1
'art-add'1

关于实体的基本信息:

  • geo:地理实体

  • org:组织

  • per:人

  • gpe:政治实体

  • tim:时间指示器

  • art:工件

  • eve:事件

  • nat:自然现象

总字数:1354149

目标数据列:"tag"

数据集的用途

由于该数据集的最新版本添加了更多功能,因此该数据集越来越受欢迎。此外,它还有助于创建关于该数据集的功能工程的广泛视图。

为什么这个数据集有用或有趣?它听起来可能对早期版本不那么感兴趣,但当你能够从自己的句子中选择意图和自定义命名实体,并具有更多功能时,它就会变得感兴趣,并帮助你解决真正的业务问题(如从电子病历中选择实体等)。

数据文件


下载数据集请登录ModelCube

http://modelcube.cn/dataset/dataset-detail/10168

数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
 最新文章