ModelCube数据集 | 用于命名实体识别标注语料库

文摘 2024-10-14 08:10 浙江

ModelCube（modelcube.cn）是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术，实现了科研场景中全类型数据管理与标注，实验环境快速获取与灵活定制，模型的全生命周期管理，科研成果的管理与发布，以及 AI驱动的论文检索和学习等功能。

背景

用于命名实体识别的注释语料库使用GMB(Groningen Measure Bank)语料库，通过自然语言处理将具有增强和常用特征的实体分类应用于数据集。

介绍

该数据集是从GMB语料库中提取的，经过标记、注释和专门构建，用于训练分类器预测命名实体，如名称、位置等。

已标记实体的数量:

标签	实体数
'O'	1146068
'geo-nam'	58388
'org.nam'	48034
'per-nam'	23790
'gpenam'	20680
'tim-dat'	12786
'tim-dow'	11404
'per-tit'	9800
'per-fam'	8152
'tim-yoc'	5290
'tim-moy'	4262
'per-giv'	2413
'tim-clo'	891
'art-nam'	866
'eve-nam'	602
'nat-nam'	300
'tim-nam'	146
'eve-ord'	107
'per-ini'	60
'org.leg'	60
'per-ord'	38
'tim-dom'	10
'per-mid'	1
'art-add'	1

关于实体的基本信息:

geo：地理实体
org：组织
per：人
gpe：政治实体
tim：时间指示器
art：工件
eve：事件
nat：自然现象

总字数：1354149

目标数据列:"tag"

数据集的用途

由于该数据集的最新版本添加了更多功能，因此该数据集越来越受欢迎。此外，它还有助于创建关于该数据集的功能工程的广泛视图。

为什么这个数据集有用或有趣？它听起来可能对早期版本不那么感兴趣，但当你能够从自己的句子中选择意图和自定义命名实体，并具有更多功能时，它就会变得感兴趣，并帮助你解决真正的业务问题(如从电子病历中选择实体等)。

数据文件

下载数据集请登录ModelCube
http://modelcube.cn/dataset/dataset-detail/10168

http://mp.weixin.qq.com/s?__biz=MzU2NTcxODIyMg==&mid=2247516203&idx=1&sn=f193bf5cd0a88c279a7592ae2ee25440

数据科学人工智能

聚焦数据科学，大数据，人工智能，区块链和云计算等话题。技术资料分享，院士名家观点分享，前沿资讯分享。

最新文章

ModelCube数据集 | 加密货币的每日市场价格数据集

ModelCube数据集 | 酒店预订数据集

ModelCube数据集 | 虚假新闻数据集

ModelCube数据集 | 2016年美国大选数据集

ModelCube数据集 | 印度食品数据集

ModelCube数据集 | 数据分析师职位数据集

ModelCube数据集 | 房价预测数据集

ModelCube数据集 | 杂货数据集

ModelCube数据集 | 欧洲51.5万酒店评论数据集

ModelCube数据集 | 葡萄酒质量数据集

ModelCube数据集 | 世界人口数据集

ModelCube数据集 | 糖尿病数据集

ModelCube数据集 | 宾夕法尼亚州蒙哥马利县911电话数据集

ModelCube数据集 | 80种谷物营养成分数据集

ModelCube数据集 | 线性回归数据集

ModelCube数据集 | 真实/虚假职位发布预测数据集

ModelCube数据集 | 波士顿房价数据集

ModelCube数据集 | 英雄联盟钻石排名游戏（10分钟）

ModelCube数据集 | 百万新闻标题数据集

ModelCube数据集 | 中国台湾省公司破产数据集

ModelCube数据集 | 用于命名实体识别标注语料库

ModelCube数据集 | 欧洲足球赛事数据集（9074场）

ModelCube数据集 | 超市分店销售分析数据集

ModelCube数据集 | Netflix电视节目和电影数据集

ModelCube数据集 | Zomato餐厅数据

ModelCube数据集 | 新闻类别数据集

ModelCube数据集 | 车辆保险数据集

ModelCube数据集 | 墨尔本住房市场数据集

ModelCube数据集 | CSV格式的MNIST数据集

ModelCube数据集 | 各大平台电影数据集（Netflix、Prime Video、Hulu和迪士尼）

ModelCube数据集 | 信用卡审批预测数据集

ModelCube数据集 | 亚马逊森林火灾数据集

ModelCube数据集 | 销售样例数据

ModelCube数据集 | 快速约会实验

ModelCube数据集 | 鸢尾花数据集

ModelCube数据集 | NIFTY-50股市数据（2000-2001）数据集

ModelCube数据集 | 航空公司乘客满意度数据集

ModelCube数据集 | TED演讲数据集

2024中国大数据产业发展指数重磅发布

ModelCube数据集 | 学生学习成绩数据集

重磅上线！基于卷积神经网络的岩相分类综合实训项目正式发布

重磅上线！MyScale图像智能检索综合实训项目正式发布

ModelCube数据集 | 世界各国/地区人口数据集

ModelCube数据集 | NBA球员数据集（1950年至今）

ModelCube数据集 | 泰坦尼克号数据集

ModelCube数据集 | 英国二手车数据集

ModelCube数据集 | 语音性别识别数据集

ModelCube数据集 | 印度板球超级联赛数据集

ModelCube数据集 | 心脏病数据集

ModelCube数据集 | 手语数字数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉