ModelCube数据集 | 英语词频数据集

文摘 2024-12-23 08:02 浙江

ModelCube（modelcube.cn）是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术，实现了科研场景中全类型数据管理与标注，实验环境快速获取与灵活定制，模型的全生命周期管理，科研成果的管理与发布，以及 AI驱动的论文检索和学习等功能。

介绍

一个单词在语言中出现的频率是自然语言处理和语言学的一个重要信息。在自然语言处理中，非常频繁的单词往往比不太频繁的单词信息量小，并且在预处理过程中经常被删除。人类语言使用者对词频也很敏感。一个单词的使用频率会影响人类的语言处理。例如，非常频繁的单词阅读和理解速度更快并且可以在背景噪声中更容易理解。

该数据集包含英语网络上最常用的333333个单词的计数，这些单词来自谷歌网络万亿单词语料库。

字段说明

字段名称	字段说明
word	单词
count	计数

数据来源

数据文件由 Peter Norvig 从 Google Web Trillion Word Corpus（由 Thorsten Brants 和 Alex Franz 描述，并由语言数据联盟分发）派生而来。您可以在 Norvig 的网站上找到有关这些文件以及生成它们的代码的更多信息。

用于生成此数据集的代码是根据 MIT 许可证分发的。

数据集的用途

标记这些单词的词性吗？哪些词性最常见？这和其他语言类似吗，比如日语。
研究该数据集中非常频繁的单词和其他语料库中的频繁单词之间有什么区别，比如Brown语料库或TIMIT语料库？这些差异可能告诉我们语言是如何使用的？

数据文件

下载数据集请登录ModelCube
http://modelcube.cn/dataset/dataset-detail/10309

数据科学人工智能

聚焦数据科学，大数据，人工智能，区块链和云计算等话题。技术资料分享，院士名家观点分享，前沿资讯分享。

最新文章

ModelCube数据集 | 心血管疾病风险预测数据集

ModelCube数据集 | 班加罗尔房价数据集

ModelCube数据集 | 2011-2016年H-1B签证申请数据集

ModelCube数据集 | 美国汽车数据集

ModelCube数据集 | 葡萄牙银行营销数据集

ModelCube数据集 | 心脏病发作可能性数据集

爱数课｜多模态大模型原理与实战课程重磅上线

ModelCube数据集 | 妇女创业与劳动力数据集

ModelCube数据集 | Spotify全球每日歌曲排行榜数据集

ModelCube数据集 | 印度空气质量数据集

博雅数智支持山西大学统计人才培养

ModelCube数据集 | 英语词频数据集

ModelCube数据集 | 美国警察枪击案数据集

ModelCube数据集 | 睡眠健康和生活方式数据集

ModelCube数据集 | 学生心理健康数据集

博雅数智助力长江大学数据科学专业教学

ModelCube数据集 | Craft Beers啤酒数据集

ModelCube数据集 | 墨西哥新冠肺炎数据集

博雅数智支持武汉纺织大学大数据管理与应用专业教学

ModelCube数据集 | 辉瑞疫苗Twitter数据集

博雅数智助力北京科技大学统计学人才培养

ModelCube数据集 | 糖尿病预测数据集

ModelCube数据集 | 金奈水资源管理数据集

功能上新 | 爱数课AI问学模块重磅上线！

ModelCube数据集 | Logistic回归预测心脏病数据集

ModelCube数据集 | 汽车数据集

ModelCube数据集 | Spotify歌曲属性数据集

ModelCube数据集 | 特朗普在推特上的所有辱骂（2015-2021）数据集

ModelCube数据集 | 伦敦共享单车数据集

ModelCube数据集 | Reddit WSB帖子数据集

ModelCube数据集 | 2012-2017年历史小时天气数据

ModelCube数据集 | 银行营销数据集

ModelCube数据集 | 超市数据集

ModelCube数据集 | 1908年以来飞机失事数据集

ModelCube数据集 | 口袋妖怪-Weedle洞穴数据集

ModelCube数据集 | 房屋租金预测数据集

ModelCube数据集 | MRI与阿尔茨海默症数据集

ModelCube数据集 | 学生考试成绩数据集

ModelCube数据集 | 用于聚类的信用卡数据集

ModelCube数据集 | TripAdvisor酒店评论数据集

ModelCube数据集 | 脑肿瘤MRI分类数据集

ModelCube数据集 | 胎儿健康分类数据集

ModelCube数据集 | 加密货币的每日市场价格数据集

ModelCube数据集 | 酒店预订数据集

ModelCube数据集 | 虚假新闻数据集

ModelCube数据集 | 2016年美国大选数据集

ModelCube数据集 | 印度食品数据集

ModelCube数据集 | 数据分析师职位数据集

ModelCube数据集 | 房价预测数据集

ModelCube数据集 | 杂货数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉