ModelCube数据集 | 英语词频数据集

文摘   2024-12-23 08:02   浙江  

ModelCube(modelcube.cn)是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术,实现了科研场景中全类型数据管理与标注,实验环境快速获取与灵活定制,模型的全生命周期管理,科研成果的管理与发布,以及 AI驱动的论文检索和学习等功能。

介绍

一个单词在语言中出现的频率是自然语言处理和语言学的一个重要信息。在自然语言处理中,非常频繁的单词往往比不太频繁的单词信息量小,并且在预处理过程中经常被删除。人类语言使用者对词频也很敏感。一个单词的使用频率会影响人类的语言处理。例如,非常频繁的单词阅读和理解速度更快并且可以在背景噪声中更容易理解。

该数据集包含英语网络上最常用的333333个单词的计数,这些单词来自谷歌网络万亿单词语料库。

字段说明

字段名称字段说明
word单词
count计数

数据来源

数据文件由 Peter Norvig 从 Google Web Trillion Word Corpus(由 Thorsten Brants 和 Alex Franz 描述,并由语言数据联盟分发)派生而来。您可以在 Norvig 的网站上找到有关这些文件以及生成它们的代码的更多信息。

用于生成此数据集的代码是根据 MIT 许可证分发的。

数据集的用途

  1. 标记这些单词的词性吗?哪些词性最常见?这和其他语言类似吗,比如日语。

  2. 研究该数据集中非常频繁的单词和其他语料库中的频繁单词之间有什么区别,比如Brown语料库或TIMIT语料库?这些差异可能告诉我们语言是如何使用的?

数据文件

下载数据集请登录ModelCube

http://modelcube.cn/dataset/dataset-detail/10309

数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
 最新文章