开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

职场 2024-09-25 10:54 浙江

转自：InfoQ - 冬梅

开源词频数据库wordfreg 宣布停止更新

在自然语言处理和文本分析领域，了解词汇的频率是至关重要的。wordfreq 一个于 2015 年创建并开源的基于 Python 的库，它提供了超过 40 种语言的单词频率数据，让用户可以轻松地获取语言中单词的使用情况。

该开源项目的创建者和维护者 Robyn Speer 在最初创建该项目时希望通过分析维基百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源，追踪人们使用 40 多种不同语言的方式的不断变化，分析不断变化的语言习惯，为研究此类技术的学者们提供有用的资源。

但近日，在该项目的 GitHub 页面上的一则注释中，创建者 Robyn Speer 写道，该项目“将不再更新”。

Robyn Speer 在 2024 年 9 月 wordfreq 项目公告中写下

本文档页面近期受到大量关注，相信大多数来到这里的朋友也很清楚个中缘由。这里我要再强调几点，向来自不同来源访问链接的读者澄清以下基本情况：

我仍在开发多个开源库，包括流行的多用途 Unicode 修复程序 ftfy。

大家可以把冻结 wordfreq 数据理解成一件好事。不少人对 wordfreq 的实用性表达了认可，请别担心，计划内的最新版本仍会到来。这里我想告知大家的是，我发现版本更新会影响到项目质量，所以后续我将停止更新。这个项目将随着时间推移而过时，但至少不会变得更差。对于互联网上的项目来说，这应该是种相当体面的退场方式了！

为什么 wordfreq 不再更新

Wordfreq 数据属于一份语言快照，反映的是 2021 年之前的各种在线资源。Wordfreq 作者表示，放弃对项目更新主要出于以下几个原因：

生成式 AI 污染了该数据

在 Robyn Speer 看来，已经没人能对 2021 年之后的人类语言使用情况做出可靠的归纳和分析了。

开放网络（通过 OSCAR）一直是 wordfreq 的重要数据来源之一。现如今，整个网络充斥着大语言模型生成的垃圾信息，这些垃圾信息并非由人撰写、没有传达任何信息。盲目将这些垃圾信息包含在数据当中，只会扭曲 wordfreq 所关注的词汇使用频率。

当然，wordfreq 以往的数据源中也同样存在垃圾信息，但其尚处于可管理的水平，而且通常可以被及时发现。大语言模型生成的文本则被伪装成真实语言，貌似能够反映背后的意图——可实际情况是，其既没有意图，输出结果又沸反盈天。

以 Philip Shapira 的报告为例，其中提到 ChatGPT（OpenAI 发布的高人气生成语言模型）对“delve”一词的痴迷程度远超正常人类的范畴，并导致其总体使用频率上升了整整一个数量级。

Robyn Speer 表示，“开放式网络抓取是该项目数据来源的重要组成部分，现在整个网络充斥着由大型语言模型生成的垃圾数据，这些垃圾数据并非由任何人编写，无法传达任何信息。将这些垃圾数据纳入数据会扭曲词频。”

“以前，尽管互联网上和 Wordfreq 使用的数据集中一直存在垃圾信息，但这些垃圾信息是可控的，而且通常可以识别。大型语言模型会生成伪装成真实语言的文本，尽管其背后没有意图，而且它们的输出随处可见，”她写道。

曾经免费的信息变得愈发昂贵

在发布这份文档之前，Robyn Speer 一直在研究如何运用工具对 wordfreq 数据进行有效更新。

Wordfreq 不仅关注正式出版物中的文字，还从 Twitter 和 Reddit 两个来源收集更多的对话语言使用情况。

其中 Twitter 的数据来源始终不太稳定。尽管 Twitter 允许免费访问其部分“源头”，但使用条款仍然禁止 Robyn Speer 将这些数据分发至收集数据的公司（Luminoso）之外。Wordfreq 只能使用该数据统计词汇使用频率，但相关数据并不归 Robyn Speer 所有。

如今 Twitter 已经消失，其公共 API 也被关闭。整个网站成为寡头的玩物，变成一个充斥着垃圾邮件和右翼观点的新平台——X。换言之，即使 X 愿意提供原始数据指标（当然，他们根本就不愿意），也无法在其中找到任何有价值的信息。

Reddit 同样停止提供公共数据归档，现在他们正在以只有 OpenAI 才承受得起的价格出售这些归档资源。

受够了，我不想继续了

Robyn Speer 遗憾地表达，Wordfreq 曾经是他个人的兴趣所在。当时她正在从事语料库方面的语言学研究，相关成果也让更多自然语言处理工具能够从中获益。

但她以往所熟悉的“自然语言处理”领域现在已经愈发模糊 ，在很大程度上被生成式 AI 所吞噬。其他技术虽依然存在，但生成式 AI 夺取了市场的全部关注和大部分可用资金。时至今日，已经很少有自然语言处理研究能够不依赖于 OpenAI 和谷歌控制的封闭数据，这两家公司 Robyn Speer 早就鄙视它们了。

Wordfreq 是通过收集多种语言的大量许可证构建而成。这曾经是件非常合理的事情，人们支持这个项目、也可以安心使用这个项目。现如今，各种文本提取工具主要被用于训练生成式 AI，而人们则完全有理由采取防御措施。如果有人收集了大家的书籍、文章、网站或者公开帖子中的所有文本，那他们很可能正在开发一套专门抄袭的机器系统，宣称所有训练之后再生成的文字归他们所有。

于是乎，Robyn Speer 不想做任何可能跟生成式 AI 沾上关系的项目，也不想为生成式 AI 做出任何贡献。她表示：

“OpenAI 和谷歌可以继续收集他们自己的数据，而我希望他们为此付出高昂的代价。毕竟当前的混乱局面就是他们一手造成的。”

网友怎么看？

Wordfreq 的终结反映了 AIGC 技术崛起后给互联网带来的几种变化。生成式人工智能垃圾邮件正在污染互联网，而且很难过滤掉，使得发现、研究和人类互联网更加难以找到。Wordfreq 的遭遇也证实了外界曾经提出来的一个担忧，即谷歌在 Google Books 中包含人工智能生成的书籍，这会污染 Google Ngram viewer 中使用的数据，而 Google Ngram viewer 是研究人员用来追踪语言历史使用情况的重要工具。生成式人工智能公司为了牟利而从互联网上抓取数据，以创建抄袭机器，这些可怕的行为自然导致网站所有者试图阻止出于任何原因读取其网站的网络爬虫程序。这导致研究项目和 Wordfreq 等工具更难以运行，因为域名所有者更改了 robots.txt 规则以禁止抓取数据。

Wordfreq 停止更新一事在 Hacker News 平台上引发了激烈的讨论。有 Hacker News 用户认为：

网络内容已在一定程度上受到了谷歌等非正式 SEO 规则的影响，这导致了内容质量的扭曲。具体表现为，单句段落盛行、关键词被过度重复，以及对内容“可索引性”的过度追求而牺牲了可读性，使得在大型语言模型技术兴起之前，网络就已成为一种不太适合作为语言分析或信息检索纯净来源的媒介。

另一方面，博客垃圾信息虽因其他多种原因而饱受诟病，但在衡量人类撰写文本中的基本词频方面，却意外地表现出一定的参考价值。尽管这种衡量可能在特定情境下存在偏差，但对于大多数文本而言，它仍然能反映出词汇使用的普遍趋势。

也有用户认为，这种现象恰好反映了即便强大如谷歌，也改变不了互联网垃圾信息漫天飞的现状，因为它也是这一现状的背后推动者：

这一现象反映了搜索引擎算法的不断更新与 SEO 策略的不断调整之间的动态博弈。谷歌的目标是提供高质量、相关性强的搜索结果，吸引并留住用户，然后再通过广告收入实现盈利。

但谷歌的商业模式也导致了某种程度上的利益冲突。由于谷歌优化的主要指标之一是广告收入，那些充斥着广告但内容质量不高的网站，谷歌也会在某种程度上睁一只眼闭一只眼，只要这些网站能够持续吸引广告商投放广告。这种情况下，谷歌可能不会对某些臭名昭著的 SEO 参与者采取严厉行动，因为他们的存在间接促进了广告收入的增加。

参考链接：

https://github.com/rspeer/wordfreq/blob/master/SUNSET.md

https://www.404media.co/project-analyzing-human-language-usage-shuts-down-because-generative-ai-has-polluted-the-data/

推荐阅读点击标题可跳转

1、PyTorch官宣：告别CUDA ！

2、突发！高通拟收购英特尔；大连思科再裁员，补偿 N+7

3、谢尔盖布林：谷歌不敢用Transformer，作者剩一人了，现在我每天都在写代码

Python开发者

点击获取精选Python开发资源。「Python开发者」日常分享 Python 相关的技术文章、实用案例、工具资源、精选课程、热点资讯等。

我用免费大模型DIY了个作业批改助手，手机端可用！

Python即将成为TIOBE 2024年度编程语言

劝大家早点拿下软考证，风口已经很明显了

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

分享 7 个用 Python 开发成的数据库

GitHub 公开评测，国产 AI 表现……

GitHub谎报了Copilot的统计数据！两年了，我们还是没办法证明AI编程助手能提高代码质量

再用 `print` 进行 Python调试，你就OUT啦！

惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 2024最佳论文

Python 3.13 中的 7 个新类型特性

最强图解微型神经网络--多层感知器

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

三种 Transformer 模型中的注意力机制介绍及 Pytorch 实现：从自注意力到因果自注意力

字节起诉前实习生，索赔 800 万

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

信息论、机器学习的核心概念：熵、KL散度、JS散度和Renyi散度的深度解析及应用

陪你一起刷题面试，字节跳动又出了一款新工具

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

B站知名up主何同学被指盗用开源项目——网友锐评「移源丁真：鉴定为自研」

太荒谬了！千人公司一刀切禁用 JetBrains，非俄籍“备胎” VSCode 上位

强烈建议尽快搞个软考证！（重大利好）

阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

裁员了，很严重，今年千万别离职

用Python实现十大经典排序算法(附动图)

字节回应大模型训练被实习生攻击

Python协会曝出丑闻：49万元被“熟人”挪用，发现时账户仅剩183元，险些破产

裁掉数千人、把工作外包给 AI！一年多后，这家巨头的 CEO 恳求无人搭理，预算还要超 5 亿？

Python3.8即将结束生命周期

时间序列特征提取：从理论到Python代码实践

OpenAI canvas一夜封神！超强AI编码研究神器，ChatGPT再次颠覆人机交互

一文让你搞懂 Python 的 pyc 文件

刚刚，诺贝尔物理学奖颁给AI教父！

深度学习六十年简史

17岁开发 AI 应用，4个月入账700万，开学第一天晒账单火了

腾讯居然还自研了 Git 客户端，也是没想到…

开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

突发！高通拟收购英特尔；大连思科再裁员，补偿 N+7

谢尔盖布林：谷歌不敢用Transformer，作者剩一人了，现在我每天都在写代码

PyTorch官宣：告别CUDA ！

“神仙外企”、“IT养老院”前员工忆往昔：曾经是乌托邦、工资多得花不完只能买房

3个完美替代 Navicat 的工具，香！

又一款 AI 编码工具火出圈！OpenAI 投资、碾压 VS Code、8 岁女孩用它 45 分钟就能构建一款聊天机器人

韩国N号房卷土重来，这一次是Deepfake，波及超200所学校

谷歌SRE工程师打拼9年：年薪超60万美元、钱赚够了、对技术不再那么热爱

机器学习中的样本重要性权重 (Importance Weight)

谷歌推世界首个AI游戏引擎，2000亿游戏产业恐颠覆！0代码生成游戏，老黄预言成真

突发！IBM中国研发岗访问权限一夜关闭，千人或被裁

终于有人将Transformer可视化了！

下载量超 5000 万的知名应用，开发团队“全军覆没”，从此发版人唯剩老板一个

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉