开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

科技 2024-09-24 09:28 浙江

转自：InfoQ - 冬梅

开源词频数据库wordfreg 宣布停止更新

在自然语言处理和文本分析领域，了解词汇的频率是至关重要的。wordfreq 一个于 2015 年创建并开源的基于 Python 的库，它提供了超过 40 种语言的单词频率数据，让用户可以轻松地获取语言中单词的使用情况。

该开源项目的创建者和维护者 Robyn Speer 在最初创建该项目时希望通过分析维基百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源，追踪人们使用 40 多种不同语言的方式的不断变化，分析不断变化的语言习惯，为研究此类技术的学者们提供有用的资源。

但近日，在该项目的 GitHub 页面上的一则注释中，创建者 Robyn Speer 写道，该项目“将不再更新”。

Robyn Speer 在 2024 年 9 月 wordfreq 项目公告中写下

本文档页面近期受到大量关注，相信大多数来到这里的朋友也很清楚个中缘由。这里我要再强调几点，向来自不同来源访问链接的读者澄清以下基本情况：

我仍在开发多个开源库，包括流行的多用途 Unicode 修复程序 ftfy。

大家可以把冻结 wordfreq 数据理解成一件好事。不少人对 wordfreq 的实用性表达了认可，请别担心，计划内的最新版本仍会到来。这里我想告知大家的是，我发现版本更新会影响到项目质量，所以后续我将停止更新。这个项目将随着时间推移而过时，但至少不会变得更差。对于互联网上的项目来说，这应该是种相当体面的退场方式了！

为什么 wordfreq 不再更新

Wordfreq 数据属于一份语言快照，反映的是 2021 年之前的各种在线资源。Wordfreq 作者表示，放弃对项目更新主要出于以下几个原因：

生成式 AI 污染了该数据

在 Robyn Speer 看来，已经没人能对 2021 年之后的人类语言使用情况做出可靠的归纳和分析了。

开放网络（通过 OSCAR）一直是 wordfreq 的重要数据来源之一。现如今，整个网络充斥着大语言模型生成的垃圾信息，这些垃圾信息并非由人撰写、没有传达任何信息。盲目将这些垃圾信息包含在数据当中，只会扭曲 wordfreq 所关注的词汇使用频率。

当然，wordfreq 以往的数据源中也同样存在垃圾信息，但其尚处于可管理的水平，而且通常可以被及时发现。大语言模型生成的文本则被伪装成真实语言，貌似能够反映背后的意图——可实际情况是，其既没有意图，输出结果又沸反盈天。

以 Philip Shapira 的报告为例，其中提到 ChatGPT（OpenAI 发布的高人气生成语言模型）对“delve”一词的痴迷程度远超正常人类的范畴，并导致其总体使用频率上升了整整一个数量级。

Robyn Speer 表示，“开放式网络抓取是该项目数据来源的重要组成部分，现在整个网络充斥着由大型语言模型生成的垃圾数据，这些垃圾数据并非由任何人编写，无法传达任何信息。将这些垃圾数据纳入数据会扭曲词频。”

“以前，尽管互联网上和 Wordfreq 使用的数据集中一直存在垃圾信息，但这些垃圾信息是可控的，而且通常可以识别。大型语言模型会生成伪装成真实语言的文本，尽管其背后没有意图，而且它们的输出随处可见，”她写道。

曾经免费的信息变得愈发昂贵

在发布这份文档之前，Robyn Speer 一直在研究如何运用工具对 wordfreq 数据进行有效更新。

Wordfreq 不仅关注正式出版物中的文字，还从 Twitter 和 Reddit 两个来源收集更多的对话语言使用情况。

其中 Twitter 的数据来源始终不太稳定。尽管 Twitter 允许免费访问其部分“源头”，但使用条款仍然禁止 Robyn Speer 将这些数据分发至收集数据的公司（Luminoso）之外。Wordfreq 只能使用该数据统计词汇使用频率，但相关数据并不归 Robyn Speer 所有。

如今 Twitter 已经消失，其公共 API 也被关闭。整个网站成为寡头的玩物，变成一个充斥着垃圾邮件和右翼观点的新平台——X。换言之，即使 X 愿意提供原始数据指标（当然，他们根本就不愿意），也无法在其中找到任何有价值的信息。

Reddit 同样停止提供公共数据归档，现在他们正在以只有 OpenAI 才承受得起的价格出售这些归档资源。

受够了，我不想继续了

Robyn Speer 遗憾地表达，Wordfreq 曾经是他个人的兴趣所在。当时她正在从事语料库方面的语言学研究，相关成果也让更多自然语言处理工具能够从中获益。

但她以往所熟悉的“自然语言处理”领域现在已经愈发模糊 ，在很大程度上被生成式 AI 所吞噬。其他技术虽依然存在，但生成式 AI 夺取了市场的全部关注和大部分可用资金。时至今日，已经很少有自然语言处理研究能够不依赖于 OpenAI 和谷歌控制的封闭数据，这两家公司 Robyn Speer 早就鄙视它们了。

Wordfreq 是通过收集多种语言的大量许可证构建而成。这曾经是件非常合理的事情，人们支持这个项目、也可以安心使用这个项目。现如今，各种文本提取工具主要被用于训练生成式 AI，而人们则完全有理由采取防御措施。如果有人收集了大家的书籍、文章、网站或者公开帖子中的所有文本，那他们很可能正在开发一套专门抄袭的机器系统，宣称所有训练之后再生成的文字归他们所有。

于是乎，Robyn Speer 不想做任何可能跟生成式 AI 沾上关系的项目，也不想为生成式 AI 做出任何贡献。她表示：

“OpenAI 和谷歌可以继续收集他们自己的数据，而我希望他们为此付出高昂的代价。毕竟当前的混乱局面就是他们一手造成的。”

网友怎么看？

Wordfreq 的终结反映了 AIGC 技术崛起后给互联网带来的几种变化。生成式人工智能垃圾邮件正在污染互联网，而且很难过滤掉，使得发现、研究和人类互联网更加难以找到。Wordfreq 的遭遇也证实了外界曾经提出来的一个担忧，即谷歌在 Google Books 中包含人工智能生成的书籍，这会污染 Google Ngram viewer 中使用的数据，而 Google Ngram viewer 是研究人员用来追踪语言历史使用情况的重要工具。生成式人工智能公司为了牟利而从互联网上抓取数据，以创建抄袭机器，这些可怕的行为自然导致网站所有者试图阻止出于任何原因读取其网站的网络爬虫程序。这导致研究项目和 Wordfreq 等工具更难以运行，因为域名所有者更改了 robots.txt 规则以禁止抓取数据。

Wordfreq 停止更新一事在 Hacker News 平台上引发了激烈的讨论。有 Hacker News 用户认为：

网络内容已在一定程度上受到了谷歌等非正式 SEO 规则的影响，这导致了内容质量的扭曲。具体表现为，单句段落盛行、关键词被过度重复，以及对内容“可索引性”的过度追求而牺牲了可读性，使得在大型语言模型技术兴起之前，网络就已成为一种不太适合作为语言分析或信息检索纯净来源的媒介。

另一方面，博客垃圾信息虽因其他多种原因而饱受诟病，但在衡量人类撰写文本中的基本词频方面，却意外地表现出一定的参考价值。尽管这种衡量可能在特定情境下存在偏差，但对于大多数文本而言，它仍然能反映出词汇使用的普遍趋势。

也有用户认为，这种现象恰好反映了即便强大如谷歌，也改变不了互联网垃圾信息漫天飞的现状，因为它也是这一现状的背后推动者：

这一现象反映了搜索引擎算法的不断更新与 SEO 策略的不断调整之间的动态博弈。谷歌的目标是提供高质量、相关性强的搜索结果，吸引并留住用户，然后再通过广告收入实现盈利。

但谷歌的商业模式也导致了某种程度上的利益冲突。由于谷歌优化的主要指标之一是广告收入，那些充斥着广告但内容质量不高的网站，谷歌也会在某种程度上睁一只眼闭一只眼，只要这些网站能够持续吸引广告商投放广告。这种情况下，谷歌可能不会对某些臭名昭著的 SEO 参与者采取严厉行动，因为他们的存在间接促进了广告收入的增加。

参考链接：

https://github.com/rspeer/wordfreq/blob/master/SUNSET.md

https://www.404media.co/project-analyzing-human-language-usage-shuts-down-because-generative-ai-has-polluted-the-data/

推荐阅读点击标题可跳转

1、3个完美替代 Navicat 的工具，香！

2、又“刑”了！搞瘫公司三千多工作电脑，不给 500 万就删 IT 账户，网友：快乐的员工谁干这事儿啊

3、“神仙外企”、“IT养老院”前员工忆往昔：曾经是乌托邦、工资多得花不完只能买房

http://mp.weixin.qq.com/s?__biz=MzA5ODM5MDU3MA==&mid=2650890528&idx=1&sn=850be16e9a0109ba73451536df9067dc

数据分析与开发

「数据分析与开发」分享数据分析与开发相关技术文章、教程、工具

最新文章

裁员了，很严重，大家做好准备吧！

为什么数据库连接很消耗资源？被问根本答不出来……

离谱！裁员裁出新高度了。。

低级失误导致 Elasticsearch 仓库 404，7万多 star 一夜清空，网友：只是手滑了？！

字节回应大模型训练被实习生攻击

取代数据岗，某司从业人员已集体转行....

千万级数据的全表 update 正确姿势

京东：MySQL 中的 distinct 和 group by 哪个效率更高？太刁钻！

发现一款JSON可视化工具神器，惊艳了！

突发！上交所系统被买崩了？股票交易量火爆挤瘫系统，IT 部门天塌了！

开源 9 年后，词频数据库 wordfreq 宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

离谱，一边在裁员，一边在高薪招人！

又“刑”了！搞瘫公司三千多工作电脑，不给 500 万就删 IT 账户，网友：快乐的员工谁干这事儿啊

“神仙外企”、“IT养老院”前员工忆往昔：曾经是乌托邦、工资多得花不完只能买房

3个完美替代 Navicat 的工具，香！

3 年后，Elasticsearch 再次开源

IBM中国研发部彻底关闭！3分钟会议千人被裁，赔偿N+3

不要再在 pandas 循环中使用 loc/iloc 了！

拒绝背锅！39 岁失业后，我写出了一个超一万亿使用量的数据库

全体数据从业者请做好随时失业的准备！

说下 10 个高级的 SQL 查询技巧

多人同时导出 Excel 干崩服务器！新来的阿里大佬给出的解决方案太优雅了！

“列数已达上限”：史上最烂代码库的“绝命”一击

40+指标银行BI指标体系！万字详述银行实现全面自助分析

区区 1 万张表就把 MySQL 给整崩溃了

取代数据岗，某司数据从业人员已集体转行....

图解 SQL 的执行顺序，优雅

MySQL 9.0“创新版”已支持向量，为何甲骨文却“偷偷摸摸”地宣布？

OpenAI 突然收购实时分析数据公司，传统数据库厂商：快来，OpenAI 又带我们玩了

被全球最大用户弃用！曾经的数据库霸主 HBase 正在消亡

“鸭子数据库”DuckDB正式发布1.0稳定版：C++引擎代码超30万行、百万级月下载量

Pandas 常用操作图解

Tabby，一个 5 万星标的终端工具

使用sklearn高效进行数据挖掘！

离谱！一边裁员，一边高薪招人！

五分钟看懂 MySQL 编解码原理

如何使用 sklearn 优雅地进行数据挖掘？

多人同时导出 Excel 干崩服务器！新来的阿里大佬给出的解决方案太优雅了！

数据库表设计的18条军规

面试官：MySQL 上亿大表，如何深度优化？

换掉ES！Redis官方搜索引擎来了，效率大幅提升

我试了试用 SQL查 Linux日志，好用到飞起

13 秒插入 30 万条数据，批量插入正确的姿势！

AI编程语言Mojo正式开源标准库，宣称比Python快9万倍

深信服：开除 42 人、1 人被刑事立案

Redis只能做缓存？太out了！

公司新来一个技术总监：谁再在 SQL 中写 in 和 not in，直接走人！

被问懵了，加密后的数据如何进行模糊查询？

开源 Redis 的生命将就此终结？Redis 之父回应分叉浪潮：未来谁能领先，各凭本事！

微软开抢年收入上亿美元的 Redis 饭碗？开源性能遥遥领先的 Garnet：无需修改，Redis 客户端可直接接入

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉