开源 9 年后，词频数据库宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

职场 2024-09-30 10:24 江西

↓推荐关注↓

转自：InfoQ - 冬梅

开源词频数据库

wordfreg 宣布停止更新

在自然语言处理和文本分析领域，了解词汇的频率是至关重要的。wordfreq 一个于 2015 年创建并开源的基于 Python 的库，它提供了超过 40 种语言的单词频率数据，让用户可以轻松地获取语言中单词的使用情况。

该开源项目的创建者和维护者 Robyn Speer 在最初创建该项目时希望通过分析维基百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源，追踪人们使用 40 多种不同语言的方式的不断变化，分析不断变化的语言习惯，为研究此类技术的学者们提供有用的资源。

但近日，在该项目的 GitHub 页面上的一则注释中，创建者 Robyn Speer 写道，该项目“将不再更新”。

Robyn Speer 在 2024 年 9 月 wordfreq 项目公告中写下

本文档页面近期受到大量关注，相信大多数来到这里的朋友也很清楚个中缘由。这里我要再强调几点，向来自不同来源访问链接的读者澄清以下基本情况：

我仍在开发多个开源库，包括流行的多用途 Unicode 修复程序 ftfy。

大家可以把冻结 wordfreq 数据理解成一件好事。不少人对 wordfreq 的实用性表达了认可，请别担心，计划内的最新版本仍会到来。这里我想告知大家的是，我发现版本更新会影响到项目质量，所以后续我将停止更新。这个项目将随着时间推移而过时，但至少不会变得更差。对于互联网上的项目来说，这应该是种相当体面的退场方式了！

为什么 wordfreq 不再更新

Wordfreq 数据属于一份语言快照，反映的是 2021 年之前的各种在线资源。Wordfreq 作者表示，放弃对项目更新主要出于以下几个原因：

生成式 AI 污染了该数据

在 Robyn Speer 看来，已经没人能对 2021 年之后的人类语言使用情况做出可靠的归纳和分析了。

开放网络（通过 OSCAR）一直是 wordfreq 的重要数据来源之一。现如今，整个网络充斥着大语言模型生成的垃圾信息，这些垃圾信息并非由人撰写、没有传达任何信息。盲目将这些垃圾信息包含在数据当中，只会扭曲 wordfreq 所关注的词汇使用频率。

当然，wordfreq 以往的数据源中也同样存在垃圾信息，但其尚处于可管理的水平，而且通常可以被及时发现。大语言模型生成的文本则被伪装成真实语言，貌似能够反映背后的意图——可实际情况是，其既没有意图，输出结果又沸反盈天。

以 Philip Shapira 的报告为例，其中提到 ChatGPT（OpenAI 发布的高人气生成语言模型）对“delve”一词的痴迷程度远超正常人类的范畴，并导致其总体使用频率上升了整整一个数量级。

Robyn Speer 表示，“开放式网络抓取是该项目数据来源的重要组成部分，现在整个网络充斥着由大型语言模型生成的垃圾数据，这些垃圾数据并非由任何人编写，无法传达任何信息。将这些垃圾数据纳入数据会扭曲词频。”

“以前，尽管互联网上和 Wordfreq 使用的数据集中一直存在垃圾信息，但这些垃圾信息是可控的，而且通常可以识别。大型语言模型会生成伪装成真实语言的文本，尽管其背后没有意图，而且它们的输出随处可见，”她写道。

曾经免费的信息变得愈发昂贵

在发布这份文档之前，Robyn Speer 一直在研究如何运用工具对 wordfreq 数据进行有效更新。

Wordfreq 不仅关注正式出版物中的文字，还从 Twitter 和 Reddit 两个来源收集更多的对话语言使用情况。

其中 Twitter 的数据来源始终不太稳定。尽管 Twitter 允许免费访问其部分“源头”，但使用条款仍然禁止 Robyn Speer 将这些数据分发至收集数据的公司（Luminoso）之外。Wordfreq 只能使用该数据统计词汇使用频率，但相关数据并不归 Robyn Speer 所有。

如今 Twitter 已经消失，其公共 API 也被关闭。整个网站成为寡头的玩物，变成一个充斥着垃圾邮件和右翼观点的新平台——X。换言之，即使 X 愿意提供原始数据指标（当然，他们根本就不愿意），也无法在其中找到任何有价值的信息。

Reddit 同样停止提供公共数据归档，现在他们正在以只有 OpenAI 才承受得起的价格出售这些归档资源。

受够了，我不想继续了

Robyn Speer 遗憾地表达，Wordfreq 曾经是他个人的兴趣所在。当时她正在从事语料库方面的语言学研究，相关成果也让更多自然语言处理工具能够从中获益。

但她以往所熟悉的“自然语言处理”领域现在已经愈发模糊 ，在很大程度上被生成式 AI 所吞噬。其他技术虽依然存在，但生成式 AI 夺取了市场的全部关注和大部分可用资金。时至今日，已经很少有自然语言处理研究能够不依赖于 OpenAI 和谷歌控制的封闭数据，这两家公司 Robyn Speer 早就鄙视它们了。

Wordfreq 是通过收集多种语言的大量许可证构建而成。这曾经是件非常合理的事情，人们支持这个项目、也可以安心使用这个项目。现如今，各种文本提取工具主要被用于训练生成式 AI，而人们则完全有理由采取防御措施。如果有人收集了大家的书籍、文章、网站或者公开帖子中的所有文本，那他们很可能正在开发一套专门抄袭的机器系统，宣称所有训练之后再生成的文字归他们所有。

于是乎，Robyn Speer 不想做任何可能跟生成式 AI 沾上关系的项目，也不想为生成式 AI 做出任何贡献。她表示：

“OpenAI 和谷歌可以继续收集他们自己的数据，而我希望他们为此付出高昂的代价。毕竟当前的混乱局面就是他们一手造成的。”

网友怎么看？

Wordfreq 的终结反映了 AIGC 技术崛起后给互联网带来的几种变化。生成式人工智能垃圾邮件正在污染互联网，而且很难过滤掉，使得发现、研究和人类互联网更加难以找到。Wordfreq 的遭遇也证实了外界曾经提出来的一个担忧，即谷歌在 Google Books 中包含人工智能生成的书籍，这会污染 Google Ngram viewer 中使用的数据，而 Google Ngram viewer 是研究人员用来追踪语言历史使用情况的重要工具。生成式人工智能公司为了牟利而从互联网上抓取数据，以创建抄袭机器，这些可怕的行为自然导致网站所有者试图阻止出于任何原因读取其网站的网络爬虫程序。这导致研究项目和 Wordfreq 等工具更难以运行，因为域名所有者更改了 robots.txt 规则以禁止抓取数据。

Wordfreq 停止更新一事在 Hacker News 平台上引发了激烈的讨论。有 Hacker News 用户认为：

网络内容已在一定程度上受到了谷歌等非正式 SEO 规则的影响，这导致了内容质量的扭曲。具体表现为，单句段落盛行、关键词被过度重复，以及对内容“可索引性”的过度追求而牺牲了可读性，使得在大型语言模型技术兴起之前，网络就已成为一种不太适合作为语言分析或信息检索纯净来源的媒介。

另一方面，博客垃圾信息虽因其他多种原因而饱受诟病，但在衡量人类撰写文本中的基本词频方面，却意外地表现出一定的参考价值。尽管这种衡量可能在特定情境下存在偏差，但对于大多数文本而言，它仍然能反映出词汇使用的普遍趋势。

也有用户认为，这种现象恰好反映了即便强大如谷歌，也改变不了互联网垃圾信息漫天飞的现状，因为它也是这一现状的背后推动者：

这一现象反映了搜索引擎算法的不断更新与 SEO 策略的不断调整之间的动态博弈。谷歌的目标是提供高质量、相关性强的搜索结果，吸引并留住用户，然后再通过广告收入实现盈利。

但谷歌的商业模式也导致了某种程度上的利益冲突。由于谷歌优化的主要指标之一是广告收入，那些充斥着广告但内容质量不高的网站，谷歌也会在某种程度上睁一只眼闭一只眼，只要这些网站能够持续吸引广告商投放广告。这种情况下，谷歌可能不会对某些臭名昭著的 SEO 参与者采取严厉行动，因为他们的存在间接促进了广告收入的增加。

参考链接：

https://github.com/rspeer/wordfreq/blob/master/SUNSET.md

https://www.404media.co/project-analyzing-human-language-usage-shuts-down-because-generative-ai-has-polluted-the-data/

- EOF -

推荐阅读点击标题可跳转

1、《黑神话·悟空》是用什么编程语言开发的？

2、被判赔 1250 万！不正当抓取高德地图“拥堵延时指数”

3、电脑聊天记录被公司看个精光了

4、阿里云：公司 20% 代码将由 AI 编写

5、微信官方回应：为什么不做已读功能

伯乐在线

分享IT互联网职场和精选干货文章（原域名已不再维护）。组织维护10万+star的开源技术资源库，包括：Python, Java, C/C++, Go, JS, CSS, Node.js, PHP, .NET 等。

回复资源获取10万+star开源资源

点赞和在看就是最大的支持❤️

伯乐在线

伯乐在线分享IT互联网职场和精选干货文章（原域名已不再维护）。组织维护10万+star的开源技术资源库，包括：Python, Java, C/C++, Go, JS, CSS, Node.js, PHP, .NET 等

最新文章

硅谷 1/10 程序员在摸鱼？拿20~30万美元年薪却几乎不干活

世界上最厉害的协作软件，让程序员痛不欲生，最后被印度人搞走了

三个叛逆的微软程序员，创造了一项伟大的技术，彻底颠覆了游戏行业！

成立两年用户突破1500万，全员工远程办公、以开源为首选的小团队如何颠覆社交界？

一朝成名，一夜破产！这家谷歌前高管创立的AI公司突然宣布倒闭，专家：这个行业不适合AI

开发了世界上最流行的软件，竟然被人追杀，开源太可怕了...

这个大学生写了个免费软件，全世界网民抢着给他送钱，每月 10 万美元！

运维一觉睡醒“天塌了”！微软 Windows Server 更新出乱：2022 就地自动升级为 2025

强烈建议尽快搞个软考证！（重大利好）

C/C++ 大限将至？美政府给出最强硬要求：2026 年前关键软件必须开始全面去 C

顶级项目的代码仓库404，7万多star一夜清空，网友：祭天吧！

为什么多数程序员都不做个人开发来赚钱？

离谱！一边裁员，一边高薪招人！

Linux 内核“清洗”俄开发者？Linus 大佬亲自下场回复：水军别费力气了，我绝不撤回决定

字节回应大模型训练被实习生攻击

开源 9 年后，词频数据库宣布停止更新，创始人：网上全是垃圾，OpenAI 和谷歌要为此付出代价

月薪 6.7 万，两年白干！

笑死！羊毛党仅退款反被薅，某电商被曝跑路卷走 20 亿？官方回应来了

软件国产替代之怪象

支付宝推出独立App，网友不淡定了......

“制霸”硅谷的印度 CEO，惨遭“大清洗”？

被迫参加无薪培训，2000 名应届生收到 offer 两年后仍未入职，印度 IT 巨头被指“剥削”！

韩国N号房卷土重来，这一次是Deepfake，波及超200所学校

8 岁女孩玩转 AI 编程，45 分钟打造聊天机器人，Karpathy 都看呆了

8月，软考彻底爆了！？

突发！IBM 中国研发岗访问权限一夜关闭，千余人或被裁

《黑神话·悟空》是用什么编程语言开发的？

微软在 Win11 解除 30 年旧限制，前工程师：经典的东西不能随便动！

24小时不回邮件=被裁？马斯克曾经的一封邮件被判违法，前Twitter员工获赔432万元

大厂期权归属前遭暴力裁员，80 余万期权泡汤

被判赔 1250 万！不正当抓取高德地图“拥堵延时指数”

微软前员工：微软无视警告，罔顾国家利益！公司漏洞最终导致俄罗斯黑客的大规模攻击

某程序员用 AI"一键去衣"技术，伪造了近 7000 张图片牟利，结果很刑

世界上最大开源平台，被残酷地抛弃了！

抱歉，下半年我劝各位真的别轻易离职......

上交大开源镜像站下架 Docker Hub 镜像

中国软件行业几乎全军覆没

npm又被滥用，灰产用《庆余年2》盗版资源——把开源公共基础设施的羊毛薅秃了

前端第一可视化库、百度知名开源项目——ECharts创始人“下海”养鱼

年薪96w！真心建议大家冲一冲新兴领域，工资高前景好

微软通知中国 AI 团队搬至美国：涉及数百人，可解决家属签证

火爆外网的“十亿行挑战”，国外大神用 C++ 应战：从 67s 到 0.77s，速度狂飙 87 倍！

知名远程控制工具、TeamViewer 开源替代RustDesk 已暂停国内服务

突发，国内程序员发生重大变革！

小红书女员工泄漏商业秘密遭辞退！男友是B站副总裁，非常震惊

微信官方回应：为什么不做已读功能

30 多年前被 Windows、Linux “灭掉”的操作系统 MS-DOS 4.0，微软在 GitHub 上开源了！

两个老头儿写的神奇算法，统治了全世界！

全世界 IT 人苦竞业久矣！美国全面废除竞业协议

公司最大的内耗，是养了一批“伪高管”

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉