9年开源项目宣告停更！创建者怒斥OpenAI、Google：互联网被AI污染了，我鄙视你们！

文摘 2024-10-01 14:34 北京

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

“生成式 AI 污染了数据，我认为没有人掌握关于 2021 年后人类使用语言的可靠信息”。近日，开源项目 wordfreq 的创建者 Robyn Speer 在目睹了 GPT 迅速发展 3 年后的局面，做出了这一评价。

随着 GenAI 的快速扩张，很多人认为它正在毁掉互联网。Robyn Speer 在忍无可忍的情况下，决定停更 wordfreq 项目，以示抗议。

同时，他也对 OpenAI 和 Google 发出了严厉批评，表示希望这些公司为主导 GenAI 工具的开发付出高昂代价。

Image Creator from Designer

发布 9 年的开源项目官宣停更

Wordfreq 是一个开源的 Python 库，专门用于统计和分析多种语言中的单词频率，最早发布于 2015 年。由 Robyn Speer 开发，它的核心功能是提供不同语言中单词的出现频率信息，帮助研究者、开发者和语言学家进行文本分析和自然语言处理任务。

Wordfreq 支持多种语言，包含的频率数据来自维基百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源，覆盖范围广泛。

截至目前，该项目在 GitHub 上有 1300 个 Star。随着俚语和流行文化的变化以及语言的演变，Wordfreq 可用于分析不断变化的语言习惯，并且是研究此类事物的学者非常重要的资源。

作为这个项目的开发者，Robyn Speer 在 GitHub 项目特别写了一则文档，向使用它的用户详细地解释了“为什么 wordfreq 不会再更新”。

“生成式 AI 污染了数据”和“信息从免费变成了昂贵的收费”

Robyn Speer 坦言，首要的原因便是——生成式 AI 污染了数据。

在 Robyn Speer 看来，开放网络（通过 OSCAR）曾是 wordfreq 的数据来源之一。如今，互联网上充斥着由大模型生成的杂乱文本，这些文本没有人写，且不传达任何内容。将这些杂乱的文本纳入数据会导致词频出现偏差。

或许有人说，以前的网站上也充斥着不少垃圾信息。Robyn Speer 也承认了这一点，但也解释称，wordfreq 的数据来源中虽然以前也有垃圾信息，但它是可控的，且通常可以识别，而大模型生成的文本则伪装成有意图的真实语言，尽管实际上没有任何意图，且它们输出的内容无处不在。

针对这一点，也在英国曼彻斯特大学创新管理与政策教授 Philip Shapira 之前做的一项研究中得到了验证。他发现，ChatGPT 倾向于过度使用某些单词或短语，比如说“delve”。同时，他表示，尽管“delve”的使用率在 2022 年之前一直在逐渐增加，但在 2023 年（ChatGPT 广泛可用时）出现了明显的增长，并在 2024 年继续增长，由于 ChatGPT 对“delve”这个词表现出了非同寻常的偏爱，导致该词的整体频率提升了一个数量级，而人们从未如此热衷于使用它。

信息从免费变得昂贵

“在写这篇文章之前，我一直在研究如何运行更新 wordfreq 数据源的工具”，Robyn Speer 说道，“wordfreq 不仅仅关注正式的书面语言。它特别从两个来源收集了更多的对话式语言用法：Twitter 和 Reddit”。

只不过，经过时间以及 AI 大模型的“洗礼”，Twitter 和 Reddit 这两个老牌网站似乎都发生了巨大的变化。

彼时，Twitter 允许第三方免费访问其部分“firehose”数据流，不过使用有一定的限制，譬如 Twitter 不允许 Robyn Speer 在他收集数据的公司（Luminoso）之外分发这些数据。当时 wordfreq 使用了这些数据作为输入构建了词频，但收集到的数据并不属于 Robyn Speer。

现在，Twitter 在被马斯克收购之后，它的公共 API 已关闭，甚至名字都被 X 取而代之。Robyn Speer 表示，“即便 X 提供了其原始数据流（实际上并没有），那里也找不到任何有价值的信息。”

除了 X 之外，Reddit 也停止提供公共数据归档，现在他们将归档内容以高价出售，此前有媒体报道称，Reddit 对每 5000 万次 API 请求收取 1.2 万美元的费用，相对于许多同行而言，这是一个较高的价格，也是很多第三方开发者无法负担的费用。Robyn Speer 称，只有 OpenAI 愿意支付这个费用。

“我不想再参与其中了”

多重因素夹杂在一起，Robyn Speer 坦言，不想再参与其中了。

曾经凭借自己的兴趣，我开发了 wordfreq。我以一种能够有益于自然语言处理工具的方式从事语料库语言学。

我所熟知的“自然语言处理”领域如今已难寻踪影。它几乎全被生成式 AI 吞噬。虽然其他技术依然存在，但生成式 AI 占据了整个领域，吸引了所有的资金。很少能看到不依赖 OpenAI 和 Google 控制的闭源数据的 NLP 研究，这两家公司我早已鄙视它们。

wordfreq 是通过收集大量多语言文本构建的。这在过去是一件非常合理的事情，而且不太可能有人会对此提出异议。但现在，文本收集工具大多用于训练生成式 AI，而人们对此非常有戒心。如果有人收集你的书籍、文章、网站或公开帖子的所有文字，很可能是为了制造一个剽窃机器，将你的话据为己有。

因此，我不想再做任何可能与生成式 AI 混淆或可能对生成式 AI 有益的事情。

OpenAI 和谷歌可以自己去收集他们自己的数据，我希望他们为此付出极高的代价。毕竟，他们自己造成了这个局面。

停更是 wordfreq 一个不错的结局！

事实上，不止 wordfreq 受到波及，我们也亲证在生成式 AI 的影响下：

高校老师分不清作业、论文究竟是 AI 还是学生之手；
一本正经胡说八道的 AI，其生成的内容成为很多人不假思索使用的来源。正如今年 5 月，苹果公司的新 iPad Pro 的广告展示了一台巨型工业液压机将人类文化艺术的标志性器具（乐器、书籍、绘画材料等）无情碾压成粉末，引来巨大争议，甚至美国电影制片人贾斯汀·贝特曼在 X 上写道：“为什么苹果要做一则碾压艺术的广告？科技和人工智能意味着摧毁整个艺术和社会！”；
又如今年 7 月，Google 研究人员对 200 篇关于生成式 AI 滥用的新闻报道进行了研究，发现生成式 AI 造成的虚假信息正在互联网上泛滥成灾；
......

对此，有不少网友感同身受，在 HN 评论道：

我很遗憾这种情况让原作者对 NLP 社区感到灰心，我也是其中的一员，我只想说“我们并不都是那样的”，虽然这确实是一个趋势，我们也正处于炒作的顶峰（甚至可能已经略微过了）。

关于网络被生成 AI 内容污染的抱怨非常及时，而且这已经不是第一次了，之前还有为了操纵 PageRank 而设立的垃圾内容农场等乱象。这可能意味着手工策划的高质量网站列表会重新获得价值（有些人称其为“小网络”）。

每一代网络都需要应对其特定时代的对抗性机制，而当前的网络阶段也不例外。

也有人认为：

实际上早在大型语言模型（LLM）出现之前，网络已经被谷歌那些没有明文规定的 SEO 规则污染了。单句段落、多次重复关键词，以及对“可索引性”的关注超过了可读性，这些早就让网络成为一个不太理想的分析来源。

这也使网络成为不太理想的训练数据来源。然而，LLM 仍然在被喂以那些为 Googlebot（谷歌爬虫）而非人类写的文章。机器学习/大型语言模型是写作污染的第二个迭代。第一个迭代是人类为企业的机器人写作，而不是为其他人类写作。

随着 Robyn Speer 宣布停更 wordfreq 消息的发酵，其本人补充说道：

我认为大多数找到它的人都能理解我的出发点。在此，我想强调几点。

我仍然在维护开源库。这里有 ftfy（https://github.com/rspeer/python-ftfy），这是一个流行的多功能 Unicode 修复工具。
你可以把 wordfreq 数据的“冻结”看作是一件好事。很多人发现 wordfreq 很有用，而最新版本不会消失。

Robyn Speer 总结道，「更新它反而会使情况变得更糟，因此我选择不更新。它随着时间会变得过时，但不会变得更糟。这对于互联网上的东西来说，算是一个不错的结局！」

来源：

https://github.com/rspeer/wordfreq/blob/master/SUNSET.md

https://news.ycombinator.com/item?id=41578483

http://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247582652&idx=1&sn=295dfc4a905f89a534e96c9aec3ccda8

AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

最新文章

Sam Altman 最新万字访谈自曝：大模型必定贬值，但不投资反而是错？

36 年开发老兵试用 Cursor AI 编程：真香还是交智商税？

微软 AI CEO 穆斯塔法：小模型绝对是未来趋势，AI 会小到能装在冰箱贴上

Google 危矣？ChatGPT 真变 AI 搜索引擎了！

DeepMind 联合创始人、微软 AI CEO：我们是否该给技术按下暂停键？

一直在“错过”的英特尔：19 年前，放弃 20 亿美元收购英伟达；6 年前，拒绝 1 亿美元入股 OpenAI！

新一代开发者产品 InsCode AI IDE 亮相：新程序员时代，CTRL+J 开启

直面“AI 取代程序员”论，《新程序员 008：大模型驱动软件开发》正式上市！

产品经理怎样利用大模型时代月入 10W+？

对话蚂蚁开源蒋炜：让 Agent 把运维人员从 24 小时的待命中解放出来

AI 会自己操控电脑了！Claude 3.5 重磅升级：不敲一行代码，3 分钟搞定一个网站

在座的各位都是AI现实主义者，同时有那么一点儿理想

200+ 技术大咖汇聚星城，2024 1024 程序员节圆满落幕！

共筑智能应用新生态！OpenCV 之父领衔岳麓对话，2024 1024 程序员节正式开幕

海内外专家共话大模型、Rust、具身智能等最新进展，GOSIM CHINA 2024圆满收官！

花 3 万美元买“人工”智能？特斯拉 Optimus 机器人遭“打假”：有人在背后远程操控！

直击编程语言、App、AGI的开源实践，160+位全球技术专家齐聚，GOSIM CHINA 2024首日不容错过！

38岁老Mac“复工”，被改造上网！仅400B/s的速度，能和ChatGPT聊天、用Claude编码

架构师必备底层逻辑：分层架构设计

调查 800 名开发者后，研究发现：GitHub Copilot 无功无过，并未提升编码速度！

打造更安全、去中心化和协作的互联网！GOSIM CHINA 2024《下一代互联网》重磅嘉宾揭晓

图灵奖得主杨立昆：星舰不算科学成就，而是工程成就；现在 AI 全方面不如猫，智力、记忆和好奇心都差得远

Rust 群星闪耀！20+ 海内外顶尖 Rust 专家天团 GOSIM CHINA 2024 相聚北京

大模型驱动的产品范式创新研究与思考

SDV 峰会聚焦：下一代软件定义汽车的关键开源技术

腾讯写码 6 年，我总结的技术人核心竞争力

仓颉 Workshop：鸿蒙原生应用开发的技术盛宴

走近诺奖得主霍普菲尔德：“我当时寻找的是一道真正的‘难题’，而不是一个小问题”

Triton & vLLM 联袂呈现 AI 技术盛宴：高效推理框架的应用实践与未来创新

“深度学习教父”遇见诺贝尔物理学奖，唤起了 13 位 AI 界大神的回忆……

开创跨平台的未来！GOSIM CHINA 2024《App 开发》专题论坛重磅揭晓！

Sam Altman 也不得不服谷歌的这款 AI 应用？OpenAI CEO 对话 CPO，揭秘产品开发背后的故事

BAT、字节、快手等国内大模型TOP企业专家齐聚，2024全球机器学习技术大会前沿议题提前揭晓！

OpenAI 实时 API 震撼发布：语音应用的“ChatGPT”时刻来临！

高校开源爱好者集结令！GOSIM CHINA 2024 等你来！

9年开源项目宣告停更！创建者怒斥OpenAI、Google：互联网被AI污染了，我鄙视你们！

聚焦开源大模型前沿应用，GOSIM CHINA 2024《AI 模型与基础模型》专题论坛重磅揭晓！

CSDN 创始人蒋涛：不掌握 AI 开发者工具会丧失下一个战略高地

微软 Copilot 全面升级，语音模式正面硬刚 ChatGPT

程序员必备！面向Prompt编程全攻略

Transformer 作者离职 3 年后重返谷歌，被 189 亿元天价聘回！拯救谷歌 AI 于水火

软件的动态自修改是 AI 为软件开发带来的最大机会之一

全球Rust核心贡献者共话当下与未来！GOSIM CHINA 2024《Rust 编程语言》专题论坛重磅揭晓！

开源创新点燃机器人未来！GOSIM CHINA 2024《具身智能》专题论坛重磅揭晓！

万字深剖！13位AI巨擘联袂，1.6万字解码生成式AI产品「全攻略」

深夜动荡再现：OpenAI CTO、两位核心骨干官宣离职，Altman被曝将首次获7%股权

Llama 3.2多模态模型发布；扎克伯格：AI还没到扩展极限，Llama 4会在十万张显卡上训练 | AI头条

开源创新点燃机器人未来！GOSIM CHINA 2024《具身智能》专题论坛重磅揭晓！

谷歌 AI 产品经理：“软件工程师现在能够处理比过去复杂十倍的问题，Gemini 已成为性价比最高的 AI 开发首选平台”

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉