9年开源项目宣告停更！创建者怒斥OpenAI、Google：互联网被AI污染了，我鄙视你们！

文摘 2024-10-10 12:16 北京

“生成式 AI 污染了数据，我认为没有人掌握关于 2021 年后人类使用语言的可靠信息”。近日，开源项目 wordfreq 的创建者 Robyn Speer 在目睹了 GPT 迅速发展 3 年后的局面，做出了这一评价。

随着 GenAI 的快速扩张，很多人认为它正在毁掉互联网。Robyn Speer 在忍无可忍的情况下，决定停更 wordfreq 项目，以示抗议。

同时，他也对 OpenAI 和 Google 发出了严厉批评，表示希望这些公司为主导 GenAI 工具的开发付出高昂代价。

Image Creator from Designer

发布 9 年的开源项目官宣停更

Wordfreq 是一个开源的 Python 库，专门用于统计和分析多种语言中的单词频率，最早发布于 2015 年。由 Robyn Speer 开发，它的核心功能是提供不同语言中单词的出现频率信息，帮助研究者、开发者和语言学家进行文本分析和自然语言处理任务。

Wordfreq 支持多种语言，包含的频率数据来自维基百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源，覆盖范围广泛。

截至目前，该项目在 GitHub 上有 1300 个 Star。随着俚语和流行文化的变化以及语言的演变，Wordfreq 可用于分析不断变化的语言习惯，并且是研究此类事物的学者非常重要的资源。

作为这个项目的开发者，Robyn Speer 在 GitHub 项目特别写了一则文档，向使用它的用户详细地解释了“为什么 wordfreq 不会再更新”。

“生成式 AI 污染了数据”和“信息从免费变成了昂贵的收费”

Robyn Speer 坦言，首要的原因便是——生成式 AI 污染了数据。

在 Robyn Speer 看来，开放网络（通过 OSCAR）曾是 wordfreq 的数据来源之一。如今，互联网上充斥着由大模型生成的杂乱文本，这些文本没有人写，且不传达任何内容。将这些杂乱的文本纳入数据会导致词频出现偏差。

或许有人说，以前的网站上也充斥着不少垃圾信息。Robyn Speer 也承认了这一点，但也解释称，wordfreq 的数据来源中虽然以前也有垃圾信息，但它是可控的，且通常可以识别，而大模型生成的文本则伪装成有意图的真实语言，尽管实际上没有任何意图，且它们输出的内容无处不在。

针对这一点，也在英国曼彻斯特大学创新管理与政策教授 Philip Shapira 之前做的一项研究中得到了验证。他发现，ChatGPT 倾向于过度使用某些单词或短语，比如说“delve”。同时，他表示，尽管“delve”的使用率在 2022 年之前一直在逐渐增加，但在 2023 年（ChatGPT 广泛可用时）出现了明显的增长，并在 2024 年继续增长，由于 ChatGPT 对“delve”这个词表现出了非同寻常的偏爱，导致该词的整体频率提升了一个数量级，而人们从未如此热衷于使用它。

信息从免费变得昂贵

“在写这篇文章之前，我一直在研究如何运行更新 wordfreq 数据源的工具”，Robyn Speer 说道，“wordfreq 不仅仅关注正式的书面语言。它特别从两个来源收集了更多的对话式语言用法：Twitter 和 Reddit”。

只不过，经过时间以及 AI 大模型的“洗礼”，Twitter 和 Reddit 这两个老牌网站似乎都发生了巨大的变化。

彼时，Twitter 允许第三方免费访问其部分“firehose”数据流，不过使用有一定的限制，譬如 Twitter 不允许 Robyn Speer 在他收集数据的公司（Luminoso）之外分发这些数据。当时 wordfreq 使用了这些数据作为输入构建了词频，但收集到的数据并不属于 Robyn Speer。

现在，Twitter 在被马斯克收购之后，它的公共 API 已关闭，甚至名字都被 X 取而代之。Robyn Speer 表示，“即便 X 提供了其原始数据流（实际上并没有），那里也找不到任何有价值的信息。”

除了 X 之外，Reddit 也停止提供公共数据归档，现在他们将归档内容以高价出售，此前有媒体报道称，Reddit 对每 5000 万次 API 请求收取 1.2 万美元的费用，相对于许多同行而言，这是一个较高的价格，也是很多第三方开发者无法负担的费用。Robyn Speer 称，只有 OpenAI 愿意支付这个费用。

“我不想再参与其中了”

多重因素夹杂在一起，Robyn Speer 坦言，不想再参与其中了。

曾经凭借自己的兴趣，我开发了 wordfreq。我以一种能够有益于自然语言处理工具的方式从事语料库语言学。

我所熟知的“自然语言处理”领域如今已难寻踪影。它几乎全被生成式 AI 吞噬。虽然其他技术依然存在，但生成式 AI 占据了整个领域，吸引了所有的资金。很少能看到不依赖 OpenAI 和 Google 控制的闭源数据的 NLP 研究，这两家公司我早已鄙视它们。

wordfreq 是通过收集大量多语言文本构建的。这在过去是一件非常合理的事情，而且不太可能有人会对此提出异议。但现在，文本收集工具大多用于训练生成式 AI，而人们对此非常有戒心。如果有人收集你的书籍、文章、网站或公开帖子的所有文字，很可能是为了制造一个剽窃机器，将你的话据为己有。

因此，我不想再做任何可能与生成式 AI 混淆或可能对生成式 AI 有益的事情。

OpenAI 和谷歌可以自己去收集他们自己的数据，我希望他们为此付出极高的代价。毕竟，他们自己造成了这个局面。

停更是 wordfreq 一个不错的结局！

事实上，不止 wordfreq 受到波及，我们也亲证在生成式 AI 的影响下：

高校老师分不清作业、论文究竟是 AI 还是学生之手；
一本正经胡说八道的 AI，其生成的内容成为很多人不假思索使用的来源。正如今年 5 月，苹果公司的新 iPad Pro 的广告展示了一台巨型工业液压机将人类文化艺术的标志性器具（乐器、书籍、绘画材料等）无情碾压成粉末，引来巨大争议，甚至美国电影制片人贾斯汀·贝特曼在 X 上写道：“为什么苹果要做一则碾压艺术的广告？科技和人工智能意味着摧毁整个艺术和社会！”；
又如今年 7 月，Google 研究人员对 200 篇关于生成式 AI 滥用的新闻报道进行了研究，发现生成式 AI 造成的虚假信息正在互联网上泛滥成灾；
......

对此，有不少网友感同身受，在 HN 评论道：

我很遗憾这种情况让原作者对 NLP 社区感到灰心，我也是其中的一员，我只想说“我们并不都是那样的”，虽然这确实是一个趋势，我们也正处于炒作的顶峰（甚至可能已经略微过了）。

关于网络被生成 AI 内容污染的抱怨非常及时，而且这已经不是第一次了，之前还有为了操纵 PageRank 而设立的垃圾内容农场等乱象。这可能意味着手工策划的高质量网站列表会重新获得价值（有些人称其为“小网络”）。

每一代网络都需要应对其特定时代的对抗性机制，而当前的网络阶段也不例外。

也有人认为：

实际上早在大型语言模型（LLM）出现之前，网络已经被谷歌那些没有明文规定的 SEO 规则污染了。单句段落、多次重复关键词，以及对“可索引性”的关注超过了可读性，这些早就让网络成为一个不太理想的分析来源。

这也使网络成为不太理想的训练数据来源。然而，LLM 仍然在被喂以那些为 Googlebot（谷歌爬虫）而非人类写的文章。机器学习/大型语言模型是写作污染的第二个迭代。第一个迭代是人类为企业的机器人写作，而不是为其他人类写作。

随着 Robyn Speer 宣布停更 wordfreq 消息的发酵，其本人补充说道：

我认为大多数找到它的人都能理解我的出发点。在此，我想强调几点。

我仍然在维护开源库。这里有 ftfy（https://github.com/rspeer/python-ftfy），这是一个流行的多功能 Unicode 修复工具。
你可以把 wordfreq 数据的“冻结”看作是一件好事。很多人发现 wordfreq 很有用，而最新版本不会消失。

Robyn Speer 总结道，「更新它反而会使情况变得更糟，因此我选择不更新。它随着时间会变得过时，但不会变得更糟。这对于互联网上的东西来说，算是一个不错的结局！」

本文整理：屠敏

GitCode开源探索

GitCode官方账号，[GitCode」开源开发者平台，依托CSDN开发者社区，帮助开发者及开发者企业实现项目托管、协同研发、项目运营和生态拓展。

【议题征集】“京” 彩开源，G-Star Gathering Day 北京站即将开启！

GitCode 开源圈｜技术专家和神父在梵蒂冈研讨 AI！MIT 教授当场放教皇深伪视频，现场炸锅

【直播预约】Excelize 作者带你玩转数据分析与办公自动化！

【活动报名】G-Star Gathering Day深圳站｜开发者的专属派对，来深圳了！

“不愧是 Linus！”仅改 21 行代码，Linux 性能暴涨 2.6%

【活动报名】G-Star Gathering Day深圳站｜开发者的专属派对，来深圳了！

6个月收入狂揽700万！17岁高中生开发一个新AI应用爆火，网友：别低估小孩子

仓颉编程语言官网正式上线！首个公测版本开放下载！

倒计时1天｜湘江夜韵游船Party登场，GitCode开源共创大会终极预览！

@程序员请查收GitCode的1024邀请函，顺便收下一份好礼

GitCode社区志愿者招募令

9年开源项目宣告停更！创建者怒斥OpenAI、Google：互联网被AI污染了，我鄙视你们！

@程序员们｜GitCode AI探索日，与行业大咖面对面的机会来了...

聚焦开源大模型前沿应用，GOSIM CHINA 2024《AI 模型与基础模型》专题论坛重磅揭晓！

上6休3上3休2……这烧脑的调休安排，国内外AI都算不明白，集体大“翻车”！

未来已来：GitCode AI 模型社区正式发布！

魔法师召唤：GOSIM CHINA 2024 超级智能体黑客马拉松编程大赛报名啦

扎克伯格：开源 Llama 不是做慈善，是希望大家帮忙改进模型！

获奖公示｜GitCode x DevUI 开源共创挑战赛

脑机都快玩上《黑神话：悟空》了？马斯克脑机接口试验第二人成功用意念打CS2、画CAD！

白鸦、梁宁等大咖云集，40+知名产品实操案例，2024全球产品经理大会共探AGI创新之旅！

珊瑚书出版！从零开始，手把手教你构建向量数据库

官方招募 | 仓颉语言三方库社区建设全速启航，全球开发者、技术大神只等您！

【活动邀请】相聚G-Star Gathering Day | 开源与AI的奇妙旅程

从塞纳河到代码海：巴黎奥运会中的开源力量

直播预告！速度围观 | GitCode邀您参加【仓颉社区】首期公开Workshop

仓颉原生S3客户端探索｜相较Java性能提升38%

仓颉原生Redis客户端探索与实践

面向未来，GitCode 携手仓颉拥抱智能化与技术变革

夏日编码狂欢：GitCode x DevUI挑战赛，点燃你的创造力

GitCode见证：华为云DevUI如何定义下一代前端开发

开发者进｜三分钟快速上手GitCode

大师领衔专家云集，SDCon 2024 全球软件研发技术大会日程发布！附参会指南

创新驱动：毕昇大模型平台在GitCode上的全新旅程

GitCode开放体验：ChatTTS，3天9k Star的语音革命

与GitCode相约第二届软件创新发展大会：探索开源的无限可能

万元补贴助力开源项目！「GitCode 开源摘星计划」已开启

GitCode@你，你有一份全新指南待查收！

苹果曝“内鬼”猛料，索赔 18 万元：五年泄露至少 6 种机密，发送超 10000 条信息！

Windows 10 明年退役后，微软：要想继续安全使用，每台 PC 起步价为 441 元！

新版 Redis 将不再“开源”引争议：本想避免云厂商“白嫖”，却让开发者遭到“背刺”！

拥有 17 年经验的硕士码农，到了 43 岁连面试机会都没有……

英伟达禁止模拟运行 CUDA，中国开发者需要重点关注什么？

90% 开发者用上了代码生成工具，第一名却不是 Copilot？AI 开发者生态报告出炉 | 新程序员

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉