转自:InfoQ - 冬梅
开源词频数据库wordfreg 宣布停止更新
在自然语言处理和文本分析领域,了解词汇的频率是至关重要的。wordfreq 一个于 2015 年创建并开源的基于 Python 的库,它提供了超过 40 种语言的单词频率数据,让用户可以轻松地获取语言中单词的使用情况。
该开源项目的创建者和维护者 Robyn Speer 在最初创建该项目时希望通过分析维基百科、电影和电视字幕、新闻文章、书籍、网站、Twitter 和 Reddit 上的数百万个来源,追踪人们使用 40 多种不同语言的方式的不断变化,分析不断变化的语言习惯,为研究此类技术的学者们提供有用的资源。
但近日,在该项目的 GitHub 页面上的一则注释中,创建者 Robyn Speer 写道,该项目“将不再更新”。
Robyn Speer 在 2024 年 9 月 wordfreq 项目公告中写下
本文档页面近期受到大量关注,相信大多数来到这里的朋友也很清楚个中缘由。这里我要再强调几点,向来自不同来源访问链接的读者澄清以下基本情况:
我仍在开发多个开源库,包括流行的多用途 Unicode 修复程序 ftfy。
大家可以把冻结 wordfreq 数据理解成一件好事。不少人对 wordfreq 的实用性表达了认可,请别担心,计划内的最新版本仍会到来。这里我想告知大家的是,我发现版本更新会影响到项目质量,所以后续我将停止更新。这个项目将随着时间推移而过时,但至少不会变得更差。对于互联网上的项目来说,这应该是种相当体面的退场方式了!
为什么 wordfreq 不再更新
Wordfreq 数据属于一份语言快照,反映的是 2021 年之前的各种在线资源。Wordfreq 作者表示,放弃对项目更新主要出于以下几个原因:
生成式 AI 污染了该数据
在 Robyn Speer 看来,已经没人能对 2021 年之后的人类语言使用情况做出可靠的归纳和分析了。
开放网络(通过 OSCAR)一直是 wordfreq 的重要数据来源之一。现如今,整个网络充斥着大语言模型生成的垃圾信息,这些垃圾信息并非由人撰写、没有传达任何信息。盲目将这些垃圾信息包含在数据当中,只会扭曲 wordfreq 所关注的词汇使用频率。
当然,wordfreq 以往的数据源中也同样存在垃圾信息,但其尚处于可管理的水平,而且通常可以被及时发现。大语言模型生成的文本则被伪装成真实语言,貌似能够反映背后的意图——可实际情况是,其既没有意图,输出结果又沸反盈天。
以 Philip Shapira 的报告为例,其中提到 ChatGPT(OpenAI 发布的高人气生成语言模型)对“delve”一词的痴迷程度远超正常人类的范畴,并导致其总体使用频率上升了整整一个数量级。
Robyn Speer 表示,“开放式网络抓取是该项目数据来源的重要组成部分,现在整个网络充斥着由大型语言模型生成的垃圾数据,这些垃圾数据并非由任何人编写,无法传达任何信息。将这些垃圾数据纳入数据会扭曲词频。”
“以前,尽管互联网上和 Wordfreq 使用的数据集中一直存在垃圾信息,但这些垃圾信息是可控的,而且通常可以识别。大型语言模型会生成伪装成真实语言的文本,尽管其背后没有意图,而且它们的输出随处可见,”她写道。
曾经免费的信息变得愈发昂贵
在发布这份文档之前,Robyn Speer 一直在研究如何运用工具对 wordfreq 数据进行有效更新。
Wordfreq 不仅关注正式出版物中的文字,还从 Twitter 和 Reddit 两个来源收集更多的对话语言使用情况。
其中 Twitter 的数据来源始终不太稳定。尽管 Twitter 允许免费访问其部分“源头”,但使用条款仍然禁止 Robyn Speer 将这些数据分发至收集数据的公司(Luminoso)之外。Wordfreq 只能使用该数据统计词汇使用频率,但相关数据并不归 Robyn Speer 所有。
如今 Twitter 已经消失,其公共 API 也被关闭。整个网站成为寡头的玩物,变成一个充斥着垃圾邮件和右翼观点的新平台——X。换言之,即使 X 愿意提供原始数据指标(当然,他们根本就不愿意),也无法在其中找到任何有价值的信息。
Reddit 同样停止提供公共数据归档,现在他们正在以只有 OpenAI 才承受得起的价格出售这些归档资源。
受够了,我不想继续了
Robyn Speer 遗憾地表达,Wordfreq 曾经是他个人的兴趣所在。当时她正在从事语料库方面的语言学研究,相关成果也让更多自然语言处理工具能够从中获益。
但她以往所熟悉的“自然语言处理”领域现在已经愈发模糊 ,在很大程度上被生成式 AI 所吞噬。其他技术虽依然存在,但生成式 AI 夺取了市场的全部关注和大部分可用资金。时至今日,已经很少有自然语言处理研究能够不依赖于 OpenAI 和谷歌控制的封闭数据,这两家公司 Robyn Speer 早就鄙视它们了。
Wordfreq 是通过收集多种语言的大量许可证构建而成。这曾经是件非常合理的事情,人们支持这个项目、也可以安心使用这个项目。现如今,各种文本提取工具主要被用于训练生成式 AI,而人们则完全有理由采取防御措施。如果有人收集了大家的书籍、文章、网站或者公开帖子中的所有文本,那他们很可能正在开发一套专门抄袭的机器系统,宣称所有训练之后再生成的文字归他们所有。
于是乎,Robyn Speer 不想做任何可能跟生成式 AI 沾上关系的项目,也不想为生成式 AI 做出任何贡献。她表示:
“OpenAI 和谷歌可以继续收集他们自己的数据,而我希望他们为此付出高昂的代价。毕竟当前的混乱局面就是他们一手造成的。”
网友怎么看?
Wordfreq 的终结反映了 AIGC 技术崛起后给互联网带来的几种变化。生成式人工智能垃圾邮件正在污染互联网,而且很难过滤掉,使得发现、研究和人类互联网更加难以找到。Wordfreq 的遭遇也证实了外界曾经提出来的一个担忧,即谷歌在 Google Books 中包含人工智能生成的书籍,这会污染 Google Ngram viewer 中使用的数据,而 Google Ngram viewer 是研究人员用来追踪语言历史使用情况的重要工具。生成式人工智能公司为了牟利而从互联网上抓取数据,以创建抄袭机器,这些可怕的行为自然导致网站所有者试图阻止出于任何原因读取其网站的网络爬虫程序。这导致研究项目和 Wordfreq 等工具更难以运行,因为域名所有者更改了 robots.txt 规则以禁止抓取数据。
Wordfreq 停止更新一事在 Hacker News 平台上引发了激烈的讨论。有 Hacker News 用户认为:
网络内容已在一定程度上受到了谷歌等非正式 SEO 规则的影响,这导致了内容质量的扭曲。具体表现为,单句段落盛行、关键词被过度重复,以及对内容“可索引性”的过度追求而牺牲了可读性,使得在大型语言模型技术兴起之前,网络就已成为一种不太适合作为语言分析或信息检索纯净来源的媒介。
另一方面,博客垃圾信息虽因其他多种原因而饱受诟病,但在衡量人类撰写文本中的基本词频方面,却意外地表现出一定的参考价值。尽管这种衡量可能在特定情境下存在偏差,但对于大多数文本而言,它仍然能反映出词汇使用的普遍趋势。
也有用户认为,这种现象恰好反映了即便强大如谷歌,也改变不了互联网垃圾信息漫天飞的现状,因为它也是这一现状的背后推动者:
这一现象反映了搜索引擎算法的不断更新与 SEO 策略的不断调整之间的动态博弈。谷歌的目标是提供高质量、相关性强的搜索结果,吸引并留住用户,然后再通过广告收入实现盈利。 但谷歌的商业模式也导致了某种程度上的利益冲突。由于谷歌优化的主要指标之一是广告收入,那些充斥着广告但内容质量不高的网站,谷歌也会在某种程度上睁一只眼闭一只眼,只要这些网站能够持续吸引广告商投放广告。这种情况下,谷歌可能不会对某些臭名昭著的 SEO 参与者采取严厉行动,因为他们的存在间接促进了广告收入的增加。
参考链接:
https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
https://www.404media.co/project-analyzing-human-language-usage-shuts-down-because-generative-ai-has-polluted-the-data/