如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。这个叫做“递归的诅咒” 的悖论,说的是随着时间的推移,一方面模型会慢慢忘记真实的基础数据,造成灾难性遗忘(catastrophic forgetting),如同反复存储同一副图像,每次存储都丢掉一点信息,很多次后最终的成品的质量只会越来越差。另外一方面会产生“数据中毒(data pollution)”, 模型不会忘记以前学过的数据,而是开始把模型的错误想法曲解为现实,并且还会强化自己对错误想法的信念。这样导致新一代模型的训练数据会被上一代模型的生成数据所污染,从而彻底对现实世界的感知产生永久不可逆的错误的理解。
最近来自牛津、剑桥、帝国理工等机构研究人员发现,具体到大约9次迭代后,大模型生成的文本将是不知所云的车轱辘话,导致模型失去使用的价值「2」。亚马逊数据众包平Mechanical Turk(MTurk)从2005年启动时就已经成为许多人的副业选择。科研人员可以发布各种琐碎的人类智能任务,比如给图像标注、调查等,应有尽有,MTurk是目前很 多大模型的众包数据标注平台,洛桑联邦理工学院(EPFL)的最新研究发现,预估33%-46%的人类数据都是由AI生成的「3」。除了MTurk,包括Prolific在内的众包平台已经成为研究人员和行业实践者的核心,能够提供创建、标注和总结各种数据的方法,以便进行调查和实验。然而EPFL的研究同样发现,在这个人类数据的关键来源上,有近乎一半的数据都是标注员用AI创建的。
1996年的科幻喜剧电影《丈夫一箩筐》,讲述了一个普通人克隆自己,然后又克隆克隆人,每一次克隆都导致克隆人的智力水平呈指数下降,愚蠢程度增加,最后产生一个绝对的笨蛋。
这还不是最恐怖的!
最近有人做出了一款专门用来给AI“投毒” 的工具——Nightshade。Nightshade是芝加哥大学团队开发的一款数据污染工具,可以用来反击“AI在未经创作者允许的情况下利用其作品来训练模型”的这种行为。那么它要如何污染AI数据库,从而影响AI生成的作品呢?
——直白点讲,就是给AI“投毒”。
这个工具给画作打上一种“ 隐形”的标记,意为“下毒”。而一旦这些被下了毒的画作被非法抓取到数据库中进行训练的话,那么这整个训练模型就会“中毒”,生成一些“文不对题”的混乱图片。据说当库里有300张毒图时,生成的图片就会完全不相关,类似于“狗变成猫”、“车变成牛”的图片就会出现。
现在不少创作者都开始自发的分享并介绍起了Nightshade,希望能够好好利用这个工具,在和AI的这场战争中打一个好的“翻身仗”。
就像我开篇讲的很多人试图操纵搜索引擎的排序算法一样,不仅仅是创作者的版权保护这个方面,未来一定会有很多人会想尽办法去操纵大模型的认知,从而创造巨大的利益。
既然可以“下毒”,那么有没有“解毒”的方法呢?
有学者研究指出,可靠地检测人工智能生成的文本在数学上是一项不可能完成的任务!
现代人工智能模型的复杂性和精密性,加上它们模仿人类写作风格的能力,使得区分人工智能生成的文本和人类生成的内容变得极其困难。基于统计特征或语言模式的检测方法很容易被更先进的人工智能模型所克服。此外,人工智能技术的不断发展和潜在的对抗性攻击使检测任务进一步复杂化。尽管研究人员继续致力于开发检测工具,但可靠地检测人工智能生成的文本仍然是一项持续且艰巨的任务。
Google Brain的高级研究科学家达芙妮·伊波利托(Daphne Ippolito)表示:想在未来找到高质量且未被AI训练的数据,将难上加难「4」。
牛津大学应用与理论机器学习小组的研究员Ilia Shumailov认为,模型崩溃是不可避免的,但有一些潜在的技术解决方案可以解决这个问题。例如,能够访问真人生成内容的公司,仍然能够构建高质量的大型语言模型「5」。
所以,在我们即将见证一场训练数据灾难前,我认为2024年将是创办“清洁数据”公司的好时机。
当人工智能消化和复制内容时,它会用堆积如山的废话毁掉每一个平台。它正在毒害Spotify、Youtube、Google、Facebook、Twitter、Bing以及一切的中文互联网平台。随着时间的推移,训练新的人工智能将变得越来越困难……因为所使用的数据的质量将较少/严重地受到数以百万计的人工智能生成的内容的影响。
有人可能会说,最好的出路是识别人工智能数据并将其排除在训练集中,但如上所述这是困难的。这种全行业的需求将是创业公司的机会,大型互联网公司和大模型将从中购买训练数据集来训练他们的算法。我直觉未来这部分数据会很贵,而且会越来越贵,因为我相信它们将具有商业可行性的额外好处,以避免即将降临到我们的技术霸主身上的大量版权诉讼。大模型平台将被迫进行投资,以恢复人们对他们平台的信任,否则他们就注定失败。
最后,我问GPT4.0,在这个领域对于初创公司有哪些机会呢?
他回答道:
对于初创公司而言,当前人工智能领域中存在着多种机会,尤其是在应对人工智能生成内容污染和提供清洁数据方面:
1.数据质量和过滤服务:初创公司可以专注于提供高质量、经过认证的数据集,帮助社交媒体平台、搜索引擎和其他技术公司训练其算法。这包括开发先进的过滤和验证技术,确保数据不受到人工智能噪音的干扰。
2.内容审核工具:提供先进的内容审核工具,帮助平台检测和过滤出垃圾内容、 虚假信息和其他有害的人工智能生成的内容。这样的工具将成为数字平台维护内容质量和用户信任的必备。
3.算法透明度和可解释性:初创公司可以专注于开发工具和技术,使人工智能算法更加透明和可解释。这将有助于用户和企业更好地理解和信任人工智能系统的决策过程。
4.知识产权保护:提供技术解决方案,帮助企业保护其知识产权免受人工智能生成的内容的侵害。这可能包括水印技术、数字版权管理等。
5.合规和伦理咨询服务:由于涉及到大量生成的内容和隐私问题,初创公司可以提供合规和伦理咨询服务,协助企业遵循相关法规和道德准则。
6.创新内容生成:发展新型算法和工具,帮助创作者和企业生成创新、有价值的内容,从而与人工智能生成的噪音区分开来。
7.用户教育:初创公司可以开展用户教育,向公众、企业和政府机构传达人工智能的风险和机会,以促使更广泛的社会参与和监管。
你看,就这样我们非常轻易就把来自大模型的认知反向投喂给它了(事实上只有Depin能解决这个问题!)。
参考内容:
[2]递归的诅咒:生成数据使大模型灾难性遗忘
[3]人工人工智能:AI数据工作者广泛使用大语言模型来标注文本
[4]ChatGPT 加速社会崩溃的 9 种方式
[5]即将到来的人工智能数据污染巨浪
END
往期推荐