数据中毒，给AI投毒——2024年将是创办“清洁数据”公司的好时机

企业财经 2024-01-28 11:01 上海

点击上方蓝色字关注我们~

两年前我写过一篇文章：人工智能合成数据「1」。我认为随着越来越强的隐私问题，广泛存在的数据偏见以及数据收集的成本问题，人工智能合成数据一定会大行其道，现在看来这个预测不谬。两年前我没有预测到今天ChatGPT的“古生物大爆炸式”发展状况（GPT Store），更没有预料到人工智能合成数据会变成一个潜在的严重的行业和社会问题。

如果你刷短视频可能会经常看到各种公众号私域流量“主理人”，他们有一个生意是教你如何用AI来赚钱，其中一个是用AI生产大量的美食、旅游、健康、教育、金融、新闻内容……然后把这些内容挂载到个人网页中，这个网页中再嵌入来自Google Ads的广告，用这样的一个系统自动为你赚钱。以上的这个流程产出的内容是以百和千篇/每天为单位的，以极快的速度发布着这些未经任何核验的内容，而如果看Youtube和抖x相关阅读量，可能全世界这样的“创作者”有数十万之多。

然后AI的模型训练数据又会抓到这些数据，用来训练下一版本的更为高级的模型。

这会有什么问题？

比如今天你问有的模型：肖申克的救赎的主角叫什么名字？

它可能会告诉你，小帅！

如果在训练时大量使用AI内容，会引发模型崩溃（model collapse），造成不可逆的缺陷。这个叫做“递归的诅咒” 的悖论，说的是随着时间的推移，一方面模型会慢慢忘记真实的基础数据，造成灾难性遗忘（catastrophic forgetting），如同反复存储同一副图像，每次存储都丢掉一点信息，很多次后最终的成品的质量只会越来越差。另外一方面会产生“数据中毒（data pollution）”, 模型不会忘记以前学过的数据，而是开始把模型的错误想法曲解为现实，并且还会强化自己对错误想法的信念。这样导致新一代模型的训练数据会被上一代模型的生成数据所污染，从而彻底对现实世界的感知产生永久不可逆的错误的理解。

最近来自牛津、剑桥、帝国理工等机构研究人员发现，具体到大约9次迭代后，大模型生成的文本将是不知所云的车轱辘话，导致模型失去使用的价值「2」。亚马逊数据众包平Mechanical Turk（MTurk）从2005年启动时就已经成为许多人的副业选择。科研人员可以发布各种琐碎的人类智能任务，比如给图像标注、调查等，应有尽有，MTurk是目前很多大模型的众包数据标注平台，洛桑联邦理工学院（EPFL）的最新研究发现，预估33%-46%的人类数据都是由AI生成的「3」。除了MTurk，包括Prolific在内的众包平台已经成为研究人员和行业实践者的核心，能够提供创建、标注和总结各种数据的方法，以便进行调查和实验。然而EPFL的研究同样发现，在这个人类数据的关键来源上，有近乎一半的数据都是标注员用AI创建的。

1996年的科幻喜剧电影《丈夫一箩筐》，讲述了一个普通人克隆自己，然后又克隆克隆人，每一次克隆都导致克隆人的智力水平呈指数下降，愚蠢程度增加，最后产生一个绝对的笨蛋。

这还不是最恐怖的！

最近有人做出了一款专门用来给AI“投毒” 的工具——Nightshade。Nightshade是芝加哥大学团队开发的一款数据污染工具，可以用来反击“AI在未经创作者允许的情况下利用其作品来训练模型”的这种行为。那么它要如何污染AI数据库，从而影响AI生成的作品呢？

——直白点讲，就是给AI“投毒”。

这个工具给画作打上一种“ 隐形”的标记，意为“下毒”。而一旦这些被下了毒的画作被非法抓取到数据库中进行训练的话，那么这整个训练模型就会“中毒”，生成一些“文不对题”的混乱图片。据说当库里有300张毒图时，生成的图片就会完全不相关，类似于“狗变成猫”、“车变成牛”的图片就会出现。

现在不少创作者都开始自发的分享并介绍起了Nightshade，希望能够好好利用这个工具，在和AI的这场战争中打一个好的“翻身仗”。

就像我开篇讲的很多人试图操纵搜索引擎的排序算法一样，不仅仅是创作者的版权保护这个方面，未来一定会有很多人会想尽办法去操纵大模型的认知，从而创造巨大的利益。

既然可以“下毒”，那么有没有“解毒”的方法呢？

有学者研究指出，可靠地检测人工智能生成的文本在数学上是一项不可能完成的任务！

现代人工智能模型的复杂性和精密性，加上它们模仿人类写作风格的能力，使得区分人工智能生成的文本和人类生成的内容变得极其困难。基于统计特征或语言模式的检测方法很容易被更先进的人工智能模型所克服。此外，人工智能技术的不断发展和潜在的对抗性攻击使检测任务进一步复杂化。尽管研究人员继续致力于开发检测工具，但可靠地检测人工智能生成的文本仍然是一项持续且艰巨的任务。

Google Brain的高级研究科学家达芙妮·伊波利托(Daphne Ippolito)表示：想在未来找到高质量且未被AI训练的数据，将难上加难「4」。

牛津大学应用与理论机器学习小组的研究员Ilia Shumailov认为，模型崩溃是不可避免的，但有一些潜在的技术解决方案可以解决这个问题。例如，能够访问真人生成内容的公司，仍然能够构建高质量的大型语言模型「5」。

所以，在我们即将见证一场训练数据灾难前，我认为2024年将是创办“清洁数据”公司的好时机。

当人工智能消化和复制内容时，它会用堆积如山的废话毁掉每一个平台。它正在毒害Spotify、Youtube、Google、Facebook、Twitter、Bing以及一切的中文互联网平台。随着时间的推移，训练新的人工智能将变得越来越困难……因为所使用的数据的质量将较少/严重地受到数以百万计的人工智能生成的内容的影响。

有人可能会说，最好的出路是识别人工智能数据并将其排除在训练集中，但如上所述这是困难的。这种全行业的需求将是创业公司的机会，大型互联网公司和大模型将从中购买训练数据集来训练他们的算法。我直觉未来这部分数据会很贵，而且会越来越贵，因为我相信它们将具有商业可行性的额外好处，以避免即将降临到我们的技术霸主身上的大量版权诉讼。大模型平台将被迫进行投资，以恢复人们对他们平台的信任，否则他们就注定失败。

最后，我问GPT4.0，在这个领域对于初创公司有哪些机会呢？

他回答道：

对于初创公司而言，当前人工智能领域中存在着多种机会，尤其是在应对人工智能生成内容污染和提供清洁数据方面：

1.数据质量和过滤服务：初创公司可以专注于提供高质量、经过认证的数据集，帮助社交媒体平台、搜索引擎和其他技术公司训练其算法。这包括开发先进的过滤和验证技术，确保数据不受到人工智能噪音的干扰。

2.内容审核工具：提供先进的内容审核工具，帮助平台检测和过滤出垃圾内容、虚假信息和其他有害的人工智能生成的内容。这样的工具将成为数字平台维护内容质量和用户信任的必备。

3.算法透明度和可解释性：初创公司可以专注于开发工具和技术，使人工智能算法更加透明和可解释。这将有助于用户和企业更好地理解和信任人工智能系统的决策过程。

4.知识产权保护：提供技术解决方案，帮助企业保护其知识产权免受人工智能生成的内容的侵害。这可能包括水印技术、数字版权管理等。

5.合规和伦理咨询服务：由于涉及到大量生成的内容和隐私问题，初创公司可以提供合规和伦理咨询服务，协助企业遵循相关法规和道德准则。

6.创新内容生成：发展新型算法和工具，帮助创作者和企业生成创新、有价值的内容，从而与人工智能生成的噪音区分开来。

7.用户教育：初创公司可以开展用户教育，向公众、企业和政府机构传达人工智能的风险和机会，以促使更广泛的社会参与和监管。

总体而言，初创公司在人工智能领域有许多机会，通过创新性的解决方案，可以帮助行业更好地应对当前和未来的挑战。

你看，就这样我们非常轻易就把来自大模型的认知反向投喂给它了（事实上只有Depin能解决这个问题！）。

参考内容：

[1]人工智能合成数据-六禾创投

https://mp.weixin.qq.com/s/G0KZuxkV4fzXPbY96F0Pyw

[2]递归的诅咒：生成数据使大模型灾难性遗忘

https://arxiv.org/abs/2305.17493v2

[3]人工人工智能：AI数据工作者广泛使用大语言模型来标注文本

https://arxiv.org/abs/2306.07899

[4]ChatGPT 加速社会崩溃的 9 种方式

https://www.thepourquoipas.com/post/top-9-ways-chatgpt-will-accelerate-society-s-collapse

[5]即将到来的人工智能数据污染巨浪

https://www.forbes.com/sites/robkniaz/2023/05/09/the-incoming-tidal-wave-of-data-pollution-in-ai/?sh=309a372a3242

END

上海六禾创业投资管理有限公司

六禾创投成立于2008年，是中国证券投资基金业协会最早的注册登记会员之一，登记编号P1000859。

我们致力于先进制造、企业数据服务领域的科技型创业投资，所覆盖的投资阶段以天使轮到A轮为主，兼顾成长期投资，形成了高持股比例+深度投后管理的投资风格。重要的投资案例包括：帝尔激光、华锐精密工具、华院数据、开普云、建科机械、云帐房、美信金融、聚宽、原本、央数文化、曼恒数字、恒达时讯、晶品新材等。

我们的核心管理团队成熟稳健，兼具投资、科技和创业背景。我们信仰长期的力量，我们信仰科技的力量，我们信仰企业家精神。

高成功率和高回报率是我们过往的成绩，专业、专注、负责任则是取得成绩的保证！我们寻找志同道合的出资人，我们寻找值得托付的企业家，我们也是值得托付的管理人。

我们深耕创新性、智能化的高端制造领域，聚焦于先进设备、创新材料和数据智能几大核心分支，致力于发现、投资并服务于该领域具有远大发展目标的中国科技创新型企业，是有理想又靠谱的优秀企业家和创业者值得信任的股东和顾问，全力支持企业实现跨越式发展。

www.liuhevc.com

往期推荐

《人工智能合成数据》

《从OpenAI之变谈企业治理》

http://mp.weixin.qq.com/s?__biz=MzA4NTI4MDkwMw==&mid=2650451120&idx=1&sn=6745bc78ad327cc72bf683cdf65c19b2

六禾创投

这里记录六禾创投对于早期创业项目的思考和心得，欢迎大家分享和讨论，商业计划书请发至：bp@liuhecapital.com

最新文章

Paul Graham：写作能力是对抗AI 时代阶层分化的利器

失业了？别焦虑，这是上天给你的洗礼！

假如融不到天使轮投资，你还会启动创业吗？

科技创业公司的六个成长陷阱

宝贝，这将是你未来的机器人生

科技这么厉害，为什么我们还是老在琢磨人？

如何找到像查理•芒格一样的搭档

去做一些截然不同的事情吧

稀缺和有效性：人穷志短和志短人穷

创业：先量力而行，再尽力而为

科技企业联合创始计划-实战训练营第三期学员招募！

阿西莫夫论创造力

The Power of Full Engagement精力管理

技术与商业人才的匹配

保罗•格雷厄姆论创业者的坚韧与固执

“他没有炒任何人的鱿鱼！”

如何在长期竞争中保持失败

与一名创业者交流后的感想

我们为什么会说“No”

你想活出怎样的人生

兼职创业能不能投？

从卖叶子到卖铲子

重新思考ToB软件公司的商业模式

Pulak Prasad：从进化生物学中领悟投资智慧

当我在读哲学时我在想什么？

预见30年后的自己

互联网的下一步是什么

对创业公司做市场验证的新理解

如何创立谷歌——保罗·格雷厄姆给青少年的创业忠告

第三期科技企业联合创始计划-实战训练营，征集创业项目ing！

英伟达黄仁勋:“你的核心信念是什么？”

AI刚刚解决了可控核聚变一个最大问题

你想要哪种员工？

新春话年会

如何安放我们的心？

数据中毒，给AI投毒——2024年将是创办“清洁数据”公司的好时机

拿产业投资人的钱，要考虑哪些风险？

少有人听说过的发明家：拯救无数生命的黑皮肤爱迪生

蒙特利尔圣诞新年度假有感

六禾创投祝您元旦快乐！

人生由我

叙事经济和经济叙事

2023盘点|一级市场创业与投资数据分析

少有人听说过的杰出价值投资者IV

我们知道和不知道的

康复科里的“新当家”

从OpenAI之变谈企业治理

天地辽阔，去创造更大的世界

创业，看埃隆·马斯克

初创企业应如何选择启动场所

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉