警惕AIGC数据污染“稀释”人类原创

时事 2024-10-17 07:30 北京

半月谈评论员罗冠

互联网的普及使得数据的生成、传播和获取变得无比便捷，网络上的数据量呈指数增长，数据的规模从TB（千兆字节）增加到PB（拍字节）甚至EB（艾字节），数据的种类和来源也变得更加多样化。数据的爆发式增长有力推动了以深度学习为代表的人工智能技术的突破性进展，反过来又孕育了人工智能生成内容（AIGC）这一新的数据生产方式和数据要素形态。

生成式人工智能技术的迅速发展，为人们的学习生活工作带来了诸多便利，也极大地促进了内容创作行业的发展。生成式人工智能是一种能够自动产生新的内容、创造性思考的人工智能方法。这种新型的数据生产方式打破了传统创作的时间和空间限制，使内容生产更加高效、灵活。可以说，AIGC引发了数据要素形态的深刻变革，推动数据从静态资源向动态智能要素的转变，为各行各业的数字化转型和智能化升级提供了新的动力。

生成式人工智能的普及，使数据规模以摩尔定律的速度快速增加，“全球新产生的数据量每两年翻一番”，互联网上每日新增的图片、语料等内容中AI生成内容的占比已经远远超过了真实的、人类生产的内容。随之而来的是数据质量和数据污染问题，诸如深度伪造、偏见和有害内容生成、有效数据“稀释”等。大量低质量或不客观的数据充斥其中，不仅对模型的训练产生负面影响,甚至可能导致错误的决策和偏差。这种数据质量问题，引发了人们对“数据污染”的担忧。

对于机器学习而言，数据污染是指用于训练的数据集中掺杂了低质量的数据，主要体现在数据缺失、数据冲突、数据重复、数据过时和隐私数据泄露几个方面。在生成式人工智能模型大行其道的当下，AIGC可能会加剧有效数据获取的难度，进而造成全社会层面的数据污染，影响构建优质数据要素的进程。

——海量AIGC“冲淡”人类产生的原创数据。一篇关于插画绘制网站Pixiv的研究指出，AI绘图兴起后，人类画师的活跃度下降了4.3%。当AIGC生成的内容开始主导信息生态时，具有独创性的人类内容可能被大量的人工智能生成内容“稀释”乃至“淹没”。一篇来自《Nature》的研究指出，当大语言模型或图片生成模型不断地使用自身生成的数据进行迭代训练时，会导致模型性能的快速退化，这种现象称为“模型崩溃”。我们将越来越难以收集优质的原创性数据进行利用，长此以往或将破坏优质数据要素的构建。

——放大错误观点及有害内容，危害社会氛围。生成式模型的训练依赖于大量公开的网络数据，而互联网上的信息质量良莠不齐，网友们的观点通常带有强烈的个人色彩。即使模型训练时尽力清洗和过滤训练数据，也很难完全避免这些有害内容的渗透。训练数据决定了模型的输出，模型不会辨别哪些信息是正确的，哪些是有害的。如果训练数据中含有偏见或错误信息，模型不仅会继承这些信息，还可能通过生成新内容的方式进一步放大这些问题。由于生成式人工智能模型可以高效地生成海量内容，错误观点和有害信息通过AIGC得以更广泛、更快速地传播，并且由于其逼真的表现形式，极易影响公众的判断，污染网络数据导向。

——生成伪造虚假内容，扰乱公共秩序。生成式人工智能可以根据人的指令生成不存在的内容，极易被用于自动生成虚假新闻和谣言。深度伪造技术（DeepFake）正快速发展，图片伪造、音频合成和视频换脸在生成式AI的帮助下变得轻而易举，这些虚假内容能够以逼真的形式迅速传播，带来严重的社会影响。

——生成式人工智能与AIGC数据对优质数据生态造成影响。从全社会层面来看，倘若低质量的生成内容涌入公共数据源，将进一步污染全社会的数据来源。当数据源被大量低质量生成内容占据，数据生态将逐步崩溃，构建优质数据要素将无从谈起。这不仅影响人工智能行业的发展，还会波及各个依赖数据要素进行生产活动的行业和领域，例如新闻、教育、公共安全等。

AIGC数据需要“清污”。现存的隐私保护、知识产权和数据信息相关的法律与大数据时代已经不匹配。面对互联网上新增的海量原始数据，我们亟须构建完善的数据内容维护、数据质量管理和数据安全监管体系。

联合国大学关于AIGC数据利用与风险的一份调研报告中给出了一些建议：全面推进AIGC相关立法，从源头防范数据污染问题；构建全面的AIGC数据质量与安全评价体系，促进合成数据的合理利用；将AIGC数据管理纳入全球AI治理合作，促成全球范围内全面解决合成数据带来的风险；加快明确生成式人工智能伦理与隐私准则，增强生成式人工智能技术的透明性，防范有违全人类共同价值的AIGC内容扩散，并解决用户隐私和数据滥用等问题。

在尚未建立完善的数据污染管理体系之前，应对AIGC数据污染的有效方法是AIGC检测技术。依托AIGC检测技术，可以在构建数据集和设计模型结构的过程中筛选出真实的、公正的、有效的数据进行训练，从而在新模型训练的层面减少数据污染的影响，阻断数据污染扩散。

从技术层面来看，我国已在诸如AI生成文本检测、深度伪造图片视频检测等方面取得了一定的研究成果。然而，现行AIGC检测工具的泛化性能较差，检测准确率并不稳定，一旦受到特定的攻击干扰，其检测准确度会大幅下降。AIGC检测方法仍然有很长的路要走。

AIGC数据的泛滥引发了人们对生成内容的质量、可靠性和可信度的担忧。为了确保AIGC服务的可信性和可监管性，应该综合发展打造完善的AIGC水印技术，以便对AI生成的虚假信息、深度伪造视频等具有社会危害性的数据进行溯源和问责。此外，不妨利用“数据税”这一概念，旨在对上传大量无效数据或敏感数据的个体征税。

信息安全和隐私保护问题变得日益紧迫。在设计下一代生成式模型时应将安全设计根植于模型系统架构，而不是完成设计后再加入安全保障模块，从而在更加根本的层面缓解因恶意攻击或系统意外漏洞而带来的隐私和数据安全威胁。（作者罗冠系中国科学院自动化研究所副研究员；中国科学院自动化研究所硕士研究生赵中华、李睿邦对本文亦有贡献）

来源：《半月谈内部版》2024年第10期

http://mp.weixin.qq.com/s?__biz=MjM5OTU4Nzc0Mg==&mid=2658960313&idx=1&sn=2416dd26e32a9d15928997a8e078906e

半月谈

“中华第一刊”《半月谈》官微，每天帮你分析政治、经济、商业大事，解读社会发展，品味人生百态，您的政经顾问，学习良师，生活益友。

最新文章

对学校食堂，你想说点什么？

政府补贴以旧换新，怎么补？补多少？上云闪付领补贴再入手！

医院成“网红”拍摄背景板？莫让“打卡”变打扰

视源股份CVTE以交互显示+人工智能技术为基础，打造高质量出海产品矩阵

乡镇夜访六记——广西基层新事录

打卡！时政小测验

习近平在安徽考察时强调发挥多重国家发展战略叠加优势奋力谱写中国式现代化安徽篇章

习近平就组建中国资源循环集团有限公司作出重要指示

习近平参观六尺巷：弘扬好传统美德，使我们的社会更加和谐

习近平在安徽考察调研

今年前三季度中国GDP同比增长4.8%

“问勇路”揭牌！陈祥榕的母亲哭了……

以军方说哈马斯领导人辛瓦尔在加沙地带被打死

这位“打针不弯腰”的医生已守护村民健康35年

品读 | 千变万化的泥土

备战2025国考，就选半月谈《申论规范词》

婚礼负担重，如何为爱减负？

先吃，有钱再付！

他们，是临床医生的“幕后英雄”

政务大厅“周末不打烊”，基层怎么看？

AI不仅可以有“厨师证”，还能经营餐厅？

打卡！时政小测验

15人获刑！长沙自建房倒塌事故案一审宣判

习近平回信勉励中国国际大学生创新大赛参赛学生代表

网红在机场强迫女志愿者摘口罩，还有人“叫好”？警方通报！

朝中社：朝鲜完全封闭连接韩国的公路和铁路

警惕AIGC数据污染“稀释”人类原创

网红扎堆，妇产医院里拍出“浪漫欧式风”？网友：离大谱

品读 | 这届职场人开始花式哄自己上班了

资料分析从“小白”到“满分”

习近平在福建考察时强调扭住目标不放松一张蓝图绘到底在中国式现代化建设中奋勇争先

“达人”探店，是“群英荟萃”还是“萝卜开会”？

打卡！时政小测验

习近平参观谷文昌纪念馆：为官一任，造福一方

习近平在福建漳州市考察调研

如何让孩子合理使用手机？听听家长们怎么说

贵州省纪委原副书记、省监委原副主任张平，被逮捕

60年了！我们永远不会忘记

世预赛国足2:1战胜印尼队

如何才能让业委会真正发挥作用？

“谁家男朋友上一秒还在约会，下一秒就跑去抓小偷了呀！”

品读 | 散发着书香的馄饨店

方法不对，越学越累：8种让人无缘上岸的坏习惯

习近平对全军军事理论工作会议作出重要指示

动辄千元，来历不明——揭开地下肉毒素黑色产业链

距今约5000年大墓被发现！

“筷子夹火箭”成功，有何重要意义？

煮碗面，他被判赔偿471万余元

祛魅，年轻人的新“修行”？

打卡！时政小测验

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉