Nature发文：“知识产权和数据隐私：人工智能的隐藏风险”

文摘 2024-09-05 17:30 广东

尽管 ChatGPT 和其他生成式 AI 聊天机器人是变革性工具，但隐私和内容所有权的风险仍然存在。图源：Nature

Timothée Poisot，加拿大蒙特利尔大学的计算生态学家，成功地从研究世界生物多样性中建立了自己的职业生涯。他的研究指导原则是，研究必须是有用的，Poisot 说，他希望今年晚些时候，这项研究能够与其他工作一起被考虑在哥伦比亚卡利举行的第十六届缔约方会议（COP16）上。“我们所产生的每一项科学成果，如果被政策制定者和利益相关者关注，既令人兴奋又有些可怕，因为其中涉及到真实的利益，”他说。

但Poisot担心，人工智能（AI）将来会干扰科学与政策之间的关系。像微软的必应、谷歌的Gemini和OpenAI在旧金山开发的ChatGPT等聊天机器人，是使用从互联网抓取的数据集进行训练的——这可能包括Poisot的研究。但由于聊天机器人在输出中往往不引用原始内容，作者失去了理解其作品如何被使用以及检查AI陈述可信度的能力。Poisot 表示，未经审查的聊天机器人生成的声明可能会进入重要的会议，如 COP16，这有可能淹没扎实的科学研究。

“人们期望研究和综合过程是透明的，但如果我们开始将这些过程外包给人工智能，就没有办法知道是谁做了什么、信息来自哪里以及谁应该被认可，”他说。

自从2022年11月ChatGPT问世以来，似乎没有哪个研究过程是聊天机器人没有触及的。生成性人工智能（genAI）工具现在可以执行文献搜索；撰写手稿、拨款申请和同行评审意见；甚至生成计算机代码。然而，由于这些工具是在庞大的数据集上训练的——这些数据集通常不公开——这些数字助手也可能在意想不到的方式上与所有权、抄袭和隐私标准发生冲突，而这些问题在现行法律框架下无法解决。随着genAI主要由私营公司监督并逐渐进入公共领域，确保负责任地使用这些工具的责任通常落在用户身上。

技术的变革

支撑genAI的技术最早是在20世纪60年代由公共机构开发的，但现在已被私营公司接管，这些公司通常没有优先考虑透明度或开放获取的动机。因此，genAI聊天机器人的内部机制几乎总是一个黑箱——一系列连其创造者也不完全理解的算法，且输出内容中的来源归属往往被删除。这使得很难确切知道一个模型的回答是基于什么内容。像OpenAI这样的组织迄今为止已要求用户确保在其他工作中使用的输出不违反法律，包括知识产权和版权法规，或泄露敏感信息，例如一个人的位置、性别、年龄、种族或联系信息。研究表明，genAI工具可能会同时做这两件事。

聊天机器人之所以强大，部分原因在于它们从几乎所有互联网上的信息中学习——这些信息是通过与出版商（如美联社）和社交媒体平台（如Reddit）达成的许可协议获得的，或通过广泛抓取的可自由访问的内容获得的——并且它们在识别海量数据中的模式方面表现出色。例如，GPT-3.5模型，即ChatGPT的一个版本，训练了约3000亿个单词，利用这些单词根据预测算法生成文本字符串。

美国和欧洲对人工智能监管的方法可能有所不同。图源：Nature

AI公司越来越关注开发面向学术界的产品。今年有几家公司发布了AI驱动的搜索引擎。在5月，OpenAI宣布推出ChatGPT Edu，这个平台在其热门聊天机器人上增加了额外的分析能力，并包括构建ChatGPT自定义版本的功能。

今年的两项研究发现，广泛使用生成性AI来撰写已发表的科学手稿和同行评审评论，尽管出版商试图通过禁止使用AI或要求作者披露何时何地使用AI来设定限制。法律学者和研究人员在接受《自然》杂志采访时明确表示，当学术人员以这种方式使用聊天机器人时，他们可能会面临一些未能完全预见或理解的风险。“使用这些模型的人对它们真正的能力毫无概念，我希望他们能更加认真地保护自己和他们的数据，”来自芝加哥大学的计算机安全研究员Ben Zhao表示，他开发工具以保护创作作品（如艺术和摄影）不被AI抓取或模仿。

当被问及此事时，OpenAI的一位发言人表示，公司正在寻找改善选择退出流程的方法。“作为一家研究公司，我们相信AI为学术界和科学进步提供了巨大的好处，”发言人说。“我们尊重一些内容所有者，包括学术人员，可能不希望他们公开可用的作品被用来帮助训练我们的AI，因此我们提供了选择退出的方式。我们也在探索其他可能有用的工具。”

在学术界，研究成果与职业成功和声望密切相关，失去署名不仅剥夺了人们的补偿，还会导致声誉受损。“从他们的作品中删除人们的名字可能会造成严重损害，尤其是对于早期职业科学家或在全球南方工作的人员，”来自卡内基梅隆大学的计算化学家Evan Spotte-Smith说，他出于伦理和道德原因避免使用AI。研究表明，科学界中边缘化群体的成员，其作品的发表和引用频率低于平均水平，整体上获得的晋升机会也较少。Spotte-Smith表示，AI有可能进一步加剧这些挑战：未能将某人的工作归属给他们“创造了一种新的‘数字殖民主义’，我们能够获取同事的成果而不需要真正与他们互动。”

计算化学家 Evan Spotte-Smith 出于道德原因避免使用人工智能工具。图源：Nature

学术界今天几乎无法控制他们的数据如何被使用，或如何让现有的AI模型“忘记”这些数据。研究成果通常以开放获取的方式发布，起诉滥用已发表论文或书籍的难度比起诉音乐或艺术作品的难度更大。赵表示，大多数选择退出政策“充其量只是一个希望和梦想”，许多研究人员甚至不拥有他们创作成果的版权，因为他们将版权转让给了机构或出版社，而这些机构或出版社又可以与寻求利用其文本库来训练新模型并创造可向学术界营销的产品的AI公司建立合作关系。

出版商代表，包括Springer Nature、美国科学促进会（出版《科学》系列期刊）、PLOS和Elsevier表示，他们尚未与AI公司达成此类许可协议——尽管包括《科学》期刊、Springer Nature和PLOS在内的某些期刊指出，它们在编辑和同行评审中确实披露了使用AI的情况，并用于检查抄袭。（Springer Nature出版《自然》杂志，但该期刊在编辑上独立于其出版商。）

其他出版商，如Wiley和牛津大学出版社，已与AI公司达成协议。例如，Taylor & Francis与微软达成了一项1000万美元的协议。剑桥大学出版社（CUP）尚未与任何公司建立合作关系，但正在制定政策，为作者提供“选择加入”协议，作者将获得报酬。在向《书商》杂志发表的有关CUP未来计划的声明中，CUP的学术出版总监Mandy Hill表示，“我们将把作者的利益和愿望放在首位，然后再允许他们的作品被许可用于生成AI。”

一些作者对他们的作品将被输入到AI算法中感到不安。“我无法自信地预测AI可能对我或我的工作产生的所有影响，这让我感到沮丧和有些害怕，”来自纽约哥伦比亚大学的癌症生物学家Edward Ballister说。“我认为机构和出版商有责任思考这意味着什么，并对他们的计划保持开放和沟通。”

如何保护你的知识产权免受AI侵害

新法律最终将围绕生成式AI（genAI）模型训练所用数据的所有权和透明度建立更强有力的期望。同时，研究人员可以采取一些步骤来保护他们的知识产权（IP）并保障敏感数据的安全。

1. 批判性地思考是否真的需要使用AI。
放弃使用genAI可能会让人觉得错过了一个绝佳的机会。但对于某些学科——尤其是涉及敏感数据的学科，如医疗诊断——忽略AI可能是更符合伦理的选择。澳大利亚悉尼大学研究数字技术伦理的计算机学家Uri Gal表示：“目前，我们还没有很好的方式让AI遗忘，因此在医疗环境中使用这些模型仍有很多限制。”

2. 如果使用AI，请实施保障措施。
专家普遍认为，完全防止数据被网络爬虫抓取几乎是不可能的。这些工具可以从互联网上提取数据。然而，有一些步骤可以增加额外的监督，比如将数据本地托管在私有服务器上，或让资源开放并可用，但只能通过请求访问。包括OpenAI、微软和IBM在内的多家公司允许客户创建自己的聊天机器人，这些机器人可以仅在其自己的数据上进行训练，并以这种方式隔离。

3. 尽可能选择退出。
从AI训练集里排除数据的退出政策的可执行性差异很大，但一些公司如Slack、Adobe、Quora、Squarespace、Substack和OpenAI都提供了防止内容被抓取的选项。然而，一些平台使得这一过程更加困难，或将此选项限制在某些类型的账户。如果你擅长编程，可以修改个人网站的robots.txt文件，该文件会告诉网络爬虫是否可以访问你的页面，从而防止工具抓取你的内容。

4. 如果可能，“毒化”你的数据。
科学家们现在可以检测视觉产品（如图片或图形）是否已包含在训练集中，并开发了可以“毒化”数据的工具，使基于这些数据训练的AI模型以不可预测的方式出错。“我们基本上教这些模型，牛是一种有四个轮子和漂亮挡泥板的东西，”伊利诺伊州芝加哥大学的计算机安全研究员Ben Zhao说道。Zhao开发了一种名为Nightshade的工具，它通过操控图片的单个像素，使AI模型将被破坏的图案与另一种图像类型关联起来（例如，将狗误认为猫）。不幸的是，目前还没有类似的工具可以用来“毒化”文字。

5. 表达你的担忧。
学术界通常将其知识产权转让给机构或出版商，这使得他们在决定如何使用其数据时的影响力较小。但乔治亚州肯尼索州立大学知识产权发展总监Christopher Cornelison表示，如果有担忧，值得与机构或出版商展开对话。这些实体可能更适合与AI公司达成许可协议，或在发生侵权风险时提起诉讼。“我们当然不希望与教职工之间存在对立关系，期望是我们共同努力朝着一个共同目标前进。”他说。

有一些证据表明，出版商注意到了科学家的不安并采取了相应行动。华盛顿大学西雅图分校AI搜索引擎Semantic Scholar的首席科学家Daniel Weld注意到，越来越多的出版商和个人主动要求不要将Semantic Scholar语料库中的论文用于训练AI模型。

法律的介入
国际政策目前才开始赶上AI技术的爆发性发展，对一些基础问题的明确答案——如AI输出是否属于现有版权法的范畴，谁拥有这些版权，以及AI公司在向其模型输入数据时需要考虑哪些问题——可能还需要数年时间才能出台。“我们现在正处于一个技术快速发展的时期，而立法却滞后，”罗马Luiss Guido Carli大学的法律学者Christophe Geiger说。“挑战在于我们如何建立一个既不会打击进步、又能保护人权的法律框架。”

德拉戈什·图多拉切在设计世界上第一部全面的人工智能立法《欧盟人工智能法案》方面发挥了重要作用。图源：Nature

尽管观察者们可能要等待一段时间，来自德克萨斯农工大学法学院的知识产权律师兼法律学者Peter Yu表示，现有的美国案例法表明，法院更有可能站在AI公司的立场，部分原因是美国通常优先发展新技术。“这有助于推动美国技术达到较高水平，而其他许多国家还在努力赶上，但这也使创作者在追究涉嫌侵权时更加困难。”

相比之下，欧盟历来更重视个人保护而非新技术的发展。今年五月，欧盟通过了全球首部全面的AI法案《人工智能法案》。该法案根据AI对人类健康、安全或基本权利的潜在风险对其应用进行广泛分类，并要求采取相应的保障措施。一些应用，例如使用AI推断敏感的个人信息，将被禁止。该法案将在未来两年内逐步实施，并将于2026年全面生效，适用于在欧盟运营的模型。

由于该政策对用于研发的产品提供了广泛豁免，《人工智能法案》对学术界的影响可能较小。但作为欧洲议会成员之一、也是《人工智能法案》两位主要谈判代表之一的Dragoş Tudorache希望该法案能对透明度产生连锁效应。根据该法案，生产“通用”模型（例如聊天机器人）的AI公司将面临新的要求，包括对其模型训练方式和能耗进行说明，并需提供并执行退出政策。任何违反该法案的团体可能会被罚款高达其年度利润的7%。

Tudorache将该法案视为对AI已成新现实的承认。他说：“在人类历史上，我们经历了许多其他工业革命，它们都深刻影响了经济的不同领域和整个社会，但我认为，没有一场革命会像AI那样具有如此深远的变革效果。”

源文doi: https://doi.org/10.1038/d41586-024-02838-z

http://mp.weixin.qq.com/s?__biz=MzkxMTY3NDkyOA==&mid=2247484629&idx=1&sn=dcdeb261e45e8164c7c35bd27e633a70

AI学术导师

AI学术导师(AIxiv)是我国领先的学术评价机构，总部在香港尖沙咀，在北京，上海，广州，深圳，杭州，澳门等地设有联络处。其主要功能包括学术论文评论、学术文学创作及定期发布学术评价指标。联系方式：pr@aixiv.xyz

最新文章

详解10月全国第二，世界第四的中山大学最新Nature，高水平科研创新的典范

为什么武汉大学的Nature全球第一？详解武大10月Nature

10月高校代表作学术排名——武汉大学中山大学创新突破，中国高校科研竞争力持续增强

10月代表作学术排名——武汉大学位居榜首，美国学术界保持全球领先地位

9月代表作学术排名——苏州大学荣登国内榜首，中美学术竞争持续

用AI和机器人技术申请和开展科研项目

美国化学会<C&EN>杂志：本科化学课程已经陷入危机。

9月全球代表作学术排名——高校学术代表作：美国威尔康奈尔医学院破解抑郁症神经网络；新能源技术实现重大突破

9月全球代表作学术排名——量子物理与医学研究新突破，材料科学与跨学科创新成就

8月全球学术排行榜—物理学通讯作者：上海交大学者位居榜首，中国高校表现抢眼！

8月全球学术排行榜—数学学科：墨尔本大学全球第一！中南、浙大位居世界前五！

8月全球学术排行榜—计算机科学学科：电子科大全球第一！中国高校霸榜前22名！

8月全球学术排行榜：上海交大全球第一，哈佛第三！前十名中，中国大学占据了7席！

科睿唯安对中国科研的双标?

Nature 新闻：超精确的粒子测量让物理学家振奋：“标准模型并未过时”

Nature Communications 15, 8162 高阶光涡的扭曲光束中的拓扑异常现象文章中的问题分析

Nature新闻：学者们表示，飞往会议的行为会对气候造成危害——但他们仍继续这样做

Nature Communications 15, 8064 双引擎驱动(DED)催化系统文章中的问题分析

Nature职业播客：如何降低我们实验室的碳足迹

Nature Communications 15, 8005 合成手性（杂）双环[n.1.1]烷文章中的问题分析

Nature新闻：人工智能聊天机器人让阴谋论者质疑自己的信念

Nature Communications 15, 7997 磁性绝缘态的固有偶极霍尔效应文章中的问题分析

Nature新闻：《美国选举辩论：哈里斯和特朗普关于科学的表态》

Nature 物理评论：描绘石墨烯商业化前景

微软发布《利用高性能计算和人工智能加速材料创新》白皮书

Nature Communications 托卡马克中氘-氚等离子体文章中的科研思路分享

Science Advances 2D全铁电栅混合计算内存系统文章中的科研思路分享

Nature Communications 15, 7833 双键共轭碳基团文章中的问题分析

Nature Communications 15, 7825 选择性异质结光催化剂文章中的问题分析

Science Advances 10, eado8081 合成和将硼氮纳米管孔纳入脂质膜文章中的问题分析

Nature Communications 15, 7802 可拉伸OLED的3D起皱高度交替架构文章中的问题分析

Nature Communications 15, 7779 MnBi2Te4中的量子度量和Berry曲率文章中的问题分析

Science Advances 10, eadp0003 湿化学蚀刻工艺改善金属粉末原料表面文章中的问题分析

Nature发文：“知识产权和数据隐私：人工智能的隐藏风险”

Science Advances 10, eado9664 超薄六角形Pd8Sb3纳米结构文章中的问题分析

Nature Communications 15, 7720 碘化铅螯合物文章中的问题分析

Science Advances 10, eadp9030 集体干涉效应文章中的问题分析

Nature Communications 15, 7658 α-RuCl3的电荷特性文章中的问题分析

Nature Synthesis 1, 449–454 γ-石墨炔文章中的问题分析

Nature Communications 15, 7639 高度氧化的伯拉图碱的全合成文章中的问题分析

Nature Communications 15, 7606 小信号分析表征有机电化学晶体管文章中的问题分析

Nature Communications 15, 7605 PyCA-3F的共吸附策略文章中的问题分析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉