Nature发文:“知识产权和数据隐私:人工智能的隐藏风险”

文摘   2024-09-05 17:30   广东  


尽管 ChatGPT 和其他生成式 AI 聊天机器人是变革性工具,但隐私和内容所有权的风险仍然存在。图源:Nature

Timothée Poisot,加拿大蒙特利尔大学的计算生态学家,成功地从研究世界生物多样性中建立了自己的职业生涯。他的研究指导原则是,研究必须是有用的,Poisot 说,他希望今年晚些时候,这项研究能够与其他工作一起被考虑在哥伦比亚卡利举行的第十六届缔约方会议(COP16)上。“我们所产生的每一项科学成果,如果被政策制定者和利益相关者关注,既令人兴奋又有些可怕,因为其中涉及到真实的利益,”他说。
但Poisot担心,人工智能(AI)将来会干扰科学与政策之间的关系。像微软的必应、谷歌的Gemini和OpenAI在旧金山开发的ChatGPT等聊天机器人,是使用从互联网抓取的数据集进行训练的——这可能包括Poisot的研究。但由于聊天机器人在输出中往往不引用原始内容,作者失去了理解其作品如何被使用以及检查AI陈述可信度的能力。Poisot 表示,未经审查的聊天机器人生成的声明可能会进入重要的会议,如 COP16,这有可能淹没扎实的科学研究。
“人们期望研究和综合过程是透明的,但如果我们开始将这些过程外包给人工智能,就没有办法知道是谁做了什么、信息来自哪里以及谁应该被认可,”他说。
自从2022年11月ChatGPT问世以来,似乎没有哪个研究过程是聊天机器人没有触及的。生成性人工智能(genAI)工具现在可以执行文献搜索;撰写手稿、拨款申请和同行评审意见;甚至生成计算机代码。然而,由于这些工具是在庞大的数据集上训练的——这些数据集通常不公开——这些数字助手也可能在意想不到的方式上与所有权、抄袭和隐私标准发生冲突,而这些问题在现行法律框架下无法解决。随着genAI主要由私营公司监督并逐渐进入公共领域,确保负责任地使用这些工具的责任通常落在用户身上。
技术的变革
支撑genAI的技术最早是在20世纪60年代由公共机构开发的,但现在已被私营公司接管,这些公司通常没有优先考虑透明度或开放获取的动机。因此,genAI聊天机器人的内部机制几乎总是一个黑箱——一系列连其创造者也不完全理解的算法,且输出内容中的来源归属往往被删除。这使得很难确切知道一个模型的回答是基于什么内容。像OpenAI这样的组织迄今为止已要求用户确保在其他工作中使用的输出不违反法律,包括知识产权和版权法规,或泄露敏感信息,例如一个人的位置、性别、年龄、种族或联系信息。研究表明,genAI工具可能会同时做这两件事。
聊天机器人之所以强大,部分原因在于它们从几乎所有互联网上的信息中学习——这些信息是通过与出版商(如美联社)和社交媒体平台(如Reddit)达成的许可协议获得的,或通过广泛抓取的可自由访问的内容获得的——并且它们在识别海量数据中的模式方面表现出色。例如,GPT-3.5模型,即ChatGPT的一个版本,训练了约3000亿个单词,利用这些单词根据预测算法生成文本字符串。
美国和欧洲对人工智能监管的方法可能有所不同。图源:Nature

AI公司越来越关注开发面向学术界的产品。今年有几家公司发布了AI驱动的搜索引擎。在5月,OpenAI宣布推出ChatGPT Edu,这个平台在其热门聊天机器人上增加了额外的分析能力,并包括构建ChatGPT自定义版本的功能。
今年的两项研究发现,广泛使用生成性AI来撰写已发表的科学手稿和同行评审评论,尽管出版商试图通过禁止使用AI或要求作者披露何时何地使用AI来设定限制。法律学者和研究人员在接受《自然》杂志采访时明确表示,当学术人员以这种方式使用聊天机器人时,他们可能会面临一些未能完全预见或理解的风险。“使用这些模型的人对它们真正的能力毫无概念,我希望他们能更加认真地保护自己和他们的数据,”来自芝加哥大学的计算机安全研究员Ben Zhao表示,他开发工具以保护创作作品(如艺术和摄影)不被AI抓取或模仿。
当被问及此事时,OpenAI的一位发言人表示,公司正在寻找改善选择退出流程的方法。“作为一家研究公司,我们相信AI为学术界和科学进步提供了巨大的好处,”发言人说。“我们尊重一些内容所有者,包括学术人员,可能不希望他们公开可用的作品被用来帮助训练我们的AI,因此我们提供了选择退出的方式。我们也在探索其他可能有用的工具。”
在学术界,研究成果与职业成功和声望密切相关,失去署名不仅剥夺了人们的补偿,还会导致声誉受损。“从他们的作品中删除人们的名字可能会造成严重损害,尤其是对于早期职业科学家或在全球南方工作的人员,”来自卡内基梅隆大学的计算化学家Evan Spotte-Smith说,他出于伦理和道德原因避免使用AI。研究表明,科学界中边缘化群体的成员,其作品的发表和引用频率低于平均水平,整体上获得的晋升机会也较少。Spotte-Smith表示,AI有可能进一步加剧这些挑战:未能将某人的工作归属给他们“创造了一种新的‘数字殖民主义’,我们能够获取同事的成果而不需要真正与他们互动。”
计算化学家 Evan Spotte-Smith 出于道德原因避免使用人工智能工具。图源:Nature
学术界今天几乎无法控制他们的数据如何被使用,或如何让现有的AI模型“忘记”这些数据。研究成果通常以开放获取的方式发布,起诉滥用已发表论文或书籍的难度比起诉音乐或艺术作品的难度更大。赵表示,大多数选择退出政策“充其量只是一个希望和梦想”,许多研究人员甚至不拥有他们创作成果的版权,因为他们将版权转让给了机构或出版社,而这些机构或出版社又可以与寻求利用其文本库来训练新模型并创造可向学术界营销的产品的AI公司建立合作关系。
出版商代表,包括Springer Nature、美国科学促进会(出版《科学》系列期刊)、PLOS和Elsevier表示,他们尚未与AI公司达成此类许可协议——尽管包括《科学》期刊、Springer Nature和PLOS在内的某些期刊指出,它们在编辑和同行评审中确实披露了使用AI的情况,并用于检查抄袭。(Springer Nature出版《自然》杂志,但该期刊在编辑上独立于其出版商。)
其他出版商,如Wiley和牛津大学出版社,已与AI公司达成协议。例如,Taylor & Francis与微软达成了一项1000万美元的协议。剑桥大学出版社(CUP)尚未与任何公司建立合作关系,但正在制定政策,为作者提供“选择加入”协议,作者将获得报酬。在向《书商》杂志发表的有关CUP未来计划的声明中,CUP的学术出版总监Mandy Hill表示,“我们将把作者的利益和愿望放在首位,然后再允许他们的作品被许可用于生成AI。”
一些作者对他们的作品将被输入到AI算法中感到不安。“我无法自信地预测AI可能对我或我的工作产生的所有影响,这让我感到沮丧和有些害怕,”来自纽约哥伦比亚大学的癌症生物学家Edward Ballister说。“我认为机构和出版商有责任思考这意味着什么,并对他们的计划保持开放和沟通。”
如何保护你的知识产权免受AI侵害
新法律最终将围绕生成式AI(genAI)模型训练所用数据的所有权和透明度建立更强有力的期望。同时,研究人员可以采取一些步骤来保护他们的知识产权(IP)并保障敏感数据的安全。
1. 批判性地思考是否真的需要使用AI。
放弃使用genAI可能会让人觉得错过了一个绝佳的机会。但对于某些学科——尤其是涉及敏感数据的学科,如医疗诊断——忽略AI可能是更符合伦理的选择。澳大利亚悉尼大学研究数字技术伦理的计算机学家Uri Gal表示:“目前,我们还没有很好的方式让AI遗忘,因此在医疗环境中使用这些模型仍有很多限制。”
2. 如果使用AI,请实施保障措施。
专家普遍认为,完全防止数据被网络爬虫抓取几乎是不可能的。这些工具可以从互联网上提取数据。然而,有一些步骤可以增加额外的监督,比如将数据本地托管在私有服务器上,或让资源开放并可用,但只能通过请求访问。包括OpenAI、微软和IBM在内的多家公司允许客户创建自己的聊天机器人,这些机器人可以仅在其自己的数据上进行训练,并以这种方式隔离。
3. 尽可能选择退出。
从AI训练集里排除数据的退出政策的可执行性差异很大,但一些公司如Slack、Adobe、Quora、Squarespace、Substack和OpenAI都提供了防止内容被抓取的选项。然而,一些平台使得这一过程更加困难,或将此选项限制在某些类型的账户。如果你擅长编程,可以修改个人网站的robots.txt文件,该文件会告诉网络爬虫是否可以访问你的页面,从而防止工具抓取你的内容。
4. 如果可能,“毒化”你的数据。
科学家们现在可以检测视觉产品(如图片或图形)是否已包含在训练集中,并开发了可以“毒化”数据的工具,使基于这些数据训练的AI模型以不可预测的方式出错。“我们基本上教这些模型,牛是一种有四个轮子和漂亮挡泥板的东西,”伊利诺伊州芝加哥大学的计算机安全研究员Ben Zhao说道。Zhao开发了一种名为Nightshade的工具,它通过操控图片的单个像素,使AI模型将被破坏的图案与另一种图像类型关联起来(例如,将狗误认为猫)。不幸的是,目前还没有类似的工具可以用来“毒化”文字。
5. 表达你的担忧。
学术界通常将其知识产权转让给机构或出版商,这使得他们在决定如何使用其数据时的影响力较小。但乔治亚州肯尼索州立大学知识产权发展总监Christopher Cornelison表示,如果有担忧,值得与机构或出版商展开对话。这些实体可能更适合与AI公司达成许可协议,或在发生侵权风险时提起诉讼。“我们当然不希望与教职工之间存在对立关系,期望是我们共同努力朝着一个共同目标前进。”他说。
有一些证据表明,出版商注意到了科学家的不安并采取了相应行动。华盛顿大学西雅图分校AI搜索引擎Semantic Scholar的首席科学家Daniel Weld注意到,越来越多的出版商和个人主动要求不要将Semantic Scholar语料库中的论文用于训练AI模型。
法律的介入
国际政策目前才开始赶上AI技术的爆发性发展,对一些基础问题的明确答案——如AI输出是否属于现有版权法的范畴,谁拥有这些版权,以及AI公司在向其模型输入数据时需要考虑哪些问题——可能还需要数年时间才能出台。“我们现在正处于一个技术快速发展的时期,而立法却滞后,”罗马Luiss Guido Carli大学的法律学者Christophe Geiger说。“挑战在于我们如何建立一个既不会打击进步、又能保护人权的法律框架。”
德拉戈什·图多拉切在设计世界上第一部全面的人工智能立法《欧盟人工智能法案》方面发挥了重要作用。图源:Nature
尽管观察者们可能要等待一段时间,来自德克萨斯农工大学法学院的知识产权律师兼法律学者Peter Yu表示,现有的美国案例法表明,法院更有可能站在AI公司的立场,部分原因是美国通常优先发展新技术。“这有助于推动美国技术达到较高水平,而其他许多国家还在努力赶上,但这也使创作者在追究涉嫌侵权时更加困难。”
相比之下,欧盟历来更重视个人保护而非新技术的发展。今年五月,欧盟通过了全球首部全面的AI法案《人工智能法案》。该法案根据AI对人类健康、安全或基本权利的潜在风险对其应用进行广泛分类,并要求采取相应的保障措施。一些应用,例如使用AI推断敏感的个人信息,将被禁止。该法案将在未来两年内逐步实施,并将于2026年全面生效,适用于在欧盟运营的模型。
由于该政策对用于研发的产品提供了广泛豁免,《人工智能法案》对学术界的影响可能较小。但作为欧洲议会成员之一、也是《人工智能法案》两位主要谈判代表之一的Dragoş Tudorache希望该法案能对透明度产生连锁效应。根据该法案,生产“通用”模型(例如聊天机器人)的AI公司将面临新的要求,包括对其模型训练方式和能耗进行说明,并需提供并执行退出政策。任何违反该法案的团体可能会被罚款高达其年度利润的7%。
Tudorache将该法案视为对AI已成新现实的承认。他说:“在人类历史上,我们经历了许多其他工业革命,它们都深刻影响了经济的不同领域和整个社会,但我认为,没有一场革命会像AI那样具有如此深远的变革效果。”
源文doi: https://doi.org/10.1038/d41586-024-02838-z

AI学术导师
AI学术导师(AIxiv)是我国领先的学术评价机构,总部在香港尖沙咀,在北京,上海,广州,深圳,杭州,澳门等地设有联络处。其主要功能包括学术论文评论、学术文学创作及定期发布学术评价指标。联系方式:pr@aixiv.xyz
 最新文章