尽管 ChatGPT 和其他生成式 AI 聊天机器人是变革性工具,但隐私和内容所有权的风险仍然存在。图源:Nature
Timothée Poisot,加拿大蒙特利尔大学的计算生态学家,成功地从研究世界生物多样性中建立了自己的职业生涯。他的研究指导原则是,研究必须是有用的,Poisot 说,他希望今年晚些时候,这项研究能够与其他工作一起被考虑在哥伦比亚卡利举行的第十六届缔约方会议(COP16)上。“我们所产生的每一项科学成果,如果被政策制定者和利益相关者关注,既令人兴奋又有些可怕,因为其中涉及到真实的利益,”他说。
放弃使用genAI可能会让人觉得错过了一个绝佳的机会。但对于某些学科——尤其是涉及敏感数据的学科,如医疗诊断——忽略AI可能是更符合伦理的选择。澳大利亚悉尼大学研究数字技术伦理的计算机学家Uri Gal表示:“目前,我们还没有很好的方式让AI遗忘,因此在医疗环境中使用这些模型仍有很多限制。”
专家普遍认为,完全防止数据被网络爬虫抓取几乎是不可能的。这些工具可以从互联网上提取数据。然而,有一些步骤可以增加额外的监督,比如将数据本地托管在私有服务器上,或让资源开放并可用,但只能通过请求访问。包括OpenAI、微软和IBM在内的多家公司允许客户创建自己的聊天机器人,这些机器人可以仅在其自己的数据上进行训练,并以这种方式隔离。
从AI训练集里排除数据的退出政策的可执行性差异很大,但一些公司如Slack、Adobe、Quora、Squarespace、Substack和OpenAI都提供了防止内容被抓取的选项。然而,一些平台使得这一过程更加困难,或将此选项限制在某些类型的账户。如果你擅长编程,可以修改个人网站的robots.txt文件,该文件会告诉网络爬虫是否可以访问你的页面,从而防止工具抓取你的内容。
科学家们现在可以检测视觉产品(如图片或图形)是否已包含在训练集中,并开发了可以“毒化”数据的工具,使基于这些数据训练的AI模型以不可预测的方式出错。“我们基本上教这些模型,牛是一种有四个轮子和漂亮挡泥板的东西,”伊利诺伊州芝加哥大学的计算机安全研究员Ben Zhao说道。Zhao开发了一种名为Nightshade的工具,它通过操控图片的单个像素,使AI模型将被破坏的图案与另一种图像类型关联起来(例如,将狗误认为猫)。不幸的是,目前还没有类似的工具可以用来“毒化”文字。
学术界通常将其知识产权转让给机构或出版商,这使得他们在决定如何使用其数据时的影响力较小。但乔治亚州肯尼索州立大学知识产权发展总监Christopher Cornelison表示,如果有担忧,值得与机构或出版商展开对话。这些实体可能更适合与AI公司达成许可协议,或在发生侵权风险时提起诉讼。“我们当然不希望与教职工之间存在对立关系,期望是我们共同努力朝着一个共同目标前进。”他说。
国际政策目前才开始赶上AI技术的爆发性发展,对一些基础问题的明确答案——如AI输出是否属于现有版权法的范畴,谁拥有这些版权,以及AI公司在向其模型输入数据时需要考虑哪些问题——可能还需要数年时间才能出台。“我们现在正处于一个技术快速发展的时期,而立法却滞后,”罗马Luiss Guido Carli大学的法律学者Christophe Geiger说。“挑战在于我们如何建立一个既不会打击进步、又能保护人权的法律框架。”