于2023年12月27日,《纽约时报》对OpenAI和微软提起诉讼,指控它们未经许可使用该报数百万篇受版权保护的文章,用于训练聊天机器人并与该报展开竞争。而OpenAI的ChatGPT输出的内容与其新闻内容高度相似。微软作为OpenAI的合作伙伴也被列为被告,面临数十亿美元的索赔。
在这场诉讼之前,《纽约时报》与OpenAI进行了长达数月的谈判,但未能达成付费许可协议。这起诉讼可能成为AI侵权的重要案例。《纽约时报》的文章构成了Common Crawl中用于训练GPT的最大单一专有数据集。诉状中的视觉展示清晰地指出了GPT抄袭的文本,可能对陪审团的判断产生影响。
OpenAI强调其与新闻机构的合作愿景,旨在帮助记者和编辑处理繁琐任务,同时创造互利的机会。同时,OpenAI提供了一个退出流程,允许版权持有者阻止其工具访问其网站。《纽约时报》于2023年8月采用了这一程序。OpenAI怀疑,《纽约时报》可能故意操纵提示词,导致AI模型生成与原文高度相似的内容。
OpenAI还面临来自其他著作权权利人的法律挑战。2023年9月19日,17位美国著名作家向纽约曼哈顿联邦法院提起集体诉讼,指控OpenAI在未经许可的情况下批量复制了原告受版权保护的作品,输入到其大语言模型中,并对用户类似的文本需求进行响应。
全美作家协会在向曼哈顿联邦法院提交的文件中表示:“这些大语言模型作为被告庞大商业的核心,正在大规模地系统性盗窃。它们危及小说作家的谋生能力。我们认为OpenAI可以选择在公共领域作品上训练其语言模型,或者支付许可费来使用受版权保护的作品。”
抛开商业上的纷争,法律如何看待这个问题呢?
这里涉及到了“合理使用”的概念,在各国法律中都有相关规定。合理使用原则允许对受版权保护的材料进行有限的使用,以促进言论自由和创新。传统的合理使用包括批评、评论、新闻报道、教学、学术研究等。
例如,根据美国法典第17条,判断一个使用行为是否构成合理使用,需要综合考虑以下四个因素:
使用的目的和性质:若具有教育性、非商业性或者具有变革性(transformative),即为原始作品添加了新的目的、意义或信息,并不仅是其替代品,更可能被视为合理使用。例如,学术研究、新闻报道、评论、讽刺和教育通常被视为合理使用。
被使用作品的性质:这个因素考虑的是作品的类型,是否为事实性或创造性。事实性的作品,如技术文章或新闻报道,通常更容易被认定为合理使用,因为它们包含的信息是公共的,而创造性作品,如小说或音乐,其保护程度通常更高。
使用部分的数量和重要性:这个因素考虑的是所使用的部分与整个作品的比例。若所使用的部分很小,且不是作品的“心脏”或核心部分,更可能被视为合理使用。然而,即使使用了作品的一小部分,如果这部分对于整个作品来说非常重要,则可能不被视为合理使用。
使用对潜在市场或作品价值的影响:若对作品的市场或价值产生了负面影响,例如,如果使用行为导致原始作品的销售减少或潜在市场受损,那么这种使用不太可能被视为合理使用。相反,如果使用行为不会对原始作品的市场产生实质性影响,或者它为公众提供了无法通过其他途径获得的价值,那么这种使用可能被视为合理使用。
在AI技术的应用中,合理使用原则的应用变得更加复杂。AI系统通过分析和学习大量数据来生成新的内容,这可能涉及对受版权保护的作品的使用。在判断AI生成内容是否构成合理使用时,需要仔细考虑上述四个因素。
但是,AI生成的内容是否能被认为是合理使用呢?这需要深入探讨。首先,AI生成的内容是否具有教育性、非商业性、具有变革性?能否提供新的目的、新的意义或新的信息,而不是原始作品的替代品?其次,AI生成的内容是基于事实还是高度创造性?它能被视为对原始作品的补充,而不是替代品吗?
在判断使用的目的和性质时,OpenAI可以说生成的内容为原始作品添加了新的目的、意义或信息,而变得具有变革性;对于使用部分的数量和重要性而言,包括《纽约时报》在内的任何数据集在OpenAI的训练集面前都是微不足道的。
包含的2019年数据快照显示,《纽约时报》的内容总计有1亿个标记(tokens),这些被用于训练GPT-3模型,而GPT-3模型总共包含13万亿个标记,简直沧海一粟;版权所有者能证明使用OpenAI生成的内容会导致原始作品的销售减少或潜在市场受损吗?OpenAI可以说,合理的标注可能还会增加兴趣的读者阅读原文。
这些都是强有力合理使用的理由。在美国法律下,合理使用是一个由法官自由裁量的原则。随着AI技术的发展和应用,合理使用原则的界限也在不断被测试和重新定义。法律专家、立法者和法院需要不断适应新的技术发展,以确保版权法既能保护创作者的权益,又能适应数字化时代的需求。这可能需要对现有的法律框架进行更新,或者制定新的指导原则,以明确AI技术在版权法下的合理使用边界。
在最近的案例中,法院在处理AI版权侵权问题时,往往支持科技公司。例如,旧金山的一名联邦法官去年驳回了针对AI图像生成器的首起大型诉讼的大部分内容。但当涉及到使用受版权保护的内容来训练AI系统,并向用户提供“一小部分”内容时,法院似乎并不倾向于认为这是版权侵权。
除了关于大模型是否侵犯版权的问题,生成的作品本身是否有版权?2024年1月,中国首例AI生成图片著作权侵权案日前判决已生效,并入选了2023年中国法治实施十大事件。原告李昀锴胜诉后放弃被告500元赔偿。
李昀锴的“春风送来了温柔”作品
这个案例最关键的争议在于李昀锴基于自己设定的提示词和参数,使用Stable Diffusion模型制作的图片“春风送来了温柔”是否构成作品,以及构成哪一种类型的作品。作为中国首例AI生成图片侵权案,一审判决也意味着法院对AI绘画大模型使用者在生成图片上享有创作权益给出了首次认可。不过,需要注意的是,本案判决也强调,利用人工智能生成的内容是否构成作品,需要视个案情况而定,不能一概而论。
让我们将目光投向未来。2024年3月6日,一部名为《终结者2》的AI重制版电影刚刚上映。这部电影完全由AI创作,由50位在人工智能领域工作的最有才华的艺术家共同完成。这部电影以现代AI技术和其对人类的影响为主题,对经典电影进行了讽刺和评论。
这个案例让我们不禁思考:AI引发了关于著作权的新问题,这些问题立法者以前从未考虑过。我们应该立即对其进行监管,还是等待并观察?除了著作权问题,AI还在侵占人类的工作、生活和权利。如果我们不适当地进行监管和采取措施,AI真的会成为人类的终结者吗?
本文内容获得ChatGPT、Kimi、Mitjourney的加持。