《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码

财富 2024-10-11 14:05 北京

OpenAI和微软正面临来自出版商、作家和其他创作者的诉讼，指控他们剽窃了这些创作者的作品。这些诉讼可能会重塑生成式AI行业。

在美国某个地方的一间安全房间里，一台与互联网断开的电脑中存放着ChatGPT的源代码。这是为了让《纽约时报》的律师进行检查。

根据一名联邦法官的命令，这些律师只有出示政府颁发的身份证件给安保人员，才能进入这间房间。他们被禁止携带

手机、U盘或任何其他电子设备进入房间。房间内提供了一台同样与互联网断开的电脑，并安装了文字处理软件。每次检查后，他们的笔记可以被下载到另一台电脑上，随后原始笔记的电脑将被清空。

《纽约时报》的律师可以将笔记分享给最多五名外部顾问，以帮助他们理解源代码的功能。如果其中一位律师想在审讯时向OpenAI的首席执行官山姆·阿尔特曼（Sam Altman）展示代码片段以提问，展示后该代码副本必须被销毁。

OpenAI的估值高达1570亿美元，很大程度上归功于ChatGPT的成功。然而，为了打造这个聊天机器人，公司在训练模型时使用了大量的文本，却没有为此支付任何费用。

这些文本包括《纽约时报》的报道、其他出版物的文章，以及大量受版权保护的书籍。对ChatGPT源代码的检查，以及微软使用OpenAI技术构建的人工智能模型的审查，是针对这两家公司版权侵权诉讼的关键。

出版商和艺术家们已经对生成式AI公司提起了大约二十起重大的版权诉讼。他们志在必得，要求分享使OpenAI成为行业巨头、推动微软估值超过3万亿美元的经济成果。这些案件的法官可能会为美国的大型语言模型如何进行训练设定法律边界。

《纽约时报》的一位发言人告诉《商业内幕》：“开发者应该为用于创建和运营其产品的宝贵出版商内容付费。该技术的未来成功不应以新闻机构为代价。”

这家有着173年历史的媒体公司为此次诉讼聘请了顶级律师事务所Susman Godfrey，该事务所最近刚在Dominion公司对福克斯新闻的巨额诉讼中赢得了7.875亿美元的和解金。其他新闻机构的诉讼，如《纽约每日新闻》和《母亲琼斯》，也加入了这起案件。

Susman Godfrey还代表了一组作家，其中包括乔治·R·R·马丁、乔迪·皮科和塔-内西·科茨，他们在《纽约时报》提起诉讼的几个月前就已经提交了版权索赔。如果法官批准他们的集体诉讼地位，最终的和解或判决可能会影响几乎所有作品被用于训练AI模型的作家和艺术家。

9月12日，数十名来自科技和新闻行业的律师齐聚曼哈顿下城的一位治安法官的法庭，商讨如何分配取证过程的最佳方式，其中包括检查ChatGPT的代码和训练数据。与作家的律师一起，他们仍在决定可以传唤谁，以及如何安排证人作证。

乔治城大学法学院知识产权法教授克里斯特利娅·加西亚表示：“对于从事版权工作的法律教授来说，这已经是最令人兴奋的时刻了。”

设置规则

由于国会在人工智能监管方面保持观望，该行业预期法院将会设定规则——或者，他们希望法院不要设定规则。

相关故事

许多出版商，包括《商业内幕》的所有者阿克塞尔·施普林格，已经与生成性人工智能公司达成协议，允许他们分享内容用于大型语言模型的训练。

《纽约时报》提起的诉讼范围广泛且资源雄厚，因此很可能成为具有先例意义的最高法院案例。律师们也在关注来自作者的集体诉讼以及音乐产业对Anthropic的案件，认为这些案件值得关注。

“《纽约时报》是一家新闻巨头，”加西亚说。“它体量庞大，内容丰富。更重要的是，它在这些内容背后拥有巨大的市场力量。”

该诉讼指出，OpenAI侵犯了其知识产权，主要有两个方面。首先是“输入”案件，指控该大型语言模型非法收集了超过1000万篇《纽约时报》文章，以训练ChatGPT和微软Copilot，而未支付任何报酬。其次是“输出”案件——指控当用户提问时，ChatGPT能够输出一篇《纽约时报》文章，读者本来需要为此支付订阅费。

在法庭文件中，律师们多次引用了Napster的案例，该平台非法复制了数百万首歌曲并提供免费下载。《纽约时报》认为，OpenAI同样利用了高质量、经过良好研究、内容翔实的《纽约时报》文章，使得ChatGPT如此出色。

据代表作者提起与《纽约时报》案件平行的集体诉讼的Susman Godfrey律师贾斯廷·尼尔森表示，OpenAI的行为在某种程度上更糟糕。他指出，Napster是由大学生发起的项目，而OpenAI则得到了微软的支持，估值已达数十亿美元。

“这不是孩子们的行为，而是一家成熟的公司，”尼尔森告诉《商业内幕》。他补充说：“他们不是为了个人使用，而是为了商业利益在这样做。”

OpenAI和微软的代表没有回应《商业内幕》的置评请求。在法庭上，他们辩称“合理使用”这一法律原则保护了他们的模型如何获取文章。他们表示，ChatGPT输出的与《纽约时报》文章几乎一模一样的内容是“高度异常”的结果，并不代表该应用的实际使用情况。

Napster被起诉至破产，但它激励了音乐产业采用MP3格式，并最终发展出如今广泛应用于视频游戏和电影的流媒体服务。《Spotify》联合创始人丹尼尔·埃克（Daniel Ek）将Napster视为灵感来源，而Napster的联合创始人肖恩·帕克（Sean Parker）则称赞Spotify是其继承者。

曾在音乐行业工作十年的加西亚预测，来自新闻组织的版权诉讼可能会为所有人工智能生成器设定节奏。他指出，人工智能在生成电影或进行报道方面并不特别出色，但它可以令人信服地模仿新闻报道。

“新闻业就像是煤矿里的金丝雀，”加西亚说。“在Napster时代，音乐就是金丝雀，因为人们可以轻松下载MP3文件。而在那个时候，下载电影却并不容易。”

考虑到涉及的人数众多，作者的诉讼可能会产生更为深远的影响。一个和解或判决可能会改变商业模式。

埃默里大学研究版权法和人工智能的法学教授马修·萨格说：“人们在集体诉讼和解中发挥创造力。”。“你可以削减美国作家的股份或其他东西。”

源代码

生成性人工智能技术的本质正是版权争议的核心。那么，当一个大型语言模型“学习”一本书或一篇新闻文章时，实际上发生了什么？当ChatGPT挖掘模型以回答查询时，又会如何？这个过程是否在某种意义上“复制”了内容？还是说训练数据仅仅是一个庞大的零和一的混合体，不再与特定作品有任何实质性相似之处？

律师和顾问们正在深入分析ChatGPT的代码，以试图解答这些问题。他们还在审查大型语言模型的训练数据，并计划在宣誓下询问OpenAI的关键高管和程序员，这些模型究竟是如何运作的。

一旦代码被阅读并进行证词记录，各方将更有能力就“合理使用”进行辩论，这是一项notoriously tricky的法律原则，保护从版权材料中派生出的“变革性”创作。

如果OpenAI真的像Napster那样在复制书籍和新闻文章，那么其训练过程是否足够具备变革性，已被视为“合理使用”？克利夫兰州立大学知识产权法教授克里斯塔·雷瑟表示，全国各地的法官在裁定合理使用版权案件时“各执己见”，这让局势变得更加复杂和不可预测。

“我认为，最终这个问题将会提交到最高法院，”雷瑟对《商业内幕》表示。“关于训练数据、获取和训练的合理使用问题，将是关键所在。”

一个关键的“合理使用”问题是，ChatGPT的创作是否与原始新闻作品相竞争——这是新闻机构面临的紧迫问题。

“新闻出版商首先提起这些重大诉讼，因为他们面临的风险更大，”加西亚说。

要提出版权索赔，原告不能仅仅指向一组用作灵感的作品。必须指向他们认为被复制的具体作品。

在诉讼中，《纽约时报》附上了数以万计的证据，列出了10,553,897篇文章。它声称OpenAI和微软非法侵犯了每一篇文章的版权。

其中包括一篇2001年的报道，正值上诉法院对Napster作出裁决不利于其时，记者向用户询问他们的看法。所有人都一致认为，已经无法回头。

“一旦Napster真的关闭，还有更多的网站会出现，”一位用户告诉记者。“他们可能会关闭一些，但不可能阻止所有的网站。”（BI）

AI新智能

一个致力于探索人工智能对商业世界和社会影响的平台。

最新文章

OpenAI正式推出Sora Turbo

OpenAI推出全新O1模型，支持图片上传与分析，同时发布ChatGPT专业版

AWS将多代理编排功能引入Bedrock

人工智能代理入门（下）：自主性、保障措施和陷阱

人工智能代理入门（上）：捕获流程、角色和连接

马斯克与OpenAI分手的复杂内幕

人工智能开启Web4.0时代：互联网将具备自主预测、计划和行动能力

AI如何重塑我们的思维方式？

多智能体将缩短大型语言模型与通用人工智能之间的差距

谷歌将推出接管电脑的人工智能技术

这家公司洞悉了AI商业化的秘密，CEO揭示其秘诀

被马斯克开除的前Twitter CEO，官宣了自己的人工智能创业项目

《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码

首个被人工智能重塑的城市

被撕裂的OpenAI

雷朋AI眼镜是目前已知的最佳人工智能硬件

为何开发者们纷纷弃用谷歌Gemini

GPT5暂时没戏了

苹果的AI手机没有任何亮点，难怪巴菲特提前把股票卖了

硅谷风投推荐的2024人工智能创业公司（内含商业模式）

一家AI诊所在伦敦开业了

代币价格大崩溃，人工智能将出现巨大赢家和输家

世界呼叫中心之都陷入AI狂热与恐惧之中

文远知行在最后关头推迟美股IPO

美国无人出租车现在每周提供10万次服务

GPU经济学：如何在“不破产”的情况下训练AI模型

苹果计划推出AI桌面机器人

人工智能的训练数据正在枯竭，合成数据引发巨大争议

马斯克曾考虑收购Character.AI

黑芝麻科技IPO首日暴跌35%

星野海外版—Talkie火爆美国，年轻人可以与川普、马斯克聊天

OpenAI 需马上融资，今年预计巨亏50亿美元

2024年吸引到顶级风投的28家人工智能公司名单

苹果公司将以观察员身份加入OpenAI董事会

Gemini的数据分析能力不像谷歌所宣称的那么好

AI“搬砖王”的崛起

大模型集体“用户焦虑”，豆包能否不靠字节赢一次？

这家眼镜公司成了AI巨头追捧的对象

Anthropic 的 Claude 3.5 表明：大模型还有提升空间

DeepMind推出新型AI，为视频生成音轨和对话

人工智能的负效应：没有大语言模型的语种未来会消亡

MiniMax在海外的AI陪聊产品，爆了！

30万个AI助理，正排队等待召唤

奥特曼围绕OpenAI打造出一个致富帝国

投资人依然愿意为AI搜索引擎付费

当ChatGPT的广东话“讲唔正”：AI 年代，低资源语言是否注定被边缘化？

来看看微软是如何将Windows打造成AI操作系统的

大模型“价格战”开打，给刚入商业化“佳境”的智谱AI提出了新挑战

奥特曼刚对首席科学家伊利亚的离职表示感谢，马上又有一位OpenAI高管辞职了

谷歌I/O 2024刚刚宣布的所有产品

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉