重磅!OpenAI 因盗用13万部影视训练模型而被诉!

旅行   2024-11-27 00:30   北京  

影视剧本成了AI训练的『免费食堂』!

近日,一份关于AI训练数据的调查报告引发业界轰动:

大型语言模型正在悄无声息地"挖掘"海量影视剧本作为训练数据

这究竟是技术创新,还是赤裸裸的知识产权掠夺?

惊人数据:139,000部影视作品被"截胡"

根据《大西洋月刊》记者Alex Reisner的调查,目前多家科技巨头的AI系统已经"吞并"了:

  • 超过53,000部电影

  • 85,000集电视剧

  • 包括《辛普森一家》、《绝命毒师》等知名作品

更令人震惊的是,这些数据并非直接来自原始剧本,而是来自OpenSubtitles.org的字幕文件。

数据来源:字幕网站成"帮凶"

OpenSubtitles平台上的数据来源复杂:

  • 从DVD、蓝光光盘提取

  • 来自在线流媒体平台

  • 使用特殊软件抓取

这些字幕文件成为了AI模型训练的"金矿"。

涉事公司名单曝光

已确认使用这些数据训练AI模型的公司包括:

  • Anthropic

  • Meta

  • Apple

  • Nvidia

  • Salesforce

  • Bloomberg

  • EleutherAI

版权困境:法律灰色地带

目前,这种训练行为处于法律模糊地带

  • 字幕可能被视为衍生作品

  • 尚未有明确法律裁决

  • 科技公司默不作声

版权问题悬而未决,创作者的权益正在被悄然侵蚀。

技术本质:模仿还是窃取?

AI公司辩称这些数据有助于:

  • 学习自然对话

  • 提升语言模型表现

  • 模拟真实交流场景

本质上,这些数据是在未经原始作者授权的情况下被"挪用"。

数据解密:惊人细节

OpenSubtitles数据包:

  • 总大小:14GB

  • 包含446,612个文件

  • 以IMDb ID编号命名

这是一个看似普通,实则暗藏玄机的"数据海洋"。

值得关注的是,更详细的调查报告可在The Atlantic网站 [阅读原文]查阅。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章