影视剧本成了AI训练的『免费食堂』!
近日,一份关于AI训练数据的调查报告引发业界轰动:
大型语言模型正在悄无声息地"挖掘"海量影视剧本作为训练数据。
这究竟是技术创新,还是赤裸裸的知识产权掠夺?
惊人数据:139,000部影视作品被"截胡"
根据《大西洋月刊》记者Alex Reisner的调查,目前多家科技巨头的AI系统已经"吞并"了:
超过53,000部电影
85,000集电视剧
包括《辛普森一家》、《绝命毒师》等知名作品
更令人震惊的是,这些数据并非直接来自原始剧本,而是来自OpenSubtitles.org的字幕文件。
数据来源:字幕网站成"帮凶"
OpenSubtitles平台上的数据来源复杂:
从DVD、蓝光光盘提取
来自在线流媒体平台
使用特殊软件抓取
这些字幕文件成为了AI模型训练的"金矿"。
涉事公司名单曝光
已确认使用这些数据训练AI模型的公司包括:
Anthropic
Meta
Apple
Nvidia
Salesforce
Bloomberg
EleutherAI
版权困境:法律灰色地带
目前,这种训练行为处于法律模糊地带:
字幕可能被视为衍生作品
尚未有明确法律裁决
科技公司默不作声
版权问题悬而未决,创作者的权益正在被悄然侵蚀。
技术本质:模仿还是窃取?
AI公司辩称这些数据有助于:
学习自然对话
提升语言模型表现
模拟真实交流场景
但本质上,这些数据是在未经原始作者授权的情况下被"挪用"。
数据解密:惊人细节
OpenSubtitles数据包:
总大小:14GB
包含446,612个文件
以IMDb ID编号命名
这是一个看似普通,实则暗藏玄机的"数据海洋"。
值得关注的是,更详细的调查报告可在The Atlantic网站 [阅读原文]查阅。
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!