首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

重磅！OpenAI 因盗用13万部影视训练模型而被诉！

旅行 2024-11-27 00:30 北京

影视剧本成了AI训练的『免费食堂』！

近日，一份关于AI训练数据的调查报告引发业界轰动：

大型语言模型正在悄无声息地"挖掘"海量影视剧本作为训练数据。

这究竟是技术创新，还是赤裸裸的知识产权掠夺？

惊人数据：139,000部影视作品被"截胡"

根据《大西洋月刊》记者Alex Reisner的调查，目前多家科技巨头的AI系统已经"吞并"了：

超过53,000部电影
85,000集电视剧
包括《辛普森一家》、《绝命毒师》等知名作品

更令人震惊的是，这些数据并非直接来自原始剧本，而是来自OpenSubtitles.org的字幕文件。

数据来源：字幕网站成"帮凶"

OpenSubtitles平台上的数据来源复杂：

从DVD、蓝光光盘提取
来自在线流媒体平台
使用特殊软件抓取

这些字幕文件成为了AI模型训练的"金矿"。

涉事公司名单曝光

已确认使用这些数据训练AI模型的公司包括：

Anthropic
Meta
Apple
Nvidia
Salesforce
Bloomberg
EleutherAI

版权困境：法律灰色地带

目前，这种训练行为处于法律模糊地带：

字幕可能被视为衍生作品
尚未有明确法律裁决
科技公司默不作声

版权问题悬而未决，创作者的权益正在被悄然侵蚀。

技术本质：模仿还是窃取？

AI公司辩称这些数据有助于：

学习自然对话
提升语言模型表现
模拟真实交流场景

但本质上，这些数据是在未经原始作者授权的情况下被"挪用"。

数据解密：惊人细节

OpenSubtitles数据包：

总大小：14GB
包含446,612个文件
以IMDb ID编号命名

这是一个看似普通，实则暗藏玄机的"数据海洋"。

值得关注的是，更详细的调查报告可在The Atlantic网站 [阅读原文]查阅。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453458131&idx=2&sn=a446a5e3c58ffca0ee90a4c26630832c

关注AGI 的沿途风景！

最新文章

Qwen重磅发布QwQ推理模型，超越OpenAI o1

xAI要开游戏工作室了！马斯克：让游戏再次伟大！

OpenAI首席商务官：2025年将迈向第4、5级AGI！

苹果M4芯片硬刚RTX 3090！

刚刚，软银给OpenAI加注15亿美元，并允许员工套现！

小心！LLM 正偷偷黑进你的电脑！

英伟达发布音频模型Fugatto，可以学狗叫！

揭秘英伟达 A10 与 A10G 性能差异！

重磅！Reka AI 研究科学家Yi Tay正式宣布重返Google DeepMind！

JSON 才是大模型输出的噩梦？！

重磅！OpenAI 因盗用13万部影视训练模型而被诉！

OpenAI 即将带来的圣诞礼物：full o1、Sora还是Orion？

刚刚，苹果携手谷歌遭英国反垄断调查！

凉凉？！苹果计划于2026年启动大模型版Siri

Uber计划收购中国自动驾驶公司股份！

岌岌可危的摩尔定律，正被ASML 的EUV 光刻机续命！

Anthropic重磅发布MCP协议，或许这才是AGI的真正形态！

15分钟！用Windsurf完成markdown转换工具开发

4种提示词格式大PK：JSON最佳，且比Markdown准确率高两倍！

Cursor is AGI！

重磅！OpenAI推理AI霸主地位不保，新玩家纷纷入场

重磅！英伟达发布 H200 NVL！

年轻人们已陷入「AI 哀伤七阶段」

马斯克：人类文明只是宇宙的一瞬，我们必须成为多星球物种！

OpenAI 翻车，Whisper也会产生幻觉！

前谷歌CEO埃里克·施密特：脱缰的AI已近，但普通人尚未做好准备！

FridonAI：用AI驱动的加密货币分析工具！

Cursor 推出 v0.43，自动编程代理来了！

Gradio推出一键添加Logo魔法，开启品牌无限可能！

Grok 全新「专注模式」出炉，背后还隐藏着这些秘密！

FastBinaryEncoding——序列化格式王者来袭：秒杀JSON和Protobuf，性能提升10倍！

星际穿越TARS 开源！你也能拥有一个AI机器人了！

小心，你正在被AI 进行职场监控！

再也不能相信ChatGPT 写的代码了！

你知道吗？Qwen2VL可以一键重标注百万图片数据集

英伟达或成首个10万亿公司！

AI的下一个进化时代——后训练都有哪些开源项目？

ChatGPT 将推出屏幕分享功能！

GPT-4o 代码能力暴跌，开发者集体转投 Claude！

警惕AI投毒！ChatGPT 写的代码导致私钥被盗，损失数万元！

重磅！谷歌Gemini 2.0 将于12月第二周发布！

刚刚，苹果发布AIMv2，再次搅动视觉AI江湖！

DeepLearning.AI放大招：5大AI学习路线图，你的专属进阶之路！

人工智能正在取代人类的就业市场！

刚刚，美国司法部要求谷歌出售Chrome！

开源GraphRAG平台autoflow：打造更智能的AI问答系统

重磅！全球首个去中心化10B模型训练完成，一周内开源！

亚马逊再砸40亿美元，Anthropic要用AWS芯片训练下一代AI

阿里推理模型来了！Marco-o1 发布即开源

重磅！OpenAI 要自己造浏览器了！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉