首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

教育 2024-12-16 21:35 上海

作者：新智元
转载：新智元

【写在开头】
2025美本申请风向标线下讲座来啦！视角学社联合翠鹿升学榜将在上海（1月1日）、北京（1月4日）双城举办重磅讲座，解析20万录取大数据，第一时间复盘申请季。参与讲座，即可免费领取最新版《2025顶尖美本录取数据报告》。席位有限，尽快报名吧！

预约视角发榜系列直播

正文

26岁的OpenAI吹哨人，在发出公开指控不到三个月，被发现死在自己的公寓中。法医认定，死因为自杀。那么，他在死前两个月发表的一篇博文中，都说了什么？

就在刚刚，消息曝出：OpenAI吹哨人，在家中离世。

曾在OpenAI工作四年，指控公司侵犯版权的Suchir Balaji，上月底在旧金山公寓中被发现死亡，年仅26岁。

旧金山警方表示，11月26日下午1时许，他们接到了一通要求查看Balaji安危的电话，但在到达后却发现他已经死亡。

这位吹哨人手中掌握的信息，原本将在针对OpenAI的诉讼中发挥关键作用。

如今，他却意外去世。

法医办公室认定，死因为自杀。警方也表示，「并未发现任何他杀证据」。

他的X上的最后一篇帖子，正是介绍自己对于OpenAI训练ChatGPT是否违反法律的思考和分析。

他也强调，希望这不要被解读为对ChatGPT或OpenAI本身的批评。

如今，在这篇帖子下，网友们纷纷发出悼念。

Suchir Blaji的朋友也表示，他人十分聪明，绝不像是会自杀的人。

01

吹哨人警告：OpenAI训练模型时违反原则

Suchir Balaji曾参与OpenAI参与开发ChatGPT及底层模型的过程。

今年10月发表的一篇博文中他指出，公司在使用新闻和其他网站的信息训练其AI模型时，违反了「合理使用」原则。

博文地址：https://suchir.net/fair_use.html

然而，就在公开指控OpenAI违反美国版权法三个月之后，他就离世了。

为什么11月底的事情12月中旬才爆出来，网友们也表示质疑

其实，自从2022年底公开发布ChatGPT以来，OpenAI就面临着来自作家、程序员、记者等群体的一波又一波的诉讼潮。

他们认为，OpenAI非法使用自己受版权保护的材料来训练AI模型，公司估值攀升至1500亿美元以上的果实，却自己独享。

为此，《水星新闻报》《纽约时报》等多家报社，都在过去一年内对OpenAI提起诉讼。

今年10月23日，《纽约时报》发表了对Balaji的采访，他指出，OpenAI正在损害那些数据被利用的企业和创业者的利益。

「如果你认同我的观点，你就必须离开公司。这对整个互联网生态系统而言，都不是一个可持续的模式。」

02

一个理想主义者之死

Balaji在加州长大，十几岁时，他发现了一则关于DeepMind让AI自己玩Atari游戏的报道，心生向往。

高中毕业后的gap year，Balaji开始探索DeepMind背后的关键理念——神经网络数学系统。

Balaji本科就读于UC伯克利，主修计算机科学。在大学期间，他相信AI能为社会带来巨大益处，比如治愈疾病、延缓衰老。在他看来，我们可以创造某种科学家，来解决这类问题。

2020年，他和一批伯克利的毕业生们，共同前往OpenAI工作。

然而，在加入OpenAI、担任两年研究员后，他的想法开始转变。

在那里，他被分配的任务是为GPT-4收集互联网数据，这个神经网络花了几个月的时间，分析了互联网上几乎所有英语文本。

Balaji认为，这种做法违反了美国关于已发表作品的「合理使用」法律。今年10月底，他在个人网站上发布一篇文章，论证了这一观点。

目前没有任何已知因素，能够支持「ChatGPT对其训练数据的使用是合理的」。但需要说明的是，这些论点并非仅针对ChatGPT，类似的论述也适用于各个领域的众多生成式AI产品。

根据《纽约时报》律师的说法，Balaji掌握着「独特的相关文件」，在纽约时报对OpenAI的诉讼中，这些文件极为有利。

在准备取证前，纽约时报提到，至少12人（多为OpenAI的前任或现任员工）掌握着对案件有帮助的材料。

在过去一年中，OpenAI的估值已经翻了一倍，但新闻机构认为，该公司和微软抄袭和盗用了自己的文章，严重损害了它们的商业模式。

诉讼书指出——

微软和OpenAI轻易地攫取了记者、新闻工作者、评论员、编辑等为地方报纸作出贡献的劳动成果——完全无视这些为地方社区提供新闻的创作者和发布者的付出，更遑论他们的法律权利。

而对于这些指控，OpenAI予以坚决否认。他们强调，大模型训练中的所有工作，都符合「合理使用」法律规定。

03

为什么说ChatGPT没有「合理使用」数据

为什么OpenAI违反了「合理使用」法？Balaji在长篇博文中，列出了详尽的分析。

他引用了1976年《版权法》第107条中对「合理使用」的定义。

是否符合「合理使用」，应考虑的因素包括以下四条：

（1）使用的目的和性质，包括该使用是否具有商业性质或是否用于非营利教育目的；（2）受版权保护作品的性质；（3）所使用部分相对于整个受版权保护作品的数量和实质性；（4）该使用对受版权保护作品的潜在市场或价值的影响。

按（4）、（1）、（2）、（3）的顺序，Balaji做了详细论证。

因素（4）：对受版权保护作品的潜在市场影响

由于ChatGPT训练集对市场价值的影响，会因数据来源而异，而且由于其训练集并未公开，这个问题无法直接回答。

不过，某些研究可以量化这个结果。

《生成式AI对在线知识社区的影响》发现，在ChatGPT发布后，Stack Overflow的访问量下降了约12%。

此外，ChatGPT发布后每个主题的提问数量也有所下降。

提问者的平均账户年龄也在ChatGPT发布后呈上升趋势，这表明新成员要么没有加入，要么正在离开社区。

而Stack Overflow，显然不是唯一受ChatGPT影响的网站。例如，作业帮助网站Chegg在报告ChatGPT影响其增长后，股价下跌了40%。

当然，OpenAI和谷歌这样的模型开发商，也和Stack Overflow、Reddit、美联社、News Corp等签订了数据许可协议。

但签署了协议，数据就是「合理使用」吗？

总之，鉴于数据许可市场的存在，在未获得类似许可协议的情况下使用受版权保护的数据进行训练也构成了市场利益损害，因为这剥夺了版权持有人的合法收入来源。

因素（1）：使用目的和性质，是商业性质，还是教育目的

书评家可以在评论中引用某书的片段，虽然这可能会损害后者的市场价值，但仍被视为合理使用，这是因为，二者没有替代或竞争关系。

这种替代使用和非替代使用之间的区别，源自1841年的「Folsom诉Marsh案」，这是一个确立合理使用原则的里程碑案例。

问题来了——作为一款商业产品，ChatGPT是否与用于训练它的数据具有相似的用途？

显然，在这个过程中，ChatGPT创造了与原始内容形成直接竞争的替代品。

比如，如果想知道「为什么在浮点数运算中，0.1+0. 2=0.30000000000000004？」这种编程问题，就可以直接向ChatGPT（左）提问，而不必再去搜索Stack Overflow（右）。

因素（2）：受版权保护作品的性质

这一因素，是各项标准中影响力最小的一个，因此不作详细讨论。

因素（3）：使用部分相对于整体受保护作品的数量及实质性

考虑这一因素，可以有两种解释——

（1）模型的训练输入包含了受版权保护数据的完整副本，因此「使用量」实际上是整个受版权保护作品。这不利于「合理使用」。
（2）模型的输出内容几乎不会直接复制受版权保护的数据，因此「使用量」可以视为接近零。这种观点支持「合理使用」。

哪一种更符合现实？

为此，作者采用信息论，对此进行了量化分析。

在信息论中，最基本的计量单位是比特，代表着一个是/否的二元选择。

在一个分布中，平均信息量称为熵，同样以比特为单位（根据香农的研究，英文文本的熵值约在每个字符0.6至1.3比特之间）。

两个分布之间共享的信息量称为互信息（MI），其计算公式为：

在公式中，X和Y表示随机变量，H(X)是X的边际熵，H(X|Y)是在已知Y的情况下X的条件熵。如果将X视为原创作品，Y视为其衍生作品，那么互信息I(X;Y)就表示创作Y时借鉴了多少X中的信息。

对于因素3，重点关注的是互信息相对于原创作品信息量的比例，即相对互信息（RMI），定义如下：

此概念可用简单的视觉模型来理解：如果用红色圆圈代表原创作品中的信息，蓝色圆圈代表新作品中的信息，那么相对互信息就是两个圆圈重叠部分与红色圆圈面积的比值：

在生成式AI领域中，重点关注相对互信息（RMI），其中X表示潜在的训练数据集，Y表示模型生成的输出集合，而f则代表模型的训练过程以及从生成模型中进行采样的过程：

在实践中，计算H(Y|X)——即已训练生成模型输出的信息熵——相对容易。但要估算H(Y)——即在所有可能训练数据集上的模型输出总体信息熵——则极其困难。

至于H(X)——训练数据分布的真实信息熵——虽然计算困难但仍是可行的。

可以作出一个合理假设：H(Y) ≥ H(X)。

这个假设是有依据的，因为完美拟合训练分布的生成模型会呈现H(Y) = H(X)的特征，同样，过度拟合并且记忆训练数据的模型也是如此。

而对于欠拟合的生成模型，可能会引入额外的噪声，导致H(Y) ＞ H(X)。在H(Y) ≥ H(X)的条件下，就可以为RMI确定一个下限：

这个下限背后的基本原理是：输出的信息熵越低，就越可能包含来自模型训练数据的信息。

在极端情况下，就会导致「内容重复输出」的问题，即模型会以确定性的方式，输出训练数据中的片段。

即使在非确定性的输出中，训练数据的信息仍可能以某种程度被使用——这些信息可能被分散融入到整个输出内容中，而不是简单的直接复制。

从理论上讲，模型输出的信息熵并不需要低于原始数据的真实信息熵，但在实际开发中，模型开发者往往倾向于选择让输出熵更低的训练和部署方法。

这主要是因为，熵值高的输出在采样过程中会包含更多随机性，容易导致内容缺乏连贯性或产生虚假信息，也就是「幻觉」。

04

如何降低信息熵？

数据重复现象

在模型训练过程中，让模型多次接触同一数据样本是一种很常见的做法。

但如果重复次数过多，模型就会完整地记下这些数据样本，并在输出时简单地重复这些内容。

举个例子，我们先在莎士比亚作品集的部分内容上对GPT-2进行微调。然后用不同颜色来区分每个token的信息熵值，其中红色表示较高的随机性，绿色表示较高的确定性。

当仅用数据样本训练一次时，模型对「First Citizen」（第一公民）这一提示的补全内容虽然不够连贯，但显示出高熵值和创新性。

然而，在重复训练十次后，模型完全记住了《科利奥兰纳斯》剧本的开头部分，并在接收到提示后机械地重复这些内容。

在重复训练五次时，模型表现出一种介于简单重复和创造性生成之间的状态——输出内容中既有新创作的部分，也有记忆的内容。

假设英语文本的真实熵值约为每字符0.95比特，那么这些输出中就有大约的内容是来自训练数据集。

强化学习机制

ChatGPT产生低熵输出的主要原因在于，它采用了强化学习进行后训练——特别是基于人类反馈的强化学习（RLHF）。

RLHF倾向于降低模型的熵值，因为其主要目标之一是降低「幻觉」的发生率，而这种「幻觉」通常源于采样过程中的随机性。

理论上，一个熵值为零的模型可以完全避免「幻觉」，但这样的模型实际上就变成了训练数据集的简单检索工具，而非真正的生成模型。

下面是几个向ChatGPT提出查询的示例，以及对应输出token的熵值：

根据，可以估计这些输出中约有73%到94%的内容，对应于训练数据集中的信息。

如果考虑RLHF的影响（导致），这个估计值可能偏高，但熵值与训练数据使用量之间的相关性依然十分明显。

例如，即使不了解ChatGPT的训练数据集，我们也会发现它讲的笑话全是靠记忆，因为这些内容几乎都是以确定性方式生成的。

这种分析方法虽然比较粗略，但它揭示了训练数据集中的版权内容如何影响模型输出。

但更重要的是，这种影响十分深远。即使是对因素（3）做出更宽松的解释，也难以支持「合理使用」的主张。

最终，Suchir Balaji得出结论：从这4个因素来看，它们几乎都不支持「ChatGPT在合理使用训练数据」。

10月23日，Balaji发出这篇博客。

一个月后，他死于自己的公寓。

参考资料：

https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobile

https://suchir.net/fair_use.html

活动预告

“2025美本申请风向标年度盛会”火热来袭！

2025放榜季火热进行中！今年放榜季中国孩子“战果”如何？美本申请有何最新动态？

顶尖美本录取数量是缩水还是扩招？哪些大学对中国孩子最友好？
ED选校，买定离手，哪些学校偏爱早申？如何通过选校提高录取概率？
早申成功上岸的牛娃有何共性？顶尖名校最青睐什么样的孩子？
AI横空出世，招生官会借助AI审核材料吗？AI工具会影响录取吗？

视角学社联合翠鹿升学榜，将于1月1日（上海）、1月4日（北京）举行线下「2025美本申请风向标」线下讲座！第一时间为大家奉上最全面详尽的美本录取数据，届时我们将会同顶级专业人士，解读美本招生动态、把控各种不定因素、分享名校录取之道。

我们也为各位读者准备了一些福利，参加讲座即可领取：

《2025顶尖美本早申数据分析报告》：20万录取大数据，勾勒中国学生的留学路径
《2025美本申请工具书》（点击即可了解工具书详情）：18位业内大咖联手打造，一本书解决留学路上疑难杂症，缓解 99%的留学焦虑

↓↓↓长按识别下图中的二维码↓↓↓

添加小助手备注“北京”/“上海”

即可报名相应场次

预约发榜直播

相关阅读：

《Nature》公布全球最新AI高校百强榜单！解锁人工智能留学新趋势

AI教父之忧：拿什么面对加速变革的动荡未来

“AI教父”获诺奖前，曾对AI说“后悔”

作者： 新智元，转载：新智元，本文经授权转载。版权归属作者/原载媒体。

喜欢本文？欢迎关注/置顶/点赞/加入留学家长公益交流社群：

留学信息资讯平台，留学家庭交流社区。每日分享教育资讯、招生动态、升学理念、宝藏干货。数据助力申请，认证扩宽未来，旗下产品翠鹿升学榜，收录中国学生过往7年15万余顶尖大学录取信息。

最新文章

悲剧！一个女人毁掉三个名校学生的20年

时代的苏姿丰，你所不知道的关于她的十件事

下一任FBI局长已经被卖假药的骗了

当今美国有三个总统！在任拜登、候任特朗普，还有一位是......

芝大压轴录取42名中国学生，ED0严重挤压其他ED轮次名额

获得ED0录取的芝大准新生，10天收Offer的快乐谁知道？

超1000万人使用丨麻省理工为孩子打造的免费AI自学平台

房价高不可攀成为全球通病

宾大招收26名中国学生，上中国际斩获上海唯一录取

新女性退休样本：56岁出国留学

中国女生入境美国，在机场厕所待了一个小时，惨遭签证吊销+遣返......

炎症性衰老可能严重威胁你的健康

哥大内地招生腰斩！北上广各一个幸运儿上岸

儿时被诊断发育迟缓，如今却从哈佛毕业，他的故事不完全是励志

6828份“性萧条”调查：年轻人和中产消失的性生活

稻盛和夫：通过哪种方式才能赢得部下的信任与尊重？

MIT发榜，国内仅录取一名上海竞赛生

MIT教授公开演讲歧视中国学生，大会官方认错、本人道歉

藤校之间的对抗！哈佛警长追击宾大枪击犯！揭秘高科技追踪的48小时......

全国高校英语专业逐年调减！

惨不忍睹！杜克仅录取9名中国学生，打破早申最低纪录

斯坦福全奖录取故事：ED被拒后，他用2周时间改写结局，只因做对了这件事！

达特茅斯穷学生：爬藤成功竟是噩梦开始！“兄弟会比黑帮更危险……”

研究发现：补充这种维生素，能抗癌！

美本最新申请趋势！T20-30录取难度升高、招生透明度骤降......

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

重大利好！美国修改中国J-1签证规定，15年来首次！

中国留学生摇身成为Oracle老板娘

莱斯深夜放榜！40个中国孩子上岸，南外领跑全国

华尔街巨头、500强都搬去德州，现在申请德州这些大学太值了！

从AI占领诺奖所想到的

《纽约时报》2024年度十大好书

斯坦福早申录取12名内地学生，再创历史新高！

早申放榜冰火两重天！布朗国际生暴涨22%，哈佛陆高全军覆没……

学校被曝“买”学生冲录取？牛剑面邀offer背后的水深与乱象，如何理性避坑？

美国白人大妈猛刺华人留学生，只因她"像中国人"!

三大藤校联袂发榜！哈佛大陆归零，康奈尔狂招60余名中国学生

花600万读了个假的上纽大，机构的水太深了...

近半数大学深陷财务危机，英国大学疯狂自救，盯上了留学生

“南方哈佛”埃默里放榜！录取近乎腰斩，中国学生仅有57名录取

哥大首当其冲！曾经风光无限的金融工程，如今就业率仅37%...

《福布斯》全美顶尖大学排名揭晓，莱斯冲进前十，UC赢麻了！

34岁麻省理工学院终身教授——张锋的其人其事

美国高校教授自杀身亡，生前最后一封邮件称遭到校方报复

被误解最严重的精神疾病，成年人抢着确诊

北京知名留学机构老板卷款跑路！头天还在更新offer，第二天就倒闭了......

美国经济增长的隐秘驱动力：飙升的生产率

藤校精英变身冷血杀手！行刺保险巨头凶嫌竟是特朗普师弟

中国留学生注意！签证审核重灾区—美国留学14个高敏感专业曝光

不想考研的年轻人，在大厂找到“破卷之路”

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉