26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

财富 2024-12-16 17:43 浙江

图片来源：由无界AI生成

文章来源：新智元

26岁的OpenAI吹哨人，在发出公开指控不到三个月，被发现死在自己的公寓中。法医认定，死因为自杀。那么，他在死前两个月发表的一篇博文中，都说了什么？

就在刚刚，消息曝出：OpenAI吹哨人，在家中离世。

曾在OpenAI工作四年，指控公司侵犯版权的Suchir Balaji，上月底在旧金山公寓中被发现死亡，年仅26岁。

旧金山警方表示，11月26日下午1时许，他们接到了一通要求查看Balaji安危的电话，但在到达后却发现他已经死亡。

这位吹哨人手中掌握的信息，原本将在针对OpenAI的诉讼中发挥关键作用。

如今，他却意外去世。

法医办公室认定，死因为自杀。警方也表示，「并未发现任何他杀证据」。

他的X上的最后一篇帖子，正是介绍自己对于OpenAI训练ChatGPT是否违反法律的思考和分析。

他也强调，希望这不要被解读为对ChatGPT或OpenAI本身的批评。

如今，在这篇帖子下，网友们纷纷发出悼念。

Suchir Blaji的朋友也表示，他人十分聪明，绝不像是会自杀的人。

吹哨人警告：OpenAI训练模型时违反原则

Suchir Balaji曾参与OpenAI参与开发ChatGPT及底层模型的过程。

今年10月发表的一篇博文中他指出，公司在使用新闻和其他网站的信息训练其AI模型时，违反了「合理使用」原则。

博文地址：https://suchir.net/fair_use.html

然而，就在公开指控OpenAI违反美国版权法三个月之后，他就离世了。

为什么11月底的事情12月中旬才爆出来，网友们也表示质疑

其实，自从2022年底公开发布ChatGPT以来，OpenAI就面临着来自作家、程序员、记者等群体的一波又一波的诉讼潮。

他们认为，OpenAI非法使用自己受版权保护的材料来训练AI模型，公司估值攀升至1500亿美元以上的果实，却自己独享。

为此，《水星新闻报》《纽约时报》等多家报社，都在过去一年内对OpenAI提起诉讼。

今年10月23日，《纽约时报》发表了对Balaji的采访，他指出，OpenAI正在损害那些数据被利用的企业和创业者的利益。

「如果你认同我的观点，你就必须离开公司。这对整个互联网生态系统而言，都不是一个可持续的模式。」

一个理想主义者之死

Balaji在加州长大，十几岁时，他发现了一则关于DeepMind让AI自己玩Atari游戏的报道，心生向往。

高中毕业后的gap year，Balaji开始探索DeepMind背后的关键理念——神经网络数学系统。

Balaji本科就读于UC伯克利，主修计算机科学。在大学期间，他相信AI能为社会带来巨大益处，比如治愈疾病、延缓衰老。在他看来，我们可以创造某种科学家，来解决这类问题。

2020年，他和一批伯克利的毕业生们，共同前往OpenAI工作。

然而，在加入OpenAI、担任两年研究员后，他的想法开始转变。

在那里，他被分配的任务是为GPT-4收集互联网数据，这个神经网络花了几个月的时间，分析了互联网上几乎所有英语文本。

Balaji认为，这种做法违反了美国关于已发表作品的「合理使用」法律。今年10月底，他在个人网站上发布一篇文章，论证了这一观点。

目前没有任何已知因素，能够支持「ChatGPT对其训练数据的使用是合理的」。但需要说明的是，这些论点并非仅针对ChatGPT，类似的论述也适用于各个领域的众多生成式AI产品。

根据《纽约时报》律师的说法，Balaji掌握着「独特的相关文件」，在纽约时报对OpenAI的诉讼中，这些文件极为有利。

在准备取证前，纽约时报提到，至少12人（多为OpenAI的前任或现任员工）掌握着对案件有帮助的材料。

在过去一年中，OpenAI的估值已经翻了一倍，但新闻机构认为，该公司和微软抄袭和盗用了自己的文章，严重损害了它们的商业模式。

诉讼书指出——

微软和OpenAI轻易地攫取了记者、新闻工作者、评论员、编辑等为地方报纸作出贡献的劳动成果——完全无视这些为地方社区提供新闻的创作者和发布者的付出，更遑论他们的法律权利。

而对于这些指控，OpenAI予以坚决否认。他们强调，大模型训练中的所有工作，都符合「合理使用」法律规定。

为什么说ChatGPT没有「合理使用」数据

为什么OpenAI违反了「合理使用」法？Balaji在长篇博文中，列出了详尽的分析。

他引用了1976年《版权法》第107条中对「合理使用」的定义。

是否符合「合理使用」，应考虑的因素包括以下四条：

（1）使用的目的和性质，包括该使用是否具有商业性质或是否用于非营利教育目的；

（2）受版权保护作品的性质；

（3）所使用部分相对于整个受版权保护作品的数量和实质性；

（4）该使用对受版权保护作品的潜在市场或价值的影响。

按（4）、（1）、（2）、（3）的顺序，Balaji做了详细论证。

因素（4）：对受版权保护作品的潜在市场影响

由于ChatGPT训练集对市场价值的影响，会因数据来源而异，而且由于其训练集并未公开，这个问题无法直接回答。

不过，某些研究可以量化这个结果。

《生成式AI对在线知识社区的影响》发现，在ChatGPT发布后，Stack Overflow的访问量下降了约12%。

此外，ChatGPT发布后每个主题的提问数量也有所下降。

提问者的平均账户年龄也在ChatGPT发布后呈上升趋势，这表明新成员要么没有加入，要么正在离开社区。

而Stack Overflow，显然不是唯一受ChatGPT影响的网站。例如，作业帮助网站Chegg在报告ChatGPT影响其增长后，股价下跌了40%。

当然，OpenAI和谷歌这样的模型开发商，也和Stack Overflow、Reddit、美联社、News Corp等签订了数据许可协议。

但签署了协议，数据就是「合理使用」吗？

总之，鉴于数据许可市场的存在，在未获得类似许可协议的情况下使用受版权保护的数据进行训练也构成了市场利益损害，因为这剥夺了版权持有人的合法收入来源。

因素（1）：使用目的和性质，是商业性质，还是教育目的

书评家可以在评论中引用某书的片段，虽然这可能会损害后者的市场价值，但仍被视为合理使用，这是因为，二者没有替代或竞争关系。

这种替代使用和非替代使用之间的区别，源自1841年的「Folsom诉Marsh案」，这是一个确立合理使用原则的里程碑案例。

问题来了——作为一款商业产品，ChatGPT是否与用于训练它的数据具有相似的用途？

显然，在这个过程中，ChatGPT创造了与原始内容形成直接竞争的替代品。

比如，如果想知道「为什么在浮点数运算中，0.1+0. 2=0.30000000000000004？」这种编程问题，就可以直接向ChatGPT（左）提问，而不必再去搜索Stack Overflow（右）。

因素（2）：受版权保护作品的性质

这一因素，是各项标准中影响力最小的一个，因此不作详细讨论。

因素（3）：使用部分相对于整体受保护作品的数量及实质性

考虑这一因素，可以有两种解释——

（1）模型的训练输入包含了受版权保护数据的完整副本，因此「使用量」实际上是整个受版权保护作品。这不利于「合理使用」。

（2）模型的输出内容几乎不会直接复制受版权保护的数据，因此「使用量」可以视为接近零。这种观点支持「合理使用」。

哪一种更符合现实？

为此，作者采用信息论，对此进行了量化分析。

在信息论中，最基本的计量单位是比特，代表着一个是/否的二元选择。

在一个分布中，平均信息量称为熵，同样以比特为单位（根据香农的研究，英文文本的熵值约在每个字符0.6至1.3比特之间）。

两个分布之间共享的信息量称为互信息（MI），其计算公式为：

在公式中，X和Y表示随机变量，H(X)是X的边际熵，H(X|Y)是在已知Y的情况下X的条件熵。如果将X视为原创作品，Y视为其衍生作品，那么互信息I(X;Y)就表示创作Y时借鉴了多少X中的信息。

对于因素3，重点关注的是互信息相对于原创作品信息量的比例，即相对互信息（RMI），定义如下：

此概念可用简单的视觉模型来理解：如果用红色圆圈代表原创作品中的信息，蓝色圆圈代表新作品中的信息，那么相对互信息就是两个圆圈重叠部分与红色圆圈面积的比值：

在生成式AI领域中，重点关注相对互信息（RMI），其中X表示潜在的训练数据集，Y表示模型生成的输出集合，而f则代表模型的训练过程以及从生成模型中进行采样的过程：

在实践中，计算H(Y|X)——即已训练生成模型输出的信息熵——相对容易。但要估算H(Y)——即在所有可能训练数据集上的模型输出总体信息熵——则极其困难。

至于H(X)——训练数据分布的真实信息熵——虽然计算困难但仍是可行的。

可以作出一个合理假设：H(Y) ≥ H(X)。

这个假设是有依据的，因为完美拟合训练分布的生成模型会呈现H(Y) = H(X)的特征，同样，过度拟合并且记忆训练数据的模型也是如此。

而对于欠拟合的生成模型，可能会引入额外的噪声，导致H(Y) ＞ H(X)。在H(Y) ≥ H(X)的条件下，就可以为RMI确定一个下限：

这个下限背后的基本原理是：输出的信息熵越低，就越可能包含来自模型训练数据的信息。

在极端情况下，就会导致「内容重复输出」的问题，即模型会以确定性的方式，输出训练数据中的片段。

即使在非确定性的输出中，训练数据的信息仍可能以某种程度被使用——这些信息可能被分散融入到整个输出内容中，而不是简单的直接复制。

从理论上讲，模型输出的信息熵并不需要低于原始数据的真实信息熵，但在实际开发中，模型开发者往往倾向于选择让输出熵更低的训练和部署方法。

这主要是因为，熵值高的输出在采样过程中会包含更多随机性，容易导致内容缺乏连贯性或产生虚假信息，也就是「幻觉」。

如何降低信息熵？

数据重复现象

在模型训练过程中，让模型多次接触同一数据样本是一种很常见的做法。

但如果重复次数过多，模型就会完整地记下这些数据样本，并在输出时简单地重复这些内容。

举个例子，我们先在莎士比亚作品集的部分内容上对GPT-2进行微调。然后用不同颜色来区分每个token的信息熵值，其中红色表示较高的随机性，绿色表示较高的确定性。

当仅用数据样本训练一次时，模型对「First Citizen」（第一公民）这一提示的补全内容虽然不够连贯，但显示出高熵值和创新性。

然而，在重复训练十次后，模型完全记住了《科利奥兰纳斯》剧本的开头部分，并在接收到提示后机械地重复这些内容。

在重复训练五次时，模型表现出一种介于简单重复和创造性生成之间的状态——输出内容中既有新创作的部分，也有记忆的内容。

假设英语文本的真实熵值约为每字符0.95比特，那么这些输出中就有大约的内容是来自训练数据集。

强化学习机制

ChatGPT产生低熵输出的主要原因在于，它采用了强化学习进行后训练——特别是基于人类反馈的强化学习（RLHF）。

RLHF倾向于降低模型的熵值，因为其主要目标之一是降低「幻觉」的发生率，而这种「幻觉」通常源于采样过程中的随机性。

理论上，一个熵值为零的模型可以完全避免「幻觉」，但这样的模型实际上就变成了训练数据集的简单检索工具，而非真正的生成模型。

下面是几个向ChatGPT提出查询的示例，以及对应输出token的熵值：

根据，可以估计这些输出中约有73%到94%的内容，对应于训练数据集中的信息。

如果考虑RLHF的影响（导致），这个估计值可能偏高，但熵值与训练数据使用量之间的相关性依然十分明显。

例如，即使不了解ChatGPT的训练数据集，我们也会发现它讲的笑话全是靠记忆，因为这些内容几乎都是以确定性方式生成的。

这种分析方法虽然比较粗略，但它揭示了训练数据集中的版权内容如何影响模型输出。

但更重要的是，这种影响十分深远。即使是对因素（3）做出更宽松的解释，也难以支持「合理使用」的主张。

最终，Suchir Balaji得出结论：从这4个因素来看，它们几乎都不支持「ChatGPT在合理使用训练数据」。

10月23日，Balaji发出这篇博客。

一个月后，他死于自己的公寓。

参考资料：

https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobile

https://suchir.net/fair_use.html

中国AIGC产业应用峰会回顾

2024 年 1 月 5 日，【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。

大会汇集行业资深专家及领军企业，共同聚焦AIGC领域，围绕当下热点话题进行深度延展，探讨行业激烈竞争下的运营新思路、发展新模式！点击文章，回顾精彩内容~

AI新智界园区开放合作啦！

AIGC新智界

专注于 AIGC、数字版权、元宇宙以及区块链等新技术领域的报道。

最新文章

OpenAI直播12天，马斯克融资437亿

日入千元！一个人也能开起AI照相馆了

大模型落地，苦「最强」久矣

媒体再爆：OpenAI的GPT-5训练遇阻，时间延迟且成本高昂

OpenAI成功为自己制造了危机

AI+Emoji，终于打了一场胜仗？

史上最大规模融资！AI巨无霸Databricks诞生，投资细节公开

沾AI价格暴涨十倍，玩具圈想再造一个泡泡玛特

字节丢的面子，正靠AI挽回

OpenAI整大活！ChatGPT新增电话功能，全民AGI要来了

贴身追随OpenAI的中国公司，从智谱换成了月之暗面？

海螺们不想交“买路财”

Sora能带飞剪映吗？

刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

奥特曼，杨植麟的理想型？

柜哥柜姐，AI的新工作

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

我用AI 卖大米，一个人就是一个团队

Sora终于来了，但卷王可灵已经「拍」上了AI电影

体操运动，是所有AI视频最残酷的图灵测试

最新国内AI手机排行榜，让人有点破防

Sora发布！这次的惊艳居然不在模型，而是产品设计和制作流

AI公司到底谁在喝汤，谁在吃肉？

第一批 AI 员工，即将入职电商公司

惊喜！OpenAI第3天产品会很炸裂，Sam Altman非常兴奋

大模型创业“生死局”：融资困难、造血乏力、卖身离场

奥特曼悔不当初：OpenAI因无知选择“非营利”

让一让，全球最鲜活的AI小猫来了

AI营销的风，还是吹到了A股

亚马逊祭出地表最强全家桶，多模态Nova却败给Claude 3.5！

马斯克起诉OpenAI：要求开源产品，36页诉状大公开！

AI时代，图库会被媒体抛弃吗？

3个月估值10亿，李飞飞空间智能首个模型诞生！

ChatGPT拒绝谈论这个人，没人知道为什么

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！

如今的华强北，被AI包围

谷歌发布双思维AI Agent：像人类一样思考，重大技术突破！

一家老牌明星AI公司，倒在大模型时代

这个群体，用AI 捏爆款，1人年入百万

这届AI顶流都在小红书？

一文看尽Meta开源大礼包！

人本智能时代：谁在为AI“立规矩”？

Nature：谷歌学术正在被AI工具颠覆

我，机器人艺术家，一幅画卖 700 万

喊着干掉网站和app的AI公司们，却在豪掷数亿疯抢网址域名

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

“一人AI公司”已实现年入百万

开始分家：零一万物计划独立 AI 游戏公司

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉