我的个人博客:www.moonkite.cn
各位好,我是风筝
想必各位都听说了字节起诉了给大模型代码投毒的北大博士实习生田某,要求赔偿800万,外加公开道歉一事。
先不说800万是不是会最终判断生效,就说这位同学之后还有没有公司敢用呢,即便是北大高材生。
来龙去脉
事情发生在2024年6月至7月,田某在字节跳动的实习期间因对团队资源分配不满,故意编写和篡改代码,恶意干扰公司内部模型训练任务,导致大模型训练结果不可靠,需要重新训练。导致了资源的严重损耗,影响了团队的正常工作。
当时传言遭到入侵的代码注入了8000多张卡,带来的损失可能超过千万美元。后来字节回应并没有这么夸张,但是影响也是足够大的。
各位可以想象一下啊,同在一个大模型团队,哪个都是有实力的,天天训练,每次训练出来的结果都不符合预期,一遍遍的检查、重试后,还是同样的不符合预期。
能想象到其他团队成员薅着头发、错愕的表情,并喃喃自语道:“物理学不存在了”的画面吧。而此时,这位实习生正在一旁洋洋得意。
听说团队当时一直在查,但是怎么也没想到是有内鬼,而这实习生哥们儿还挺执着,不死不休。如果中途把有毒代码去掉,可能也就白白浪费一些资源了事了,但他好像就要这么一直搞下去,直到被发现。
终于,在长达2个月的痛苦后,东窗事发,字节于2024年8月与田某解除实习协议,并将其行为报告给其所在学校及相关行业联盟。
本来这事儿到此可能也就结束了,但怪就怪在这位实习生死活不承认是自己所为,多次否认自己的行为,甚至报警称遭到造谣。而且其所在学校也没有给任何回复。
所以,2024年11月27日,字节跳动正式向北京市海淀区人民法院提起诉讼,要求田某赔偿800万元及合理支出2万元,并公开赔礼道歉。
如何注入的呢
这其实不是一般意义攻击和注入,这相当于黑盒直接拿到了你的电脑还知道密码,属于在大草原上驰骋,想干啥干啥了。
日防夜防,家贼难防。这属于内部渗透了,实话说,并没有什么难度,如果说有难度的话, 就是如何不被人发现,一直不被发现才是真高手。
有说这是因为字节内部权限管理上的问题。企业在对员工的权限管理上应更加严格,确保每位员工只能访问其工作所需的资源,防止不当访问和数据泄漏。
但是但凡在公司呆过的都知道,这在大部分公司都是很难避免的,要不然怎么说世界就是一个巨大的草台班子。
利用Hugging Face平台漏洞:田某利用了Hugging Face平台上load_repo_checkpoint()
函数的漏洞,该函数存在反序列化不受信任数据的安全隐患。通过构造一个看似无害的检查点文件,田柯宇能够在加载时执行恶意代码,从而实现远程代码执行(RCE)。
远程代码执行:通过这种方式,他可以在公司的服务器上执行任意代码,包括篡改模型的权重、调整训练参数或窃取模型数据。这种攻击使得他能够对模型训练过程进行干扰,破坏模型的正常运行。
动态修改优化器设置:田某可能通过注入恶意代码来动态修改其他团队成员的优化器设置。这种修改可以改变参数梯度的方向,从而影响模型训练的结果,使得模型朝着错误的方向进行优化。
插入暂停指令:在模型训练过程中,他随机插入了暂停指令(如sleep
),导致模型在反向传播时计算出的梯度被篡改。这种行为不仅减缓了训练速度,还使得模型无法有效学习,从而造成资源的浪费和损失。
高智商不一定有好人品
北大、博士、AI工程师,哪一个名头都很拿得出手。但高智商并不代表有好人品。像田某这样的高智商人才,就是有智商没道德的。
听说还获得了顶会NIPs 2024杰出论文奖,但是不知道真假。
再者,一个北大博士,不可能是法盲吧,这么做到底是不是违法了不太清楚,但是肯定不那么合法。
删库跑路只是传说,就算真删库了,也跑不了路,只能进去踩缝纫机。
我们从小接收素质教育,老师、长辈的言传身教,但是在职场中,还真的有大把的人不知道如何自处。
因为怀疑资源分配不均,就在代码里下毒,侵犯公司利益先不说,那些同为打工人的同事总是无辜的吧,好端端的浪费别人的时间,还有可能浪费了别人的头发。
字节已经将田某通报给相关行业联盟了,即便是北大高材生,相信其他公司也会有所顾虑。
信用一旦没有了,还拿什么安身立命。
还可以看看风筝往期文章
用这个方法,免费、无限期使用 SSL(HTTPS)证书,从此实现证书自由了
为什么我每天都记笔记,主要是因为我用的这个笔记软件太强大了,强烈建议你也用起来
古时的风筝,一个程序员,一个写作者。