首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

字节被起诉实习生是如何给代码投毒的，还有公司敢用吗？

乐活 2024-12-09 14:38 四川

我的个人博客：www.moonkite.cn

各位好，我是风筝

想必各位都听说了字节起诉了给大模型代码投毒的北大博士实习生田某，要求赔偿800万，外加公开道歉一事。

先不说800万是不是会最终判断生效，就说这位同学之后还有没有公司敢用呢，即便是北大高材生。

来龙去脉

事情发生在2024年6月至7月，田某在字节跳动的实习期间因对团队资源分配不满，故意编写和篡改代码，恶意干扰公司内部模型训练任务，导致大模型训练结果不可靠，需要重新训练。导致了资源的严重损耗，影响了团队的正常工作。

当时传言遭到入侵的代码注入了8000多张卡，带来的损失可能超过千万美元。后来字节回应并没有这么夸张，但是影响也是足够大的。

各位可以想象一下啊，同在一个大模型团队，哪个都是有实力的，天天训练，每次训练出来的结果都不符合预期，一遍遍的检查、重试后，还是同样的不符合预期。

能想象到其他团队成员薅着头发、错愕的表情，并喃喃自语道：“物理学不存在了”的画面吧。而此时，这位实习生正在一旁洋洋得意。

听说团队当时一直在查，但是怎么也没想到是有内鬼，而这实习生哥们儿还挺执着，不死不休。如果中途把有毒代码去掉，可能也就白白浪费一些资源了事了，但他好像就要这么一直搞下去，直到被发现。

终于，在长达2个月的痛苦后，东窗事发，字节于2024年8月与田某解除实习协议，并将其行为报告给其所在学校及相关行业联盟。

本来这事儿到此可能也就结束了，但怪就怪在这位实习生死活不承认是自己所为，多次否认自己的行为，甚至报警称遭到造谣。而且其所在学校也没有给任何回复。

所以，2024年11月27日，字节跳动正式向北京市海淀区人民法院提起诉讼，要求田某赔偿800万元及合理支出2万元，并公开赔礼道歉。

如何注入的呢

这其实不是一般意义攻击和注入，这相当于黑盒直接拿到了你的电脑还知道密码，属于在大草原上驰骋，想干啥干啥了。

日防夜防，家贼难防。这属于内部渗透了，实话说，并没有什么难度，如果说有难度的话，就是如何不被人发现，一直不被发现才是真高手。

有说这是因为字节内部权限管理上的问题。企业在对员工的权限管理上应更加严格，确保每位员工只能访问其工作所需的资源，防止不当访问和数据泄漏。

但是但凡在公司呆过的都知道，这在大部分公司都是很难避免的，要不然怎么说世界就是一个巨大的草台班子。

利用Hugging Face平台漏洞：田某利用了Hugging Face平台上load_repo_checkpoint()函数的漏洞，该函数存在反序列化不受信任数据的安全隐患。通过构造一个看似无害的检查点文件，田柯宇能够在加载时执行恶意代码，从而实现远程代码执行（RCE）。

远程代码执行：通过这种方式，他可以在公司的服务器上执行任意代码，包括篡改模型的权重、调整训练参数或窃取模型数据。这种攻击使得他能够对模型训练过程进行干扰，破坏模型的正常运行。

动态修改优化器设置：田某可能通过注入恶意代码来动态修改其他团队成员的优化器设置。这种修改可以改变参数梯度的方向，从而影响模型训练的结果，使得模型朝着错误的方向进行优化。

插入暂停指令：在模型训练过程中，他随机插入了暂停指令（如sleep），导致模型在反向传播时计算出的梯度被篡改。这种行为不仅减缓了训练速度，还使得模型无法有效学习，从而造成资源的浪费和损失。

高智商不一定有好人品

北大、博士、AI工程师，哪一个名头都很拿得出手。但高智商并不代表有好人品。像田某这样的高智商人才，就是有智商没道德的。

听说还获得了顶会NIPs 2024杰出论文奖，但是不知道真假。

再者，一个北大博士，不可能是法盲吧，这么做到底是不是违法了不太清楚，但是肯定不那么合法。

删库跑路只是传说，就算真删库了，也跑不了路，只能进去踩缝纫机。

我们从小接收素质教育，老师、长辈的言传身教，但是在职场中，还真的有大把的人不知道如何自处。

因为怀疑资源分配不均，就在代码里下毒，侵犯公司利益先不说，那些同为打工人的同事总是无辜的吧，好端端的浪费别人的时间，还有可能浪费了别人的头发。

字节已经将田某通报给相关行业联盟了，即便是北大高材生，相信其他公司也会有所顾虑。

信用一旦没有了，还拿什么安身立命。

还可以看看风筝往期文章

程序员如何设计logo，如何找Icon和插画（绝对干货）

用这个方法，免费、无限期使用 SSL(HTTPS)证书，从此实现证书自由了

为什么我每天都记笔记，主要是因为我用的这个笔记软件太强大了，强烈建议你也用起来

「差生文具多系列」最好看的编程字体

我患上了空指针后遗症

一千个微服务之死

搭建静态网站竟然有这么多方案，而且还如此简单

被人说 Lambda 代码像屎山，那是没用下面这三个方法

古时的风筝，一个程序员，一个写作者。

古时的风筝

努力成为独立开发者的程序员，分享我了解的关于编程、独立开发等知识，知不不言，言无不尽

最新文章

GitHub Copilot 现在可以免费使用了!

Gemini 2.0 发布，几乎免费无限量使用，能力不比 OpenAI 差

AI 给初级程序员定价了，一个月3600元（第一个AI程序员 Devin 发布）

MySQL 索引失效了吧

字节被起诉实习生是如何给代码投毒的，还有公司敢用吗？

自学编程应该学什么语言？

程序员、独立开发者 icon 自由了

为什么有人说一些程序员很傲慢？

一个苹果快捷指令卖60万，RPA 大有可为

Linux：小老弟，还得给你上一课！

为什么程序员不拿自己写的程序去卖，而要在公司领死工资呢？

腾讯新推出的云端 IDE，同时对标字节MarsCode和Google Colab

不懂设计的程序员如何做出好看的页面（还是干货）

IDE 还在卷，Cursor 的对标产品 Windsurf 出来了

程序员如何设计logo，如何找Icon和插画（绝对干货）

「差生文具多」增大IDE字体，增大显示器

阿里又出状况了，这次是支付宝崩了

爬虫有风险，入门须谨慎

现在画个架构图都这么卷了吗

我发现，飞书多维表格可以做免费的数据仓库+数据大屏

苹果 M4 发布了，性能提升了，价格却没什么变化，要不要买呢，犹豫中

微软发布了自然语言开发工具，程序员砸起自己的饭碗子是一点儿也不手软啊

送 5 本好书，纯送

写代码不写注释，难道是我天生不爱写吗？

Linux 移除多名贡献者，Linux 本人表示不会撤回，开发者很是失望

1024 程序员节了，买几本书看看吧

Nginx 这个赛道还是被 JavaScript 闯进来了

jQuery 创始人是如何不熬夜还做那么多 Side Projects 的?

据说有 90% 的人做错了这道编程题

孤陋寡闻了，原来 MySQL 还能这么写？

45k*16薪，进字节了！

只用5分钟，就可以自动生成你的语音播客

就非得用反射才行吗？

都2024了，还在用 Postman 做 HTTP 接口测试吗？

淘宝网搞个 VsCode 、Excel 主题是几个意思，上班摸鱼刷淘宝？

难道这就是传说的自然语言 IDE

咱就是说，node_modules 非得这么玩儿吗？

硬核UP主稚晖君，开源了机器人框架，果然够硬

大A五天连涨，股民的热情直接搞瘫了上证股票交易系统（坐等回本）

又浪费时间了，我改了一款开源的安卓启动器，从此手机变得极度宁静了

Java 离AI还是太远了，这两个Spring AI 框架能稍微接近一下

阿里云盘照片泄漏到底是什么原因？

不管你是不是还用 Java 8，JDK23都如约而至了

独立开发者都用什么框架开发移动端产品

独立开发者都用什么框架开发客户端产品（PC客户端篇）

大家都用什么工具提交代码？腾讯也出了一个 Git 客户端，免费但不开源

我是如何开发这款摸鱼插件的

PostgreSQL 凭什么连续两年超越 MySQL，成为最受欢迎数据库

现在刚入行的 Java 开发者已经不知道 Tomcat 了

「差生文具多系列」Jetbrains IDEs中也能养宠物了，而且还有拳皇人物

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉