近日,一则令人震惊的消息在多个微信群中迅速传播:某头部大厂的大模型训练系统竟然被实习生入侵,大量破坏代码被注入,导致训练成果变得不可靠,甚至可能需要重新训练。更有传言称,被入侵的代码涉及8000多张卡,带来的损失可能超过千万美元。
经过界面新闻记者的深入调查,这个被推到风口浪尖的头部大厂正是字节跳动。事件发生在今年6月,涉事的实习生是某高校的博士,当时他正在字节跳动的商业化技术团队实习。令人意想不到的是,该实习生仅仅因为对团队资源分配不满,就丧心病狂地使用攻击代码,对团队的模型训练任务进行了恶意破坏。
传闻中提到,这位田姓实习生利用HF(huggingface)的漏洞,在公司的共享模型里悄悄写入了破坏代码。这一行为直接导致模型的训练效果变得极不稳定,忽高忽低,完全无法达到预期的训练目标,而且AML团队对此也束手无策,无法查明原因。然而,在传闻刚刚曝出之后,该实习生竟然还在某微信群里公然辟谣,声称自己在发完论文后就已经从字节跳动离职,是另有他人钻了漏洞修改模型代码,却把责任都推到了他的头上。
那么,事实的真相究竟是什么呢?界面新闻从知情人士那里了解到,字节跳动内部已经经过严谨的调查,明确此事就是田姓实习生所为。目前,该实习生已经被辞退,字节跳动还将此事同步给了阳光诚信联盟和企业反舞弊联盟,同时也告知了实习生所在的学校。但是,被辞退后的这名实习生仍然不知悔改,到处“辟谣”甩锅,固执地坚持是其他人的过错。
这里需要特别说明的是,该实习生攻击的并不是字节跳动所有的大模型,而是商业化技术团队的模型训练任务。尽管如此,这一行为还是对该技术团队的业务进展产生了一定的影响。不过,整体而言,对公司造成的损失并没有像传闻中所说的那么严重,并没有超过千万美元。
此事件在行业内引起了轩然大波,也引发了人们广泛的关注和深刻的反思。一位技术安全专家严肃地指出,HF漏洞的出现,反映出单一性集中训练可能潜藏的诸多问题,同时也无情地暴露了字节跳动在技术训练过程中的安全管理漏洞。公司既没有做好权限隔离,也没有对共用代码进行严格的审计。在正常的技术管理规范中,每次较大的代码变动都必须经过严格的审计,无论谁进行操作,都应该留下清晰的痕迹记录,只有这样才能从根本上杜绝一个人随意改动代码的乱象发生。目前,行业通用的做法是进行三级隔离导向性部署,每一级只有镜像,每次都要先进行扫描,调用按次计算且必须使用密钥,只有每一级都完成之后,才能进入下一级,而且上一级会自动删除,从而实现分级训练。
字节跳动的这起事件无疑给整个行业敲响了一记沉重的警钟。无论是企业自身,还是每一位技术人员,都应当高度重视技术安全和管理规范,切不可掉以轻心,务必避免类似的悲剧再次上演。