惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 2024最佳论文

科技 2024-12-04 21:01 河北

太戏剧了！攻击字节训练集群的实习生，居然刚刚获得了NeurIPS 2024最佳论文奖？虽然看起来像爽文剧情，但这位高材生接下来的路，应该是难走了。

刚刚，恶意攻击字节训练集群的实习生田柯宇，获得了NeurIPS 2024的最佳论文奖。

更巧的是，这篇获奖论文，恰恰就是他在字节商业化技术部门实习期间与团队合作发表的。

甚至，这篇论文还是NeurIPS 2024第六高分的论文（7,8,8,8）。

事情在网上曝出的时候，网友们都震惊了：太有戏剧性了，这是什么短剧的大反转剧情！

根据网友的说法，田柯宇的这篇论文也是国内第二篇NeurIPS Best Paper，含金量很高。

在此之前，他就已经有多篇论文中稿顶会。

比如被引次数最多的「Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling」，就是ICLR 2023的Spotlight。此外还有，NeurIPS 2021和2020的Poster，ECCV 2020的Poster。

据新智元了解，字节商业化技术团队早在去年就把视觉自回归模型作为重要的研究方向，团队规划了VAR为高优项目，投入研究小组和大量资源。

除了VAR，团队还发表了LlamaGen等相关技术论文，新的研究成果也将在近期陆续放出。

事件始末：

恶意注入代码，投毒模型训练

回看整件事情，可谓反转又反转。

两个月前，圈内人都被这样一条消息惊掉下巴：「字节跳动大模型训练被北大实习生攻击，损失巨大」。

什么仇什么怨，要做这样的事？

网友们扒出来，事情起因是这位北大高材生在字节实习期间对团队感到不满，一气之下选择了「投毒」。

具体来说，他利用了Huggingface的load ckpt函数漏洞，craft了一个看似正常的ckpt文件，但其实是加了payload进去，然后就可以远程执行代码，修改参数了。

这种攻击方式，可以通过修改或注入恶意代码，使模型在加载时被篡改模型权重、修改训练参数或截取模型数据。

根据大V「Jack Cui」猜测，这位实习生所用的大概就是这个方法，注入代码动态修改别人的optimer，修改参数梯度的方向，以及在各种地方随机sleep了一小段时间。

修改梯度方向，意味着模型反向传播过程中计算出的梯度被篡改，就导致模型一直朝错误的方向优化；而sleep操作，也会明显降低模型训练的速度。

甚至有人提到，该实习生可能修改了自己的预训练模型，因为模型参数是用ckpt文件保存的，其他人训练时会加载这个注入恶意代码的ckpt文件，因此也会导致模型训练出问题。

就在全网叹为观止之时，田本人却出来「辟谣」称这事和自己没关系——他发完论文后已经从字节离职了，此时有另一个人钻了漏洞修改模型代码，然后趁他离职把锅扣在他头上。

结果一个多月后，此事再一次迎来反转。

有媒体报道称，法院已经正式受理字节跳动对前实习生田某某的起诉。

法院判令田某某赔偿侵权损失800万元及合理支出2万元，同时要求其公开赔礼道歉。

字节官方也澄清说，涉事实习生破坏的是团队研究项目，并不影响商业化正式项目，也不涉及字节跳动大模型等其他业务。

最终，这位实习生被字节辞退，交由校方处理。

资料显示，田柯宇本科毕业于北航软件学院，研究生就读于北大，师从王立威教授，研究兴趣为深度学习的优化与算法。

自2021年起，开始在字节跳动实习研究，具体包括超参数优化、强化学习算法、自监督的新型算法。

超越扩散

VAR开启视觉自回归模型新范式

这项研究中，他们提出了一种全新范式——视觉自回归建模（Visual Autoregressive Modeling，VAR）。

论文地址：https://arxiv.org/abs/2404.02905

与传统的光栅扫描「下一个token预测」方法有所不同，它重新定义了图像上的自回归学习，采用粗到细的「下一个尺度预测」或「下一个分辨率预测」。

这种简单直观的方法使得自回归（AR）Transformer能够快速学习视觉分布，并且具有较好的泛化能力：VAR首次使得类似GPT的AR模型在图像生成中超越了扩散Transformer。

当前，自回归模型（AR）主要用于语言模型从左到右、逐字顺序生成文本token。同时，也用于图像生成中，即以光栅扫描的顺序从左到右，从上到下顺序生成图像token。

不过，这些AR模型的scaling law未得到充分的探索，而且性能远远落后于扩散模型，如下图3所示。

与语言模型所取得成就相比，计算机视觉中的自回归模型的强大能力却被「禁锢」了起来。

而自回归建模需要定义数据的顺序，北大字节团队研究中重新考虑了如何「排序」图像：人类通常以分层方式感知或创建图像，首先捕获全局结构，然后捕获局部细节。

这种多尺度、由从粗到细的本质，为图像提供了一种「秩序」。

同样，受到广泛使用的多尺度设计的启发，研究人员将图像的自回归学习定义为图2(c)中的「下一个尺度预测」，不同于传统图2(b)中的「下一个token的预测」。

VAR方法首先将图像编码为多尺度的token映射，然后，自回归过程从1×1token映射开始，并逐步扩展分辨率。

在每一步中，Transformer会基于之前所有的token映射去预测下一个更高分辨率的token映射。

由此，研究人员将此称为视觉自回归建模（VAR）。

VAR包括两个独立的训练阶段：在图像上训练多尺度VQVAE，在token上训练VAR Transformer。

第一阶段，多尺度VQ自动编码器将图像编码为K个token映射R=(r_1,r_2,…,r_K)，并通过复合损失函数进行训练。

第二阶段，通过下一尺度预测对VAR Transformer进行训练：它以低分辨率token映射 ([s],r_1,r_2,…,r_K−1)作为输入，预测更高分辨率的token映射 (r_1,r_2,r_3,…,r_K)。训练过程中，使用注意力掩码确保每个r_k仅能关注 r_≤k。训练目标采用标准的交叉熵损失函数，用于优化预测精度。

田柯宇团队在ImageNet 256×256和512×512条件生成基准上测试了深度为16、20、24和30的VAR模型，并将其与最先进的图像生成模型家族进行比较，包括生成对抗网络（GAN）、扩散模型（Diff.）、BERT 风格的掩码预测模型（Mask.）和 GPT 风格的自回归模型（AR）。

在ImageNet 256×256基准测试中，VAR显著提高了AR基准性能，将Fréchet Inception距离（FID）从18.65降低到1.73，Inception得分（IS）从80.4提高到350.2，同时推理速度提高了20倍。

如上表所示，VAR不仅在FID/IS上达到了最佳成绩，还在图像生成速度上表现出色。VAR还保持了良好的精度和召回率，证明了其语义一致性。

这些优势在512×512合成基准测试中同样得到了体现。

实验证明，VAR在多个维度上超越了扩散Transformer（DiT），包括图像质量、推理速度、数据效率和可扩展性。

VAR模型的扩展表现出了类似于大语言模型（LLM）的清晰幂律缩放规律，线性相关系数接近−0.998，这提供了强有力的证据。

VAR还在下游任务中展示了零样本泛化能力，包括图像修复、图像外延和图像编辑等。

这些结果表明，VAR初步模仿了大语言模型的两个重要特性：缩放规律和零样本泛化能力。

田柯宇团队已在GitHub上发布了所有模型和代码，现已斩获4.4k星。

项目地址：https://github.com/FoundationVision/VAR

AI顶会NeurIPS，录用率25.8%

NeurIPS全称神经信息处理系统大会（The Conference on Neural Information Processing Systems），是人工智能（AI）、机器学习（ML）和数据科学领域最负盛名且最具影响力的会议之一。

它于1987年首次举办，当时名字是「神经信息处理系统」（NIPS），主要为快速兴起的神经网络领域提供一个交流思想的平台。

随着会议范围逐渐扩大，涵盖了人工智能和机器学习更广泛的主题，会议名称于2018年更改为NeurIPS。

今年，是NeurIPS第38届年会，将于下周12月9日-15日在温哥华召开。

NeurIPS顶会同样以严格的同行评审过程而著称，2023年录用率为26.1%，2022年为25.6%。

NeurIPS历年接收率

今年，顶会一共接受了15671篇论文，录用率为25.8%，其中评审最低分2.2，最高分8.7，具体来说：

- Oral 61篇（0.39%）

- Spotlight 326篇（2.08%）

- Poster 3650篇（23.29%）

参考资料：

https://www.toutiao.com/w/1813324433807370/?log_from=d66b759dee10a_1733273717412

https://github.com/FoundationVision/VAR

>End

>>>

本文转载自“新智元”，原标题《惊掉下巴！被字节起诉800万实习生，拿下NeurIPS 2024最佳论文》。

为分享前沿资讯及有价值的观点，太空与网络微信公众号转载此文，并经过编辑。

未按照规范转载及引用者，我们保留追究相应责任的权利

部分图片难以找到原始出处，故文中未加以标注，如若侵犯了您的权益，请第一时间联系我们。

HISTORY/往期推荐

商业火箭，想说爱你不容易——（一）中途夭折的商业火箭起步之旅

商业火箭，想说爱你不容易——（二）难以复制的SpaceX

商业火箭，想说爱你不容易——（三）中国商业火箭未来之路怎么走？

>>>

充满激情的新时代，

充满挑战的新疆域，

与踔厉奋发的引领者，

卓尔不群的企业家，

一起开拓，

一起体验，

一起感悟，

共同打造更真品质，

共同实现更高价值，

共同见证商业航天更大的跨越！

——《太空与网络》，观察，记录，传播，引领。

>>>

·《卫星与网络》编辑委员会

高级顾问：王国玉、刘程、童旭东、相振华、王志义、杨烈

· 《卫星与网络》创始人：刘雨菲

· 《卫星与网络》副社长：王俊峰

· 微信公众号（ID：satnetdy）团队

编辑：艳玲、哈玫，周泳、邱莉、黄榕、娜娜

主笔记者：李刚、魏兴、张雪松、霍剑、乐瑜、稻子、赵栋

策划部：杨艳、若㼆、李真子

视觉总监：董泞

专业摄影：冯小京、宋伟

设计部：顾锰、潘希峎、杨小明

行政部：姜河、林紫

业务部：王锦熙、瑾怡

原创文章转载授权、转载文章侵权、投稿等事宜，请加微信：15910858067

商务合作；展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广；企业口碑传播及整体营销传播等，请加微信：13811260603

杂志订阅，请加微信：wangxiaoyu9960

· 卫星与网络各分部：

成都分部负责人：沈淮

长沙分部负责人：宾鸿浦

西安分部负责人：郭朝晖

青岛分部负责人：江伟

· 卫星与网络总部负责人：农燕

· 会议活动部负责人：乔颢益、许克新、董今福

· 投融资及战略层面合作：刘雨菲

· 本平台签约设计公司：一画开天（北京）文化创意设计有限公司

· 航天加（深圳）股权投资基金管理负责人：杨艳

太空与网络

充满激情的新时代，充满挑战的新疆域，与踔厉奋发的引领者，卓尔不群的企业家，一起开拓，一起体验，一起感悟，共同打造更真品质，共同实现更高价值，共同见证商业航天更大的跨越！ ——《太空与网络》，观察，记录，传播，引领。

最新文章

欧空局：2024年遥感领域重大事件

宇宙人(1652期）星图测控开启申购，发行价格为6.92元/股；三星在英国起诉中兴通讯； xAI公布60亿美元融资部分投资者名单

美国制裁8年仍是全球第一：他打造了外媒眼中“最可怕的中国制造”

上海低空经济国资平台成立：注册资本9亿元、背后有机场集团等六大股东

宇宙人(1651期）2025载人航天飞行任务标识投票通道开启；美军事卫星在轨解体，产生50多块碎片；卫星加油站将于2027年建成

这位中国老板，掌控全球半导体关键金属，却鲜为人知

卫网君：9.24亿 “卖天” 中止，对低空经济有哪些影响？SLS重型火箭项目面临取消；未来太空发射成本会降至什么水平？

年包70万挖人、出海精准撒钱，中国公司与Sora短兵相接

也说遥感共性产品，行业需要什么样的遥感产品？

互联网低轨01组卫星上天，还有12992颗将与美星链比拼

宇宙人(1650期）嫦娥六号月球样品揭示人类首份日背古磁场信息；卫星导航位置服务系统在澳门开通；三家公司将合作推出GTO拼车服务

特斯拉皮卡入华，怎么这么难

为什么有的手机能连卫星？

特斯拉拥抱激光雷达，恐怕只是一个误会

宇宙人(1649期）谷神星一号海射型遥四运载火箭一箭四星成功发射；嫦娥六号、低轨通信卫星星座入选“2024全球十大工程成就”

全球追打英伟达

一文看懂SpaceX和我国商业航天新局

北斗规模应用亟待有个远景规划

宇宙人(1648期）神十九乘组首次出舱刷新多项纪录；星图测控拟在北交所上市；220吨级大推力补燃循环氢氧发动机首次整机试验成功

6000亿，60家，首批“推荐IPO”企业名单定了？

史上最大独角兽诞生：SpaceX估值25000亿

"中国看到了这一切，正加大投资卫星项目挑战星链"

宇宙人(1647期）星网01组轨道数据；神十九航天员近日将首次出舱；星链明年收入预计达118亿；ULA欲将上面级改为留轨作战平台

智谱又融了30亿！超200亿估值引领大模型创业赛道

中国星网，来了

“5倍声速”搭上“星链”，高超声速无人机时代拉开序幕？

宇宙人(1646期）海南商业发射场一号工位将迎长征八号首秀；中国航天商业卫星公司在津建成年产能过百颗卫星的生产线；S33静态点火

中美科技合作协定终获续签，但这些关键技术被排除其外

卫网君：嫦娥七号将携带分辨率达0.275米的高分立体相机；长光卫星应把主要精力放在应用模式开发和市场开拓上；星链的网速在变慢吗？

为什么硅谷的科技巨头们正在强势押注核能……

硅谷投资人：马斯克星舰打开太空经济赛道

10年亏掉480亿美元，AT&T甩卖有线电视

宇宙人(1645期）长二丁成功发射高速激光钻石星座试验系统；Viasat在阿联酋首次演示手机直连卫星；导航故障致机智号任务终结

欧洲新能源大败局：花200亿美元做不好一块汽车电池

美智库：实现天基核指挥、控制和通信的现代化

身家4000亿美元！马斯克，史上第一人！

宇宙人(1644期）澳大利亚“抓拍”中国资源三号卫星；科学家建议在月球建“天眼”；Orbite通过A轮融资扩大豪华太空训练

通用梦碎自动驾驶

低轨通信卫星行业产业链分析：相控阵T/R组件价值量占比高

美国对中国激光雷达忧心忡忡

宇宙人(1643期）嫦娥八号将在月球造人类第一块月壤砖；北京加快打造商业航天产业高地；火箭实验室披露为美国防部完成高超音速试验

谷歌“量子霸权”再进一步，马斯克惊呼：Wow

亚轨道远程极速重载运输系统总体设计与控制技术研究

华邮「SpaceX超能力」报道引人深思……

宇宙人(1642期）执行新型任务的长征五号B即将正式亮相；星舰一级B14进行静态点火测试；德国电信、高通和Skylo试验卫星短信

最高罚款超50亿美元，中国为何会对英伟达动手？

在太空开采阳光：从日本测试高空太阳能传输，到全球探索“卫星光伏”新时代

美国登月又推迟，马斯克能救得了吗？

宇宙人(1641期）长八甲遥一火箭装船起运明年1月首飞；嫦娥七号将携带最新最强的高分立体相机；美国拆除中国通信设备还缺30亿美元

大模型混战这一年：进化之赛、效率之争、落地之战

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉