近日,人工智能顶会NeurIPS (神经信息处理系统大会)揭晓了2024年最佳论文奖名单,《视觉自回归建模:通过下一尺度预测实现可扩展的图像生成》一文获奖。
该文作者包括此前攻击字节大模型被索赔800万元的实习生田某某。今年 10 月,字节跳动发布《关于“实习生破坏大模型训练”的事实澄清》,经公司内部核实,确有商业化技术团队实习生发生严重违纪行为,该实习生已被辞退。今年 11 月,字节跳动起诉前实习生田某某篡改代码攻击公司内部模型训练一案,已获北京市海淀区人民法院正式受理。字节跳动请求法院判令田某某赔偿公司侵权损失 800 万元及合理支出 2 万元,并公开赔礼道歉。而此次 NeurIPS 公布的最佳论文由田某某所在的字节商业化技术部门与北京大学合作发表,论文题目《视觉自回归建模:通过下一尺度预测实现可扩展的图像生成》,由包括田某某在内的五人完成,田某某是第一作者,核心内容探讨一种可扩展的图像生成方法,通过下一尺度预测(Next-Scale Prediction)来进行视觉自回归建模(Visual Autoregressive Modeling,简称 VAR),是一种用于创建新图像数据的生成模型。这篇论文提出的视觉自回归建模(VAR)方法首次证明了GPT式模型可以在图像生成方面超越扩散模型——这是许多人认为不可能的里程碑。在ImageNet 256×256基准测试中,VAR将图像质量评估指标FID从18.65提升至1.73,生成速度提高了20倍。更重要的是,VAR展现出此前只在大型语言模型中观察到的特征:清晰的幂律缩放和零样本泛化能力。用更简单的话来说就是,系统随着规模增大而可预测地变得更好,并且能够处理它没有专门训练过的任务——这是更高级AI系统的标志。这些特性暗示了视觉AI可能与语言AI走向统一的道路。目前,VAR的代码已在GitHub上开源,获得了超过4400颗星标。田柯宇的学术履历堪称完美:本科毕业于北京航空航天大学软件学院,随后进入北京大学攻读研究生,师从知名学者王立威教授。他研究的重点是深度学习优化与算法,在攻读学位期间就已在多个顶级会议发表论文,包括ICLR 2023的Spotlight论文《Spark:Designing BERT for Convolutional Networks》,是其引用量最高的论文。2021年,田柯宇开始了在字节跳动商业化技术部门的实习。在这里,他参与了一个雄心勃勃的项目:开发新一代的视觉生成模型。这个后来被命名为VAR的项目,试图彻底改变AI生成图像的方式。一位在GitHub上发声的知情人士描绘了这场持续两个月的"数字破坏":"在这段时间里,他系统性地破坏集群代码,直接导致近30位同事的工作成果付诸东流,整整一个季度的心血化为乌有。所有的日志记录和系统审查都指向一个不容辩驳的事实。"据《南方都市报》11月27日报道,字节跳动起诉前实习生田某某篡改代码攻击公司内部模型训练一案,获北京市海淀区人民法院正式受理。字节跳动请求法院判令田某某赔偿公司侵权损失800万元及合理支出2万元,并公开赔礼道歉。字节跳动内部人士曾表示,之所以此时发起诉讼,是由于田某某为在读博士,公司将其辞退后首先交由校方处理。但在事件处理期间,田某某多次对外否认,称攻击模型训练任务的不是自己,而是别的实习生。
考虑到田某某完全没有意识到错误,且涉事行为已触犯公司安全红线,公司最终决定向法院起诉,以表明公司严肃态度、杜绝类似事件再次发生。关于美军军事人工智能的发展情况及趋势,可以参考数字孪生战场实验室编写的《军事人工智能白皮书》,该报告深入分析了决定未来战争成败的新质战斗力。
《军事人工智能白皮书(2024)》共计270页,总字数为14.9万字(正文8万字,附录6.9万字)。如果需要购买该报告,请联系王女士:(一)基础方案,印刷版报告2本,不提供原文资料,定价2万元。(二)专业方案,印刷版报告5本,提供精选原文资料20份、美军人工智能培训系列视频和讲义(22节课),以及1年时间的资料更新和简易咨询服务(包括在线、电话等答疑),定价3万元。参考阅读:
索辰科技收购军工企业麦思捷55%股权
马斯克发布“政府效能部的改革计划”(中英全文)
我国空军拥有歼-20和歼-35A隐形战斗机
乌军反击战:秘密行动、闪电速度加电子干扰
为何全球大国无力阻止中东战事?
《杀伤链研究报告(2025)》简要介绍
《建模仿真白皮书(2024)》简要介绍
《军事人工智能白皮书(2024)》发布了
《网络信息白皮书(2024)》简要介绍
数字孪生体:第四次工业革命的通用目的技术