北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

科技 2024-12-04 11:59 北京

SmartFlowAI

点击上方蓝字关注我们

本文转载机器之心
全文约 2400 字，预计阅读时间 6 分钟

刚刚，人工智能顶会 NeurIPS 公布了今年的最佳论文（包括 Best Paper 和 Best Paper Runner-up，大会注册者可以看到）。

一共有两篇论文获得最佳论文奖：

一是由北京大学、字节跳动研究者共同完成的《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》（视觉自回归建模：通过 Next-Scale 预测生成可扩展图像），论文一作为田柯宇（此前因涉攻击内部大模型，被字节起诉）。参见机器之心报道《GPT 超越扩散、视觉生成 Scaling Law 时刻！北大 & 字节提出 VAR 范式》。

机器之心获悉，从 2023 年开始，字节商业化技术团队就在研究图像生成的自回归模型，一直将 VAR 作为高优项目推进，不仅安排多名研究人员重点攻关此技术方向，还投入大量算力资源支持模型训练和实验。该团队近期将发布新的 VAR T2I 模型研究成果，并将对模型开源。

二是由新加坡国立大学、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》（随机泰勒导数估计器：任意微分算子的有效摊销），论文一作为 Zekun Shi。

此外，还有两篇论文获得了最佳论文亚军（Best Paper Runner-up）：

由厦门大学、清华大学、微软研究者共同完成的《Not All Tokens Are What You Need for Pretraining》（并非所有 token 都是预训练所需的）， Zhenghao Lin 和 Zhibin Gou（苟志斌）为共同一作。

由英伟达和阿尔托大学共同完成的《Guiding a Diffusion Model with a Bad Version of Itself》（使用扩散模型的一个糟糕版本引导其自身），论文一作为 Tero Karras。

NeurIPS 2024 将于 12 月 10 日星期二至 12 月 15 日星期日在温哥华举办。本届共收到 15671 篇有效论文投稿，比去年又增长了 27%，但最终接收率低于 2023 年，仅有 25.8%。最佳论文的公布提前引爆了有关此次大会的讨论。

以下是获奖论文的详细信息：

最佳论文

论文 1：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

作者：Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
机构：北京大学、字节跳动
论文地址：https://arxiv.org/pdf/2404.02905
项目地址：https://github.com/FoundationVision/VAR

论文简介：在自然语言处理中，以 GPT、LLaMa 系列等大语言模型为例的 Autoregressive（自回归模型已经取得了较大的成功，尤其扩展定律（Scaling Law）和零样本任务泛化能力（Zero-shot Task Generalizability）十分亮眼，初步展示出通往「通用人工智能 AGI」的潜力。

然而在图像生成领域中，自回归模型却广泛落后于扩散（Diffusion）模型：DALL-E、Stable Diffusion、Sora 等模型均属于 Diffusion 家族。

为了「解锁」自回归模型的能力和 Scaling Laws，研究团队从图像模态内在本质出发，模仿人类处理图像的逻辑顺序，提出一套全新的「视觉自回归」生成范式：VAR, Visual AutoRegressive Modeling，首次使得 GPT 风格的自回归视觉生成，在效果、速度、Scaling 能力多方面超越 Diffusion，迎来了视觉生成领域的 Scaling Laws。

VAR 为如何定义图像的自回归顺序提供了一个全新的视角，即由粗到细、由全局轮廓到局部精调的顺序。在符合直觉的同时，这样的自回归算法带来了很好的效果：VAR 显著提升了自回归模型的速度和生成质量，在多方面使得自回归模型首次超越扩散模型。同时 VAR 展现出类似 LLM 的 Scaling Laws 和零样本任务泛化能力。

论文 2：Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators

作者：Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
机构：新加坡国立大学、 Sea AI Lab
论文地址：https://arxiv.org/abs/2412.00088
项目地址：https://github.com/sail-sg/stde

论文简介：使用包含高维和高阶微分算子的损失函数来优化神经网络是非常昂贵的，因为反向传播中导数张量的大小按缩放，计算图中的计算按缩放，其中，d 是域的维度，L 是前向计算图中操作的数量，k 是导数的阶数。

在之前的研究中，d 中多项式缩放是通过随机化在优化过程中平摊计算来解决的。另外，单变量函数（d = 1）中 k 的指数缩放通过高阶自动微分（AD）解决。

本研究展示了如何通过正确构造单变量高阶 AD 输入切线（input tangent），有效地对多元函数的任意阶导数张量进行任意收缩，这可用于有效地随机化任何微分算子。

当应用于 PINN（ Physics-Informed Neural Networks ）时，与使用一阶 AD 进行随机化相比，本文方法提供了 1000 倍以上的速度提升和 30 倍以上的内存减少，而且现在可以在单个 NVIDIA A100 GPU 上在 8 分钟内解决 100 万维 PDE。这项工作开启了在大规模问题中使用高阶微分算子的可能性。

最佳论文亚军（Best Paper Runner-up）

论文 1：Not All Tokens Are What You Need for Pretraining

作者：Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, yelong shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
机构：厦门大学、清华大学、微软
论文地址：https://openreview.net/pdf?id=0NMzBwqaAJ
项目地址：https://github.com/microsoft/rho

论文简介：以前的语言模型预训练方法会统一对所有训练 token 应用下一个 token 预测损失。

但这一范式并非不可挑战。这篇论文的作者首先做出了一个假设：「对于语言模型训练，并非语料库中的所有 token 都同等重要」。

然后，他们分析了语言模型的 token 级训练动态，结果发现不同 token 有着不同的损失模式。

基于这些见解，他们开发了一种新模型 RHO-1。不同于传统语言模型（会学习预测语料库中的每一下个 token），RHO-1 采用了选择性语言建模（SLM），它会选择性地使用与所需分布对齐的有用 token 进行训练。

该方法需要使用一个参考模型来给 token 评分，然后再在分数更高的 token 上使用一个重点关注损失（focused loss）来训练模型。

在 15B OpenWebMath 语料库上进行持续预训练时，RHO-1 在 9 个数学任务上的少样本准确率实现了 30% 的绝对提升。经过微调后，RHO-1-1B 和 7B 在 MATH 数据集上分别取得了 40.6% 和 51.8% 的 SOTA 结果 —— 仅用 3% 的预训练 token 就达到了 DeepSeekMath 相当的水平。此外，在对 80B 个通用 token 进行持续预训练时，RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升，数据效率和语言模型预训练的性能都得到了提升。

论文 2：Guiding a Diffusion Model with a Bad Version of Itself

作者：Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
机构：英伟达、阿尔托大学
论文地址：https://arxiv.org/pdf/2406.02507

论文简介：图像生成扩散模型关注的核心是图像质量、结果的多变程度以及结果与给定条件（例如类标签或文本提示）的对齐程度。

常见的无分类器引导方法是使用无条件模型来引导条件模型，这样既能实现更好的提示词对齐，也能得到更高质量的图像，但代价是多变程度下降。

这些效果似乎本质上是纠缠在一起的，因此很难控制。

基于此，该团队得出了一个令人惊讶的观察结果：通过使用较小、训练较少的模型版本（而不是无条件模型）来引导生成，就可以在不影响多变程度的情况下获得对图像质量的控制。由此，图像质量与多变程度就分离了。

实验表明，这能显著提升 ImageNet 生成效果。他们使用公开可用的网络，为 64×64 分辨率下的生成创造了 1.01 的 FID 记录，为 512×512 创造了 1.25 的 FID 记录。此外，该方法也适用于无条件扩散模型，可极大提高其质量。

往期 · 推荐

使用大语言模型进行自动且多功能的评估

上海AI实验室版o1已上线！数学竞赛题、Leetcode赛题全拿下，还会玩24点

LiveBench: 一个具有挑战性且无污染的 LLM 评测基准

o1圈的新王！阿里QwQ-32B开源

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像

AI周报：英伟达因涉嫌垄断被立案调查 | OpenAI正式发布Sora | Meta Google 各自发布新模型

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI圣诞推出惊喜、商业策略却惹争议，谷歌Genie 2单图即可生成3D游戏世界，亚马逊Nova以超快输出惊艳亮相

2024 AI 产品经理大会，这个周末，不见不散～

OpenAI的第一份礼：ChatGPT Pro和o1 Pro mode，但我们真的需要吗

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

具身智能的数据采集主流路径

AI周报：腾讯开源目前最强视频生成大模型 | 李飞飞 WorldLabs 发布革命性的单图3D场景生成技术

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

最强开源文生视频！腾讯混元 HunyuanVideo对外开放并全面开源

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

Kimi悄悄开源了自家推理框架Mooncake~

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

使用大语言模型进行自动且多功能的评估

速报：O1模型扎堆发布的一周

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉