NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

文摘 2024-12-07 20:35 广东

近日，人工智能顶会 NeurIPS 公布了今年的最佳论文（包括 Best Paper 和 Best Paper Runner-up）。

NeurIPS

NeurIPS（神经信息处理系统大会），全称为 Conference on Neural Information Processing Systems，是全球机器学习、人工智能和计算神经科学领域最具影响力的顶级学术会议之一，与国际机器学习大会（ICML）和国际学习表征会议（ICLR）并列为“机器学习三大顶会”，CCF A 类会议。NeurIPS 的研究涵盖从理论到应用的广泛领域，包括深度学习、强化学习、计算神经科学等。

NeurIPS 每年都会吸引大量高水平论文投稿，2024 年共接收了 15671 篇论文（比去年又增长了 27%），录取率为25.8%（去年为 26.1%），大概 4043 篇左右。

NeurIPS 2024 将于 12 月 10 日（星期二）至 12 月 15 日（星期日）在加拿大温哥华的 Vancouver Convention Center 举行，预计将汇聚来自世界各地的顶尖研究人员和行业专家，共同探讨机器学习领域的最新进展与突破。

NeurIPS 覆盖多个人工智能相关主题，会议主要聚焦以下领域：

图：会议的核心主题

最佳论文奖 | Best Paper

论文 1：视觉自回归建模优化

论文：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction（视觉自回归建模：通过 Next-Scale 预测生成可扩展图像）

作者：Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
机构：北京大学、字节跳动
论文链接：https://arxiv.org/pdf/2404.02905
项目地址：https://github.com/FoundationVision/VAR

在自然语言处理中，以 GPT、LLaMa 系列等大语言模型为例的自回归模型已经取得了较大的成功，然而在图像生成领域中，自回归模型却广泛落后于扩散（Diffusion）模型。

这篇论文介绍了一种名为视觉自回归建模（Visual Autoregressive modeling, VAR）的新型图像生成范式，它将自回归学习在图像上的应用从标准的逐像素预测转变为粗到细的“下一尺度预测”或“下一分辨率预测”。首次使基于 GPT 风格的自回归模型在图像生成任务中超越了扩散模型，并验证了VAR模型的可扩展性和零样本泛化能力。

具体地，论文引入了一种多尺度的自回归策略。与传统的按像素或token顺序生成图像的方法不同，VAR 模型通过从低到高分辨的多尺度 token 图进行自回归生成，每一尺度的token图都依赖于前一尺度的结果。

在符合直觉的同时，这样的自回归算法带来了很好的效果：VAR 显著提升了自回归模型的速度和生成质量，在多方面使得自回归模型首次超越扩散模型。同时 VAR 展现出类似 LLM 的 Scaling Laws 和零样本任务泛化能力。

论文 2：高阶微分算子神经网络优化

论文：Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators（随机泰勒导数估计器：任意微分算子的有效摊销）

作者：Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
机构：新加坡国立大学、 Sea AI Lab
论文链接：https://arxiv.org/abs/2412.00088
项目地址：https://github.com/sail-sg/stde

这篇论文主要介绍了一种名为 Stochastic Taylor Derivative Estimator (STDE) 的高效算法，用于优化包含高维和高阶微分算子的神经网络损失函数，特别是在物理信息神经网络（PINNs）中。

具体地，该研究展示了如何通过正确构造单变量高阶 AD 输入切线（input tangent），有效地对多元函数的任意阶导数张量进行任意收缩，这可用于有效地随机化任何微分算子。

当应用于 PINN（ Physics-Informed Neural Networks ）时，与使用一阶 AD 进行随机化相比，该论文方法提供了 1000 倍以上的速度提升和 30 倍以上的内存减少，而且现在可以在单个 NVIDIA A100 GPU 上在 8 分钟内解决 100 万维 PDE。

总之，这项工作开启了在大规模问题中使用高阶微分算子的可能性。

最佳论文亚军 | Best Paper Runner-up

论文 1：选择性语言建模新方法

论文：Not All Tokens Are What You Need for Pretraining（并非所有token都是预训练所需的）

作者：Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, yelong shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
机构：厦门大学、清华大学、微软
论文链接：https://openreview.net/pdf?id=0NMzBwqaAJ
项目地址：https://github.com/microsoft/rho

这篇论文提出了一种新的名为 RHO-1 的语言模型预训练方法，它挑战了传统的预训练方法，即对所有训练标记（tokens）应用下一个 token 预测损失。其主要观点是，在语料库中，并非所有训练标记（tokens）都对语言模型训练具有同等重要性。

作者通过深入分析标记级别的训练动态，发现了不同标记在训练过程中呈现出独特的损失模式。

基于这一洞察，论文引入了一种称为选择性语言建模（Selective Language Modeling, SLM）的新方法，它会选择性地使用与所需分布对齐的有用 token 进行训练。

SLM 通过使用一个参考模型对 tokens 进行评分，然后再在分数更高的 token 上使用一个重点关注损失（focused loss）来训练模型。

在 15B OpenWebMath 语料库上进行持续预训练时，RHO-1 在 9 个数学任务上的少样本准确率（few-shot accuracy）实现了 30% 的绝对提升。经过微调后，RHO-1-1B 和 7B 在 MATH 数据集上分别取得了 40.6% 和 51.8% 的 SOTA 结果 —— 仅用 3% 的预训练 token 就达到了 DeepSeekMath 相当的水平。

此外，在对 80B 个通用 token 进行持续预训练时，RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升，数据效率和语言模型预训练的性能都得到了提升。

论文 2：小模型版本引导高质量多变图像

论文：Guiding a Diffusion Model with a Bad Version of Itself（使用扩散模型的一个糟糕版本引导其自身）

作者：Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
机构：英伟达、阿尔托大学
论文链接：https://arxiv.org/pdf/2406.02507

这篇论文提出了一种名为自引导（autoguidance）的方法，通过使用主模型自身的一个较小、较少训练的版本作为引导模型，来提高图像生成质量。

论文指出，在图像生成的扩散模型中，主要关注的三个方面是图像质量、结果的多变程度以及结果与给定条件（例如类标签或文本提示）的对齐程度。

常见的无分类器引导方法（Classifier-Free Guidance, CFG）是使用无条件模型来引导条件模型，虽然能同时提高图像质量和与提示的对齐程度，但代价是降低了结果的多变程度。

这些效果似乎本质上是纠缠在一起的，因此很难控制。

而自引导方法通过引导模型的不完美性，能够在不减少多样性的情况下提高图像质量。

这种方法在 ImageNet 数据集上进行了测试，生成上取得了显著改进。结果显示，在 64×64 和 512×512 分辨率下，使用公开可用的网络，FIDs（Fréchet Inception Distance）分别达到了 1.01 和 1.25，创下了新记录。

此外，该方法不仅适用于条件扩散模型，还可以显著提高无条件扩散模型的质量。

参考：
https://neurips.cc/Conferences/2024

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉