近日,人工智能顶会 NeurIPS 公布了今年的最佳论文(包括 Best Paper 和 Best Paper Runner-up)。
NeurIPS(神经信息处理系统大会),全称为 Conference on Neural Information Processing Systems,是全球机器学习、人工智能和计算神经科学领域最具影响力的顶级学术会议之一,与国际机器学习大会(ICML)和国际学习表征会议(ICLR)并列为“机器学习三大顶会”,CCF A 类会议。NeurIPS 的研究涵盖从理论到应用的广泛领域,包括深度学习、强化学习、计算神经科学等。
NeurIPS 每年都会吸引大量高水平论文投稿,2024 年共接收了 15671 篇 论文(比去年又增长了 27%),录取率为25.8%(去年为 26.1%),大概 4043 篇左右。
NeurIPS 2024 将于 12 月 10 日(星期二)至 12 月 15 日(星期日)在加拿大温哥华的 Vancouver Convention Center 举行,预计将汇聚来自世界各地的顶尖研究人员和行业专家,共同探讨机器学习领域的最新进展与突破。
NeurIPS 覆盖多个人工智能相关主题,会议主要聚焦以下领域:
图:会议的核心主题
论文:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction(视觉自回归建模:通过 Next-Scale 预测生成可扩展图像)
作者:Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
机构:北京大学、字节跳动
论文链接:https://arxiv.org/pdf/2404.02905
项目地址:https://github.com/FoundationVision/VAR
在自然语言处理中,以 GPT、LLaMa 系列等大语言模型为例的自回归模型已经取得了较大的成功,然而在图像生成领域中,自回归模型却广泛落后于扩散(Diffusion)模型。
这篇论文介绍了一种名为视觉自回归建模(Visual Autoregressive modeling, VAR)的新型图像生成范式,它将自回归学习在图像上的应用从标准的逐像素预测转变为粗到细的“下一尺度预测”或“下一分辨率预测”。首次使基于 GPT 风格的自回归模型在图像生成任务中超越了扩散模型,并验证了VAR模型的可扩展性和零样本泛化能力。
具体地,论文引入了一种多尺度的自回归策略。与传统的按像素或token顺序生成图像的方法不同,VAR 模型通过从低到高分辨的多尺度 token 图进行自回归生成,每一尺度的token图都依赖于前一尺度的结果。
在符合直觉的同时,这样的自回归算法带来了很好的效果:VAR 显著提升了自回归模型的速度和生成质量,在多方面使得自回归模型首次超越扩散模型。同时 VAR 展现出类似 LLM 的 Scaling Laws 和零样本任务泛化能力。
论文:Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators(随机泰勒导数估计器:任意微分算子的有效摊销)
作者:Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
机构:新加坡国立大学、 Sea AI Lab
论文链接:https://arxiv.org/abs/2412.00088
项目地址:https://github.com/sail-sg/stde
这篇论文主要介绍了一种名为 Stochastic Taylor Derivative Estimator (STDE) 的高效算法,用于优化包含高维和高阶微分算子的神经网络损失函数,特别是在物理信息神经网络(PINNs)中。
具体地,该研究展示了如何通过正确构造单变量高阶 AD 输入切线(input tangent),有效地对多元函数的任意阶导数张量进行任意收缩,这可用于有效地随机化任何微分算子。
当应用于 PINN( Physics-Informed Neural Networks )时,与使用一阶 AD 进行随机化相比,该论文方法提供了 1000 倍以上的速度提升和 30 倍以上的内存减少,而且现在可以在单个 NVIDIA A100 GPU 上在 8 分钟内解决 100 万维 PDE。
总之,这项工作开启了在大规模问题中使用高阶微分算子的可能性。
论文:Not All Tokens Are What You Need for Pretraining(并非所有token都是预训练所需的)
作者:Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, yelong shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
机构:厦门大学、清华大学、微软
论文链接:https://openreview.net/pdf?id=0NMzBwqaAJ
项目地址:https://github.com/microsoft/rho
这篇论文提出了一种新的名为 RHO-1 的语言模型预训练方法,它挑战了传统的预训练方法,即对所有训练标记(tokens)应用下一个 token 预测损失。其主要观点是,在语料库中,并非所有训练标记(tokens)都对语言模型训练具有同等重要性。
作者通过深入分析标记级别的训练动态,发现了不同标记在训练过程中呈现出独特的损失模式。
SLM 通过使用一个参考模型对 tokens 进行评分,然后再在分数更高的 token 上使用一个重点关注损失(focused loss)来训练模型。
在 15B OpenWebMath 语料库上进行持续预训练时,RHO-1 在 9 个数学任务上的少样本准确率(few-shot accuracy)实现了 30% 的绝对提升。经过微调后,RHO-1-1B 和 7B 在 MATH 数据集上分别取得了 40.6% 和 51.8% 的 SOTA 结果 —— 仅用 3% 的预训练 token 就达到了 DeepSeekMath 相当的水平。
此外,在对 80B 个通用 token 进行持续预训练时,RHO-1 在 15 个不同任务上实现了 6.8% 的平均提升,数据效率和语言模型预训练的性能都得到了提升。
论文:Guiding a Diffusion Model with a Bad Version of Itself(使用扩散模型的一个糟糕版本引导其自身)
作者:Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
机构:英伟达、阿尔托大学
论文链接:https://arxiv.org/pdf/2406.02507
这篇论文提出了一种名为自引导(autoguidance)的方法,通过使用主模型自身的一个较小、较少训练的版本作为引导模型,来提高图像生成质量。
论文指出,在图像生成的扩散模型中,主要关注的三个方面是图像质量、结果的多变程度以及结果与给定条件(例如类标签或文本提示)的对齐程度。
常见的无分类器引导方法(Classifier-Free Guidance, CFG)是使用无条件模型来引导条件模型,虽然能同时提高图像质量和与提示的对齐程度,但代价是降低了结果的多变程度。
这些效果似乎本质上是纠缠在一起的,因此很难控制。
而自引导方法通过引导模型的不完美性,能够在不减少多样性的情况下提高图像质量。
这种方法在 ImageNet 数据集上进行了测试,生成上取得了显著改进。结果显示,在 64×64 和 512×512 分辨率下,使用公开可用的网络,FIDs(Fréchet Inception Distance)分别达到了 1.01 和 1.25,创下了新记录。
参考:
https://neurips.cc/Conferences/2024