人工智能顶会NeurIPS——
公布了年度最佳论文!
北京大学、字节跳动研究人员,厦门大学、清华大学、微软研究者榜上有名!
让我们分别来看看NeurIPS 2024最佳论文都有哪些新成果?
北大、字节跳动获得最佳论文:
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
《视觉自回归建模:通过下一尺度预测实现可扩展图像生成》
论文作者:Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
研究机构:北京大学、字节跳动
论文原文:https://arxiv.org/pdf/2404.02905
本篇论文介绍了一种名为视觉自回归建模(Visual Autoregressive modeling, VAR)的新型图像生成范式,它将自回归学习在图像上的应用从标准的逐像素预测转变为粗到细的“下一尺度预测”或“下一分辨率预测”。
这种方法与传统的光栅扫描“下一个标记预测”不同,它允许自回归(AR)变换器快速学习视觉分布,并且具有良好的泛化能力。VAR首次使得GPT风格的自回归模型在图像生成方面超越了扩散变换器。
在ImageNet 256×256的基准测试中,VAR显著提高了自回归基线的性能,将Fréchet inception distance(FID)从18.65降低到1.73,将inception score(IS)从80.4提高到350.2,同时推理速度提高了20倍。VAR在多个维度上都优于扩散变换器(DiT),包括图像质量、推理速度、数据效率和可扩展性。VAR模型还展现出了类似于大型语言模型(LLMs)的幂律扩展规律,具有接近-0.998的相关系数作为有力证据。VAR进一步展示了在下游任务中的零样本泛化能力,包括图像修复、扩展和编辑。这些结果表明VAR已经初步模仿了LLMs的两个重要属性:扩展规律和零样本泛化。
研究者们不仅在理论和应用上突破了标准图像自回归模型的问题,而且从图像模态内在本质出发,模仿人类处理图像的逻辑顺序,带来视觉生成领域的Scaling Laws。
新加坡国立大学、Sea AI Lab获得最佳论文:
Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators
《随机泰勒导数估计器:任意微分算子的高效摊销》
论文作者:Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
研究机构:新加坡国立大学、 Sea AI Lab
论文原文:https://arxiv.org/abs/2412.00088
本篇论文提出了一种创新的随机泰勒导数估计器(Stochastic Taylor Derivative Estimator, STDE)的算法,旨在高效解决包含高维和高阶微分算子的神经网络优化问题。
传统的反向传播方法在计算这类问题的导数张量时,面临着维度和阶数同时增长的双重挑战,导致计算成本高昂。
为了解决这个问题,论文提出了随机泰勒导数估计器(Stochastic Taylor Derivative Estimator, STDE)方法,它通过利用泰勒模式自动微分(AD)技术,实现了对任意阶微分算子的高效摊销。具体而言,STDE通过构造适当的输入切向量,将单变量泰勒模式应用于多元函数的导数张量收缩,从而实现了对任意阶微分算子的随机估计。
论文进一步展示了STDE在多个方面的优势。首先,STDE具有通用性,可以应用于任意阶和维度的微分算子。其次,STDE解决了维度和阶数增长带来的计算成本问题,实现了高效的摊销。此外,STDE还具有并行化能力,减少了顺序计算的次数,提高了计算效率。
论文通过实验验证了STDE的有效性。STDE在PINNs中的应用能够实现超过1000倍的速度提升和超过30倍的内存减少,使得在单个NVIDIA A100 GPU上解决百万维偏微分方程(PDEs)成为可能。
在物理信息神经网络(PINNs)等应用场景中,STDE相较于基线方法实现了显著的速度提升和内存减少。这一成果为使用高阶微分算子解决大规模问题提供了新的可能性,具有重要的理论和实践意义。
厦门大学、清华大学、微软获得最佳论文亚军:
Not All Tokens Are What You Need for Pretraining
《预训练并非所有训练标记都不可或缺》
论文作者:Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, yelong shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
研究机构:厦门大学、清华大学、微软
论文原文:https://openreview.net/pdf?id=0NMzBwqaAJ
本篇论文提出了一种新的预训练语言模型的方法,即对所有训练标记(tokens)一视同仁地应用损失函数。论文指出,在语料库中,并非所有训练标记(tokens)都对语言模型训练具有同等重要性。
作者通过深入分析标记级别的训练动态,发现了不同标记在训练过程中呈现出独特的损失模式。基于这一洞察,论文提出了一种新的语言模型RHO -1,该模型采用选择性语言建模(Selective Language Modeling, SLM)方法。
选择性语言建模方法的核心在于,它使用一个参考模型对语料库中的每个标记进行评分,然后仅对评分较高的标记进行有针对性的训练。这种方法自然地排除了不相关或低质量的标记,从而提高了训练效率和模型性能。
在OpenWebMath语料库上进行的持续预训练中,RHO-1在数学任务上取得了显著的少样本准确率提升,与基线模型相比,1B和7B模型的准确率分别提高了16%以上。在MATH数据集上微调后,RHO-1-1B和7B模型分别达到了40.6%和51.8%的准确率,与仅使用3%的预训练tokens的DeepSeekMath模型相匹配。
此外,当在80B通用tokens上进行持续预训练时,RHO-1在15个不同任务上平均提升了6.8%,显示出在选择性预训练中识别与目标分布相关的tokens方面的有效性。
本篇论文通过引入选择性语言建模方法SLM,挑战了传统语言模型预训练中的常规做法,并通过实验证明了该方法在提高训练效率和模型性能方面的有效性。这一研究成果对于推动自然语言处理领域的发展具有重要意义。
英伟达、阿尔托大学获得最佳论文亚军:
Guiding a Diffusion Model with a Bad Version of Itself
《用自身的小模型版本引导扩散模型》
论文作者:Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
研究机构:英伟达、阿尔托大学
论文原文:https://arxiv.org/pdf/2406.02507
本篇论文提出了一种新颖的图像生成扩散模型的控制方法,该方法通过使用模型本身的一个较小的、训练较少的版本作为引导模型,来实现对图像质量的独立控制,同时并不牺牲结果的多样性。
论文指出,在图像生成的扩散模型中,主要关注的三个方面是图像质量、结果的变化量以及结果与给定条件(如类别标签或文本提示)的对齐程度。传统的无分类器指导方法(Classifier-Free Guidance, CFG)虽然能同时提高图像质量和与提示的对齐程度,但代价是降低了结果的多样性。这些效应看似内在地纠缠在一起,难以控制。
然而,论文作者观察到一个令人惊讶的现象:通过使用模型本身的一个更小、训练程度更低的版本来引导生成过程,获得对图像质量的独立控制,同时不减少结果的多样性。这种方法在ImageNet数据集上进行了测试,生成上取得了显著改进。结果显示在64×64和512×512分辨率下,使用公开可用的网络,FIDs(Fréchet Inception Distance)分别达到了1.01和1.25,创下了新记录。
这种方法不仅适用于条件扩散模型,还可以显著提高无条件扩散模型的质量。
该论文提出了一种创新的图像生成扩散模型控制方法,通过自引导实现了对图像质量的独立控制,同时保持了结果的多样性,为图像生成技术的发展提供了新的思路。
以上论文摘要如有从学术角度表述不够准确之处,小编还请大家多多谅解!
希望对学业及事业与此相关的各位读者大大们有所助益;也请大家多多提出宝贵意见!
NeurIPS 2024将在年底12月10日至12月15日在温哥华举办。
感兴趣的小伙伴们欢迎关注!