NeurIPS 2024最佳论文！

科技 2024-12-04 20:23 北京

文丨寄语

人工智能顶会NeurIPS——

公布了年度最佳论文！

北京大学、字节跳动研究人员，厦门大学、清华大学、微软研究者榜上有名！

让我们分别来看看NeurIPS 2024最佳论文都有哪些新成果？‍‍‍‍

视觉自回归建模优化

北大、字节跳动获得最佳论文：‍

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

《视觉自回归建模：通过下一尺度预测实现可扩展图像生成》

论文作者：Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
研究机构：北京大学、字节跳动
论文原文：https://arxiv.org/pdf/2404.02905

本篇论文介绍了一种名为视觉自回归建模（Visual Autoregressive modeling, VAR）的新型图像生成范式，它将自回归学习在图像上的应用从标准的逐像素预测转变为粗到细的“下一尺度预测”或“下一分辨率预测”。

这种方法与传统的光栅扫描“下一个标记预测”不同，它允许自回归（AR）变换器快速学习视觉分布，并且具有良好的泛化能力。VAR首次使得GPT风格的自回归模型在图像生成方面超越了扩散变换器。

在ImageNet 256×256的基准测试中，VAR显著提高了自回归基线的性能，将Fréchet inception distance（FID）从18.65降低到1.73，将inception score（IS）从80.4提高到350.2，同时推理速度提高了20倍。VAR在多个维度上都优于扩散变换器（DiT），包括图像质量、推理速度、数据效率和可扩展性。VAR模型还展现出了类似于大型语言模型（LLMs）的幂律扩展规律，具有接近-0.998的相关系数作为有力证据。VAR进一步展示了在下游任务中的零样本泛化能力，包括图像修复、扩展和编辑。这些结果表明VAR已经初步模仿了LLMs的两个重要属性：扩展规律和零样本泛化。

研究者们不仅在理论和应用上突破了标准图像自回归模型的问题，而且从图像模态内在本质出发，模仿人类处理图像的逻辑顺序，带来视觉生成领域的Scaling Laws。

高阶微分算子神经网络优化

新加坡国立大学、Sea AI Lab获得最佳论文：

Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators

《随机泰勒导数估计器：任意微分算子的高效摊销》

论文作者：Zekun Shi, Zheyuan Hu, Min Lin, Kenji Kawaguchi
研究机构：新加坡国立大学、 Sea AI Lab
论文原文：https://arxiv.org/abs/2412.00088

本篇论文提出了一种创新的随机泰勒导数估计器（Stochastic Taylor Derivative Estimator, STDE）的算法，旨在高效解决包含高维和高阶微分算子的神经网络优化问题。

传统的反向传播方法在计算这类问题的导数张量时，面临着维度和阶数同时增长的双重挑战，导致计算成本高昂。

为了解决这个问题，论文提出了随机泰勒导数估计器（Stochastic Taylor Derivative Estimator, STDE）方法，它通过利用泰勒模式自动微分（AD）技术，实现了对任意阶微分算子的高效摊销。具体而言，STDE通过构造适当的输入切向量，将单变量泰勒模式应用于多元函数的导数张量收缩，从而实现了对任意阶微分算子的随机估计。

论文进一步展示了STDE在多个方面的优势。首先，STDE具有通用性，可以应用于任意阶和维度的微分算子。其次，STDE解决了维度和阶数增长带来的计算成本问题，实现了高效的摊销。此外，STDE还具有并行化能力，减少了顺序计算的次数，提高了计算效率。

论文通过实验验证了STDE的有效性。STDE在PINNs中的应用能够实现超过1000倍的速度提升和超过30倍的内存减少，使得在单个NVIDIA A100 GPU上解决百万维偏微分方程（PDEs）成为可能。

在物理信息神经网络（PINNs）等应用场景中，STDE相较于基线方法实现了显著的速度提升和内存减少。这一成果为使用高阶微分算子解决大规模问题提供了新的可能性，具有重要的理论和实践意义。

选择性语言建模新方法

厦门大学、清华大学、微软获得最佳论文亚军：

Not All Tokens Are What You Need for Pretraining

《预训练并非所有训练标记都不可或缺》

论文作者：Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, yelong shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen
研究机构：厦门大学、清华大学、微软
论文原文：https://openreview.net/pdf?id=0NMzBwqaAJ

本篇论文提出了一种新的预训练语言模型的方法，即对所有训练标记（tokens）一视同仁地应用损失函数。论文指出，在语料库中，并非所有训练标记（tokens）都对语言模型训练具有同等重要性。

作者通过深入分析标记级别的训练动态，发现了不同标记在训练过程中呈现出独特的损失模式。基于这一洞察，论文提出了一种新的语言模型RHO -1，该模型采用选择性语言建模（Selective Language Modeling, SLM）方法。

选择性语言建模方法的核心在于，它使用一个参考模型对语料库中的每个标记进行评分，然后仅对评分较高的标记进行有针对性的训练。这种方法自然地排除了不相关或低质量的标记，从而提高了训练效率和模型性能。

在OpenWebMath语料库上进行的持续预训练中，RHO-1在数学任务上取得了显著的少样本准确率提升，与基线模型相比，1B和7B模型的准确率分别提高了16%以上。在MATH数据集上微调后，RHO-1-1B和7B模型分别达到了40.6%和51.8%的准确率，与仅使用3%的预训练tokens的DeepSeekMath模型相匹配。

此外，当在80B通用tokens上进行持续预训练时，RHO-1在15个不同任务上平均提升了6.8%，显示出在选择性预训练中识别与目标分布相关的tokens方面的有效性。

本篇论文通过引入选择性语言建模方法SLM，挑战了传统语言模型预训练中的常规做法，并通过实验证明了该方法在提高训练效率和模型性能方面的有效性。这一研究成果对于推动自然语言处理领域的发展具有重要意义。

小模型版本引导高质量多变图像

英伟达、阿尔托大学获得最佳论文亚军：

Guiding a Diffusion Model with a Bad Version of Itself

《用自身的小模型版本引导扩散模型》

论文作者：Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
研究机构：英伟达、阿尔托大学
论文原文：https://arxiv.org/pdf/2406.02507

本篇论文提出了一种新颖的图像生成扩散模型的控制方法，该方法通过使用模型本身的一个较小的、训练较少的版本作为引导模型，来实现对图像质量的独立控制，同时并不牺牲结果的多样性。

论文指出，在图像生成的扩散模型中，主要关注的三个方面是图像质量、结果的变化量以及结果与给定条件（如类别标签或文本提示）的对齐程度。传统的无分类器指导方法（Classifier-Free Guidance, CFG）虽然能同时提高图像质量和与提示的对齐程度，但代价是降低了结果的多样性。这些效应看似内在地纠缠在一起，难以控制。

然而，论文作者观察到一个令人惊讶的现象：通过使用模型本身的一个更小、训练程度更低的版本来引导生成过程，获得对图像质量的独立控制，同时不减少结果的多样性。这种方法在ImageNet数据集上进行了测试，生成上取得了显著改进。结果显示在64×64和512×512分辨率下，使用公开可用的网络，FIDs（Fréchet Inception Distance）分别达到了1.01和1.25，创下了新记录。

这种方法不仅适用于条件扩散模型，还可以显著提高无条件扩散模型的质量。

该论文提出了一种创新的图像生成扩散模型控制方法，通过自引导实现了对图像质量的独立控制，同时保持了结果的多样性，为图像生成技术的发展提供了新的思路。

以上论文摘要如有从学术角度表述不够准确之处，小编还请大家多多谅解！

希望对学业及事业与此相关的各位读者大大们有所助益；也请大家多多提出宝贵意见！‍‍‍‍‍‍‍

NeurIPS 2024将在年底12月10日至12月15日在温哥华举办。

感兴趣的小伙伴们欢迎关注！

如果您有什么想说的，欢迎在评论区留言讨论！

投稿或寻求报道，欢迎私信“投稿”，添加编辑微信。

如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会！

欢迎扫描下方二维码，添加头部科技创始人、AI头号玩家俱乐部主理人晶总微信！

头部科技

头部科技是技术新世界的记录者、探索者和推动者。我们致力于普及细分场景的科技解决方案，打造科技和人才创新知识图谱。无论你身处技术公司或传统行业，在这里都可以找到智能化、数字化升级的案例和伙伴。在无限的时空中，和你共同探索科技原力是我们的荣光。

最新文章

CES 2025前瞻：AI无处不在

硬碰硬开局！28家美国实体被列入管制管控名单，1600亿基金再砸硬科技！

惊呆网友！微软论文意外“泄密”OpenAI模型参数引热议，GPT-4o mini仅8B？

WAIC创投生态 | 2025 Future Tech项目路演1月9日名单出炉！

一年亏10亿股价反涨406.45%！国产AI芯片的春天要来了？

OpenAI彻底蜕变！摆脱“非营利”标签束缚或为IPO铺路

2025中关村智能网联汽车创新发展论坛震撼来袭

国产之光刷屏AI圈！DeepSeek-V3成当前最强开源大模型

传ChatGPT将拥有全新“无限”记忆功能？！OpenAI的一篇帖子引热议

2025中关村智能网联汽车创新发展论坛即将开幕！

三分之二产品在用中国芯？美国又针对中国传统芯片下手了

3年半亏损2.5亿，“协作机器人第一股”难当第一

红杉：AI为赚钱发愁搜索成为热点

人才流失！OpenAI资深研究员、初代GPT缔造者Alec Radford离职

涉及20+实验室，打磨2年！华人小伙儿领衔的开源生成式物理引擎Genesis令人惊叹！

国家电网发布国内首个千亿级多模态电力行业大模型

量子计算哪家强？潘建伟、朱晓波等科学家公布“祖冲之3.0”处理器进展对阵谷歌Willow

不服就干！谷歌重磅新品三连发反击OpenAI玩ChatGPT搜索

月付2000美元！OpenAI CFO称博士级AI要来了，能“替代”人类雇员

新能源+数智化浪潮下，信息通信创新如何改变电力行业？

OpenAI长文爆料反击马斯克诉讼：“你不能通过诉讼获得AGI”

不甘示弱！微软祭出小型语言模型Phi-4，在数学竞赛上超过GPT-4o和Gemini1.5

12月20日，上海见｜梧桐荟 “产·投·研”沙龙第6期——芯片级散热技术发展应用与投资机会

Sora试用报告：错误不少，一起找茬

黄仁勋：扫过最多厕所的CEO

“Open AI 12天”上新第4弹：Canvas协作工具正式开放，但实际并没想象中那么好？

刚刚，OpenAI Sora来啦！AI视频新纪元已开启

杨植麟响应仲裁风波，起底人性月之暗面

每月200美金订阅，OpenAI 「十二夜」圈钱忙

大厂小厂肉搏，中国大模型进入淘汰赛

NeurIPS 2024最佳论文！

一图一世界，一飞一菩提

ChatGPT问世2年，我们的世界哪里变了

智能体，大模型进化下一站

从Neuralink开始美国脑机接口研究迎来春天

绿色氢能，零碳飞行

亚马逊向英伟达芯片发起冲锋

AI将进化超级智能，还是逐步崩坏？

为什么能源需要AI？ | 2024能源人工智能创新发展大会圆满举办

AI广告，正在不完美中开创新时代

北京今年最大一笔融资诞生，国产半导体乘风而起

储能沙龙 | 新质生产力与储能行业协同发展及投资机遇沙龙成功举办

蘑菇车联新突破：路侧数据上车，赋能多品牌车辆

具身大模型，国内最大融资诞生

Scaling Law遇阻，AI 性能或难再有大提升

共谋AI未来发展，2024 AI创新应用发展交流会成功举办

AI的尽头，是能源

活动预告 | 梧桐荟 “产·投·研”沙龙第5期——储能产业专场

120亿独角兽，自主工业品牌变身

电力领域出了一个国际级领先技术

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉