第十二届学习表征国际会议(ICLR2024)已于2024年5月7日至2024年5月11日在奥地利维也纳展览会议中心举行,此次会议共收到了7262篇投稿,总体录用率约为31%,其中spotlights论文的录用率为5%(约有363篇),Oral论文的录用率为1.2%(约有85篇)。会议热点仍然集中在RL、LLM、NN、TS、transformer、diffusion等研究方向。
分析结果来源:https://github.com/SqrtiZhang/openreview_ICRL2024_analysis/blob/master/
时间检验奖 Test of Time
今年是ICLR举办的第 12 个年头!ICLR增加了首届 ICLR 时间考验奖,冠亚军分别为自动编码变分贝叶斯 和 神经网络的有趣特性。
1. Auto-Encoding Variational Bayes
Diederik Kingma, Max Welling
论文链接:https://arxiv.org/abs/1312.6114
概率建模是我们推理世界的最基本方式之一。本文率先将深度学习与可扩展概率推理(通过所谓的重新参数化技巧进行摊销平均场变分推理)相结合,从而产生了变分自动编码器(VAE)。这件作品的持久价值源于其优雅。用于开发 VAE 的原理加深了我们对深度学习和概率建模之间相互作用的理解,并引发了许多后续有趣的概率模型和编码方法的开发。Rezende 等人同时进行的工作。在 ICML 2014 发表的题为“Stochastic Backpropagation and Approximate Inference in Deep Generative Models”的论文中也提出了类似的想法。
2.Intriguing properties of neural networks
Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus
论文链接 https://arxiv.org/abs/1312.6199
随着深度神经网络在实际应用中的日益普及,了解神经网络何时以及如何表现出不良行为非常重要。本文强调了这样一个问题:神经网络可能容易受到输入的几乎难以察觉的微小变化的影响。这个想法催生了对抗性攻击(试图愚弄神经网络)和对抗性防御(训练神经网络不被愚弄)领域。
最佳论文奖
ICLR 2024 共有 5 篇优秀论文获得者和 11 篇荣誉奖。下面列举了这5篇优秀论文。
1. Generalization in diffusion models arises from geometry-adaptive harmonic representations
扩散模型的泛化源于几何自适应调和表示
Zahra Kadkhodaie、Florentin Guth、Eero P Simoncelli、Stéphane Mallat
论文链接:https://openreview.net/forum?id=ANvmVS2Yr0
本文对图像扩散模型的泛化和记忆方面进行了重要的深入分析。作者根据经验研究了图像生成模型何时从记忆输入切换到泛化机制,并通过“几何自适应谐波表示”与谐波分析的思想相联系,进一步从架构归纳偏差方面解释了这种现象。。这篇论文涵盖了我们对视觉生成模型的理解中缺失的一个关键部分,并且可能会激发该领域未来的重要理论工作。
2. Learning Interactive Real-World Simulators
学习交互式现实世界模拟器
Sherry Yang、Yilun Du、Seyed Kamyar Seyed Ghasemipour、Jonathan Tompson、Leslie Pack Kaelbling、Dale Schuurmans、Pieter Abbeel
论文链接:https://openreview.net/forum?id=sFyTZEqmUY
聚合多个来源的数据来训练机器人基础模型是一个长期雄心勃勃的目标。由于不同的机器人具有不同的感觉运动接口,这阻碍了大规模数据集的训练,因此带来了重大挑战。UniSim 的这项工作是朝着这个方向迈出的重要一步,也是一项工程壮举,它使用基于视觉感知和控件文本描述的统一界面来聚合数据,并利用视觉和语言领域的最新发展从数据中训练机器人模拟器。
3. Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors
不要从头开始训练:长序列模型的公平比较需要数据驱动的先验
Ido Amos、Jonathan Berant、Ankit Gupta
论文链接:https://openreview.net/forum?id=PdaPky8MUn
本文深入了解最近提出的状态空间模型和变压器架构对长期顺序依赖关系进行建模的能力。令人惊讶的是,作者发现从头开始训练 Transformer 模型会导致对其性能的低估,并证明通过预训练和微调设置可以实现巨大的收益。这篇论文的执行非常出色,在注重简单性和系统性见解方面堪称典范。
4. Protein Discovery with Discrete Walk-Jump Sampling
通过离散步跳采样发现蛋白质
Nathan C. Frey, Dan Berenberg, Karina Zadorozhny, Joseph Kleinhenz, Julien Lafrance-Vanasse, Isidro Hotzel, Yan Wu, Stephen Ra, Richard Bonneau, Kyunghyun Cho, Andreas Loukas, Vladimir Gligorijevic, Saeed Saremi
论文链接:https://openreview.net/forum?id=zMPHKOmQNb
本文解决了基于序列的抗体设计问题,这是蛋白质序列生成模型的及时而重要的应用。为此,作者引入了一种创新且有效的新建模方法,专门针对处理离散蛋白质序列数据的问题而定制。除了在计算机上验证该方法之外,作者还进行了广泛的湿实验室实验来测量体外抗体结合亲和力,证明了其生成方法的有效性。
5. Vision Transformers Need Registers
视觉Transformers需要注册
Timothée Darcet、Maxime Oquab、Julien Mairal、Piotr Bojanowski
论文链接:https://openreview.net/forum?id=2dnO3LLiJ1
本文识别了视觉Transformers网络特征图中的伪影,其特征是低信息背景区域中的高范数标记。作者提供了关于为什么会发生这种情况的关键假设,并提供了一个简单而优雅的解决方案来使用额外的寄存器token来解决这些工件,从而增强模型在各种任务上的性能。从这项工作中获得的见解也可以影响其他应用领域。这篇论文写得非常好,提供了一个很好的研究示例——识别问题,理解问题发生的原因,然后提供解决方案。
多模态融合论文汇总
我们汇总了本次会议与multi-modal fusion相关的文献及PDF链接,供大家参考学习。
1. Deep Equilibrium Multimodal Fusion
论文地址:https://openreview.net/pdf?id=bZMyHBSnEI
2. Fusion is Not Enough: Single Modal Attack on Fusion Models for 3D Object Detection
论文地址;https://openreview.net/pdf?id=3VD4PNEt5q
3. Transformer Fusion with Optimal Transport
论文地址:https://openreview.net/pdf?id=LjeqMvQpen
4. Parameter-Efficient Multi-Task Model Fusion with Partial Linearizeation
论文地址:https://openreview.net/pdf?id=iynRvVVAmH
5. Jointly Training Large Autoregressive Multimodal Models
论文地址:https://openreview.net/pdf?id=5jcav5RcKw
6. Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation
论文地址:https://openreview.net/pdf?id=XTwwtlEfTF
7. FusionViT: Hierarchical 3D Object Detection via Lidar-Camera Vision Transformer Fusion
论文地址:https://openreview.net/pdf?id=sGd02fkoAE
8. Multimodal Patient Representation Learning with Missing Modalities and Labels
论文地址:https://openreview.net/pdf?id=Je5SHCKpPa
9. CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?
论文地址:https://openreview.net/pdf?id=FIGXAxr9E4
10. Optimal and Generalizable Multimodal Representation Learning Framework through Adaptive Graph Construction
论文地址:https://openreview.net/pdf?id=e9YuyOaJbc
11. Simultaneous Dimensionality Reduction: A Data Efficient Approach for Multimodal Representations Learning
论文地址:https://openreview.net/pdf?id=4SrzKsJocx
12. IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks
论文地址:https://openreview.net/pdf?id=eJFt8ZRQ9a
NEXT
在人工智能时代,单一模态已无法满足复杂任务的需求,多模态大语言模型,将视觉、语音、文本等多种模态的数据融合,推动了AI应用的全新突破。AI领域各大顶会的热点、热词也充分说明这将是未来研究的一大趋势。那么我们该从哪里入手学习多模态大语言模型呢?别担心,中科院告诉你!无论你是AI从业者、研究人员,还是对前沿技术感兴趣的爱好者,中国科学院人才交流开发中心发布最新通知,举办第六期“人工智能赋能科研教学实践与企事业单位效能提升”高级研修班,将带你深入探索多模态大语言模型的核心原理与实战应用,解锁跨模态交互的无限潜力,助力你的AI技能迈向新高度!
线下:2024年9月26日-28日(25日全天报到)武汉市(详细信息报名后另行通知)
线上:网上同步直播(25日发放直播接收码和链接)
长按扫码
您的专属老师会与您联系提供详细咨询
本次培训由中国科学院人才交流开发中心主办。
收费标准:线下现场参训2980元/人(含:培训费、资料、茶歇等),住宿统一安排,费用自理;
长按扫码
您的专属老师会与您联系提供详细咨询
点个 在看 你最好看