ICLR2024多模态融合论文汇总！时间检验奖和最佳论文奖汇总！

文摘 2024-09-21 17:34 英国

第十二届学习表征国际会议（ICLR2024）已于2024年5月7日至2024年5月11日在奥地利维也纳展览会议中心举行，此次会议共收到了7262篇投稿，总体录用率约为31%，其中spotlights论文的录用率为5%（约有363篇），Oral论文的录用率为1.2%（约有85篇）。会议热点仍然集中在RL、LLM、NN、TS、transformer、diffusion等研究方向。

分析结果来源：https://github.com/SqrtiZhang/openreview_ICRL2024_analysis/blob/master/

unsetunset时间检验奖 Test of Timeunsetunset

今年是ICLR举办的第 12 个年头！ICLR增加了首届 ICLR 时间考验奖，冠亚军分别为自动编码变分贝叶斯和神经网络的有趣特性。

1. Auto-Encoding Variational Bayes

Diederik Kingma, Max Welling

论文链接：https://arxiv.org/abs/1312.6114

概率建模是我们推理世界的最基本方式之一。本文率先将深度学习与可扩展概率推理（通过所谓的重新参数化技巧进行摊销平均场变分推理）相结合，从而产生了变分自动编码器（VAE）。这件作品的持久价值源于其优雅。用于开发 VAE 的原理加深了我们对深度学习和概率建模之间相互作用的理解，并引发了许多后续有趣的概率模型和编码方法的开发。Rezende 等人同时进行的工作。在 ICML 2014 发表的题为“Stochastic Backpropagation and Approximate Inference in Deep Generative Models”的论文中也提出了类似的想法。

2.Intriguing properties of neural networks

Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus

论文链接 https://arxiv.org/abs/1312.6199

随着深度神经网络在实际应用中的日益普及，了解神经网络何时以及如何表现出不良行为非常重要。本文强调了这样一个问题：神经网络可能容易受到输入的几乎难以察觉的微小变化的影响。这个想法催生了对抗性攻击（试图愚弄神经网络）和对抗性防御（训练神经网络不被愚弄）领域。

unsetunset最佳论文奖unsetunset

ICLR 2024 共有 5 篇优秀论文获得者和 11 篇荣誉奖。下面列举了这5篇优秀论文。

1. Generalization in diffusion models arises from geometry-adaptive harmonic representations

扩散模型的泛化源于几何自适应调和表示

Zahra Kadkhodaie、Florentin Guth、Eero P Simoncelli、Stéphane Mallat

论文链接：https://openreview.net/forum?id=ANvmVS2Yr0

本文对图像扩散模型的泛化和记忆方面进行了重要的深入分析。作者根据经验研究了图像生成模型何时从记忆输入切换到泛化机制，并通过“几何自适应谐波表示”与谐波分析的思想相联系，进一步从架构归纳偏差方面解释了这种现象。。这篇论文涵盖了我们对视觉生成模型的理解中缺失的一个关键部分，并且可能会激发该领域未来的重要理论工作。

2. Learning Interactive Real-World Simulators

学习交互式现实世界模拟器

Sherry Yang、Yilun Du、Seyed Kamyar Seyed Ghasemipour、Jonathan Tompson、Leslie Pack Kaelbling、Dale Schuurmans、Pieter Abbeel

论文链接：https://openreview.net/forum?id=sFyTZEqmUY

聚合多个来源的数据来训练机器人基础模型是一个长期雄心勃勃的目标。由于不同的机器人具有不同的感觉运动接口，这阻碍了大规模数据集的训练，因此带来了重大挑战。UniSim 的这项工作是朝着这个方向迈出的重要一步，也是一项工程壮举，它使用基于视觉感知和控件文本描述的统一界面来聚合数据，并利用视觉和语言领域的最新发展从数据中训练机器人模拟器。

3. Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

不要从头开始训练：长序列模型的公平比较需要数据驱动的先验

Ido Amos、Jonathan Berant、Ankit Gupta

论文链接：https://openreview.net/forum?id=PdaPky8MUn

本文深入了解最近提出的状态空间模型和变压器架构对长期顺序依赖关系进行建模的能力。令人惊讶的是，作者发现从头开始训练 Transformer 模型会导致对其性能的低估，并证明通过预训练和微调设置可以实现巨大的收益。这篇论文的执行非常出色，在注重简单性和系统性见解方面堪称典范。

4. Protein Discovery with Discrete Walk-Jump Sampling

通过离散步跳采样发现蛋白质

Nathan C. Frey, Dan Berenberg, Karina Zadorozhny, Joseph Kleinhenz, Julien Lafrance-Vanasse, Isidro Hotzel, Yan Wu, Stephen Ra, Richard Bonneau, Kyunghyun Cho, Andreas Loukas, Vladimir Gligorijevic, Saeed Saremi

论文链接：https://openreview.net/forum?id=zMPHKOmQNb

本文解决了基于序列的抗体设计问题，这是蛋白质序列生成模型的及时而重要的应用。为此，作者引入了一种创新且有效的新建模方法，专门针对处理离散蛋白质序列数据的问题而定制。除了在计算机上验证该方法之外，作者还进行了广泛的湿实验室实验来测量体外抗体结合亲和力，证明了其生成方法的有效性。

5. Vision Transformers Need Registers

视觉Transformers需要注册

Timothée Darcet、Maxime Oquab、Julien Mairal、Piotr Bojanowski

论文链接：https://openreview.net/forum?id=2dnO3LLiJ1

本文识别了视觉Transformers网络特征图中的伪影，其特征是低信息背景区域中的高范数标记。作者提供了关于为什么会发生这种情况的关键假设，并提供了一个简单而优雅的解决方案来使用额外的寄存器token来解决这些工件，从而增强模型在各种任务上的性能。从这项工作中获得的见解也可以影响其他应用领域。这篇论文写得非常好，提供了一个很好的研究示例——识别问题，理解问题发生的原因，然后提供解决方案。

unsetunset多模态融合论文汇总unsetunset

我们汇总了本次会议与multi-modal fusion相关的文献及PDF链接，供大家参考学习。

1. Deep Equilibrium Multimodal Fusion

论文地址：https://openreview.net/pdf?id=bZMyHBSnEI

2. Fusion is Not Enough: Single Modal Attack on Fusion Models for 3D Object Detection

论文地址；https://openreview.net/pdf?id=3VD4PNEt5q

3. Transformer Fusion with Optimal Transport

论文地址：https://openreview.net/pdf?id=LjeqMvQpen

4. Parameter-Efficient Multi-Task Model Fusion with Partial Linearizeation

论文地址：https://openreview.net/pdf?id=iynRvVVAmH

5. Jointly Training Large Autoregressive Multimodal Models

论文地址：https://openreview.net/pdf?id=5jcav5RcKw

6. Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation

论文地址：https://openreview.net/pdf?id=XTwwtlEfTF

7. FusionViT: Hierarchical 3D Object Detection via Lidar-Camera Vision Transformer Fusion

论文地址：https://openreview.net/pdf?id=sGd02fkoAE

8. Multimodal Patient Representation Learning with Missing Modalities and Labels

论文地址：https://openreview.net/pdf?id=Je5SHCKpPa

9. CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?

论文地址：https://openreview.net/pdf?id=FIGXAxr9E4

10. Optimal and Generalizable Multimodal Representation Learning Framework through Adaptive Graph Construction

论文地址：https://openreview.net/pdf?id=e9YuyOaJbc

11. Simultaneous Dimensionality Reduction: A Data Efficient Approach for Multimodal Representations Learning

论文地址：https://openreview.net/pdf?id=4SrzKsJocx

12. IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks

论文地址：https://openreview.net/pdf?id=eJFt8ZRQ9a

在人工智能时代，单一模态已无法满足复杂任务的需求，多模态大语言模型，将视觉、语音、文本等多种模态的数据融合，推动了AI应用的全新突破。AI领域各大顶会的热点、热词也充分说明这将是未来研究的一大趋势。那么我们该从哪里入手学习多模态大语言模型呢？别担心，中科院告诉你！无论你是AI从业者、研究人员，还是对前沿技术感兴趣的爱好者，中国科学院人才交流开发中心发布最新通知，举办第六期“人工智能赋能科研教学实践与企事业单位效能提升”高级研修班，将带你深入探索多模态大语言模型的核心原理与实战应用，解锁跨模态交互的无限潜力，助力你的AI技能迈向新高度！

一.主题、内容

二.参加人员

参加人员：大学老师、高校学科带头人、高职高专教师、中小学教研室负责人，科研院所研究人员，企业单位的业务骨干、管理人员等。

三.授课专家

四.时间、地点及咨询方式

线下：2024年9月26日-28日(25日全天报到)武汉市(详细信息报名后另行通知)

线上：网上同步直播(25日发放直播接收码和链接)

长按扫码

您的专属老师会与您联系提供详细咨询

五.培训费用

本次培训由中国科学院人才交流开发中心主办。

收费标准：线下现场参训2980元/人(含：培训费、资料、茶歇等),住宿统一安排，费用自理；

线上直播培训：5400元/单位(含三人名额的直播码、三张结业证书)。

收款账户和联系方式请见附件。

长按扫码

您的专属老师会与您联系提供详细咨询

点个在看你最好看

http://mp.weixin.qq.com/s?__biz=MzkxNzY2NDA1OQ==&mid=2247486918&idx=1&sn=0ee7383a19ac8b1fa4597b7d1f155aa7

多模态机器学习与大模型

多模态机器学习与大模型致力于推荐、分享、解读多模态机器学习相关的前沿论文成果，讨论大语言模型先进技术，助力AI研究者进步。合作交流请+V：Multimodal2024，谢谢❤️

一文彻底搞懂多模态 - 多模态推理

大模型经典著作《大语言模型基础与前沿》

NeurIPS 2024|耦合Mamba：通过耦合状态空间模型增强多模态融合

腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

一文彻底搞懂多模态 - 多模态学习

ICCV 2023｜CleanCLIP重磅登场！消除多模态对比学习中的数据中毒攻击

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉