今天的论文分享了多模态CoT(Chain-of-Thought)框架、驾驶世界模型Vista和联邦学习。
快来和小编一起学习吧!
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM
arXiv2024
论文介绍了一个名为Cantor的多模态CoT(Chain-of-Thought)框架,旨在提升多模态大型语言模型(MLLMs)在视觉推理任务中的表现。Cantor通过集成视觉输入和问题上下文进行决策生成,并利用MLLMs的高级认知功能来获取高层次信息,从而增强CoT生成过程。该框架在两个复杂的视觉推理数据集上进行了广泛的实验,证明了其有效性,无需微调即可显著提高多模态CoT性能。
论文链接
https://arxiv.org/pdf/2404.16033v1
Pipeline
Cantor通过决策生成器对图像及问题进行分析,给出问题的原理分析,并提供模块选择与推理,以及具体任务分配。随后,MLLM充当各种专家模块执行子任务。最后,Cantor通过答案生成器进行综合思考,给出最终答案。
Experiments
将Cantor与各种基线模型(包括监督模型和无监督模型)进行了比较,在ScienceQA和MathVista子集上的实验结果证明了其有效性,无需微调即可显著提高多模态CoT性能。
Vista: A Generalizable Driving World Model with High
Fidelity and Versatile Controllability
arXiv2024
现有的驾驶世界模型在泛化到未见环境、关键细节的预测保真度以及灵活应用的动作可控性方面仍存在局限性。为了在高分辨率下准确预测现实世界的动态,本文提出了两种新的损失函数,以促进对移动实例和结构信息的学习。此外,本文还设计了一种有效的潜在替换(latent replacement)方法,将历史帧作为先验,以实现连贯的长时间滚动预测(rollouts)。在动作可控性(action controllability)方面,本文通过LoRA微调,结合了从高层指令(命令、目标点)到低层指令(轨迹、角度和速度)的一套多功能控制。在大规模训练之后,Vista的能力可以泛化到不同的场景,FID和FVD指标均优于以前的world model方法。此外,本文利用世界模型的能力,在不访问真实动作的情况下,建立了一个通用的奖励机制,用于真实世界动作评估。
论文链接
https://arxiv.org/pdf/2405.17398v2
Pipeline
[左]:Vista 模型pipeline。除了初始帧之外,Vista 还可以通过潜在替换吸收更多关于未来动态的先验信息。其预测可以通过不同的动作来控制,并通过自回归展开扩展到长期范围。
[右]:训练过程。Vista 需要两个训练阶段,其中第二阶段冻结预训练权重以学习动作控制。
Experiments
为了准确预测现实世界的动态,本文提出了两种新的损失函数。鉴于未来预测的因果关系,即后续帧应该遵循前一帧,通过惩罚每个相邻帧对的后一帧来定义新的损失L_dynamics。为了利用提取的高频特征,设计了一个新的结构保留损失:L_structure。
在nuScenes 验证集上的预测保真度比较。Vista 的性能显著提升,超越了最先进的driving world模型。
Model-Contrastive Federated Learning
CVPR2021
联邦学习使多方能够协作训练机器学习模型,而无需传达其本地数据。联邦学习的一个关键挑战是处理跨方本地数据分布的异质性。尽管已经提出了许多研究来应对这一挑战,但发现它们未能在具有深度学习模型的图像数据集中实现高性能。本文提出了MOON:model-contrastive federated learning。MOON 是一个简单有效的联邦学习框架。MOON的核心思想是利用模型表示之间的相似性来纠正个体方的局部训练,即在模型水平上进行对比学习。我们广泛的实验表明,MOON在各种图像分类任务上明显优于其他最先进的联邦学习算法。
论文链接
https://arxiv.org/pdf/2103.16257
Framework
FedAvg,即联邦平均(Federated Averaging),关键在于上传训练得到的模型参数,但不上传数据。本文主要关注本地训练阶段(2)更新模型参数
MOON 和其他基线在测试集上的top-1准确率对比,实验结果证明了MOON的有效性。
写作借鉴
1.Cantor论文逻辑联系紧密,分析现有COT框架缺点,设计相应的Cantor模块解决问题,大量的实例也有助于读者了解其框架。
2.Vista论文阐述motivation的时候用图文、表格加以说明,方便读者清晰比较出论文方法的优势。
3.在联邦学习过程中,客户机和中央模型要频繁地交换数据,因此通信开销很重要;在客户机聚合数据到中央模型过程中,如何保证学习到的数据具有总体性,不会失于偏颇、过于片面,这个也很重要。
The End
VLRLab
分享者:魏莱 周鑫 赵京伟
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场