前沿论文分享20240611

文摘 2024-06-11 23:38 湖北

今天的论文分享了多模态CoT（Chain-of-Thought）框架、驾驶世界模型Vista和联邦学习。

快来和小编一起学习吧！

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

arXiv2024

论文介绍了一个名为Cantor的多模态CoT（Chain-of-Thought）框架，旨在提升多模态大型语言模型（MLLMs）在视觉推理任务中的表现。Cantor通过集成视觉输入和问题上下文进行决策生成，并利用MLLMs的高级认知功能来获取高层次信息，从而增强CoT生成过程。该框架在两个复杂的视觉推理数据集上进行了广泛的实验，证明了其有效性，无需微调即可显著提高多模态CoT性能。

论文链接

https://arxiv.org/pdf/2404.16033v1

Pipeline

Cantor通过决策生成器对图像及问题进行分析，给出问题的原理分析，并提供模块选择与推理，以及具体任务分配。随后，MLLM充当各种专家模块执行子任务。最后，Cantor通过答案生成器进行综合思考，给出最终答案。

Experiments

将Cantor与各种基线模型（包括监督模型和无监督模型）进行了比较，在ScienceQA和MathVista子集上的实验结果证明了其有效性，无需微调即可显著提高多模态CoT性能。

Vista: A Generalizable Driving World Model with High

Fidelity and Versatile Controllability

arXiv2024

现有的驾驶世界模型在泛化到未见环境、关键细节的预测保真度以及灵活应用的动作可控性方面仍存在局限性。为了在高分辨率下准确预测现实世界的动态，本文提出了两种新的损失函数，以促进对移动实例和结构信息的学习。此外，本文还设计了一种有效的潜在替换（latent replacement）方法，将历史帧作为先验，以实现连贯的长时间滚动预测（rollouts）。在动作可控性（action controllability）方面，本文通过LoRA微调，结合了从高层指令（命令、目标点）到低层指令（轨迹、角度和速度）的一套多功能控制。在大规模训练之后，Vista的能力可以泛化到不同的场景，FID和FVD指标均优于以前的world model方法。此外，本文利用世界模型的能力，在不访问真实动作的情况下，建立了一个通用的奖励机制，用于真实世界动作评估。

论文链接

https://arxiv.org/pdf/2405.17398v2

Pipeline

[左]：Vista 模型pipeline。除了初始帧之外，Vista 还可以通过潜在替换吸收更多关于未来动态的先验信息。其预测可以通过不同的动作来控制，并通过自回归展开扩展到长期范围。

[右]：训练过程。Vista 需要两个训练阶段，其中第二阶段冻结预训练权重以学习动作控制。

Experiments

为了准确预测现实世界的动态，本文提出了两种新的损失函数。鉴于未来预测的因果关系，即后续帧应该遵循前一帧，通过惩罚每个相邻帧对的后一帧来定义新的损失L_dynamics。为了利用提取的高频特征，设计了一个新的结构保留损失：L_structure。

在nuScenes 验证集上的预测保真度比较。Vista 的性能显著提升，超越了最先进的driving world模型。

Model-Contrastive Federated Learning

CVPR2021

联邦学习使多方能够协作训练机器学习模型，而无需传达其本地数据。联邦学习的一个关键挑战是处理跨方本地数据分布的异质性。尽管已经提出了许多研究来应对这一挑战，但发现它们未能在具有深度学习模型的图像数据集中实现高性能。本文提出了MOON：model-contrastive federated learning。MOON 是一个简单有效的联邦学习框架。MOON的核心思想是利用模型表示之间的相似性来纠正个体方的局部训练，即在模型水平上进行对比学习。我们广泛的实验表明，MOON在各种图像分类任务上明显优于其他最先进的联邦学习算法。

论文链接

https://arxiv.org/pdf/2103.16257

Framework

FedAvg，即联邦平均（Federated Averaging），关键在于上传训练得到的模型参数，但不上传数据。本文主要关注本地训练阶段（2）更新模型参数

MOON 和其他基线在测试集上的top-1准确率对比，实验结果证明了MOON的有效性。

写作借鉴

1.Cantor论文逻辑联系紧密，分析现有COT框架缺点，设计相应的Cantor模块解决问题，大量的实例也有助于读者了解其框架。

2.Vista论文阐述motivation的时候用图文、表格加以说明，方便读者清晰比较出论文方法的优势。

3.在联邦学习过程中，客户机和中央模型要频繁地交换数据，因此通信开销很重要；在客户机聚合数据到中央模型过程中，如何保证学习到的数据具有总体性，不会失于偏颇、过于片面，这个也很重要。

The End

VLRLab

分享者：魏莱周鑫赵京伟

编辑：罗琪頔

审核：伏凌

免责声明：

（1）本文仅代表论文分享者观点，分享者不是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。

（2）本文观点不代表本公众号立场

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉