国科大提出Math-PUMA,一种三阶段的专注于渐进向上的多模态对齐方法。

文摘   2024-09-12 21:59   湖北  

    今天的论文分享了多模态对齐方法Math-PUMA,3d VAE模型以及一种基于3D高斯点的场景表示方法。

Math-PUMA: Progressive Upward Multimodal 

Alignment to Enhance Mathematical Reasoning



arXiv2024



    当信息从文本形式转变为视觉形式时,MLLM 的表现变差,主要是由于在对齐图像文本方面的缺陷。为应对上述挑战,本文提出 Math-PUMA,一种三阶段的专注于渐进向上多模态对齐的方法。本文还构建了具有不同程度的文本和视觉信息的多模式数据集,通过以至少两种形式呈现每个问题来创建数据对。通过利用下一个标记预测分布的KL散度来对齐视觉和文本模式,确保了一致的问题解决能力。Math-PUMA 在Mathvista和Mathverse上的性能超越了大多数开源 MLLM,有效地缩小了不同模式中出现的问题的性能差距。

论文链接



  https://arxiv.org/pdf/2408.08640v1

Overview


    PUMA 方法概述。Math-PUMA 包括三个阶段训练过程。输入数据对包括强级别的文本丰富数据和弱级别的视觉丰富数据,同时由 MLLM 处理。强 logit 和标签用于监督弱 logit。

Experiments



    在WE-MATH数据集的实验表明,Math-PUMA-Qwen2-7B 在具有大约 10B 参数的开源 MLLM 中的平均分数达到了SOTA 性能,超过了InternLM-XComposer2-VL。即使在参数超过 20B 的开源 MLLM 中,Math-PUMA-Qwen2-7B 的性能也优于 LLaVA-NeXT-72B 模型,达到了 LLaVA-NeXT-110B 模型的性能。虽然 MathPUMA 在闭源模型中超过了 Qwen-VL-Max,但与 GPT-4V 和 GPT-4o  相比仍然存在显著差距。

CogVideoX: Text-to-Video Diffusion Models withAn Expert Transformer



arXiv2024



    CogVideoX设计了一种3d VAE模型,能够对视频的时间和空间维度同时进行压缩和解码。为了解决视频模态和文字模态的不一致性,模型设计了expert transformer来平衡模态间的数据分布和深度融合。在训练方面,采用了渐进式训练方式,使得模型能够生成连贯的长视频,此外,还结合CogVLM设计了一套高效的文本-视频处理pipeline。

论文链接



https://arxiv.org/pdf/2408.06072v1

Framework


  给定一对视频和文本输入,CogVideoX设计了一个 3D 因果 VAE 将视频压缩到潜在空间中,然后将潜在空间修补并展开成一个长序列,称为 zvision。同时,使用 T5 将文本输入编码为文本嵌入 ztext 。随后,ztext 和 zvision 沿序列维度连接。然后将 concatenated embeddings 输入到 expert transformer blocks 堆栈中。最后,对模型输出进行未修补以恢复原始潜在形状,然后使用 3D 因果 VAE 解码器对其进行解码以重建视频。

Experiment



    实验结果显示,CogVideoX 在 5个视频生成评估指标中取得了最佳表现,并在其余两个指标中显示出有竞争力的结果。此外,在处理各种复杂的动态场景方面也优于以前的模型。

3D Gaussian Splatting for Real-Time Radiance Field Rendering



SIGGRAPH2023



    这篇论文提出了一种基于3D高斯点的场景表示方法,实现了高质量的实时辐射场渲染。通过使用3D高斯点代替传统的网格或体素表示,结合快速的可见性排序和瓦片渲染算法,显著提高了渲染速度和训练效率。该方法通过自适应密度控制和各向异性高斯优化,能够捕捉复杂场景的细节,并在多个数据集上取得了与当前最先进技术相当甚至更好的视觉效果。尽管存在伪影等局限性,但该研究为实时渲染领域提供了新的思路和改进方向。

论文链接



https://arxiv.org/pdf/2308.04079v1

Pipeline


    优化过程从稀疏 SfM 点云开始,并创建一组 3D Gaussian。然后,优化并自适应地控制这组高斯的密度。在优化过程中,使用基于平铺的快速渲染器,与 SOTA 快速辐射场方法相比,训练时间具有竞争力。经过训练后,渲染器允许对各种场景进行实时导航。

Experiment



    实验结果显示,所提出的完全收敛模型实现了与 SOTA方法 Mip-NeRF360 相当的质量,有时甚至略好。在相同的硬件上,SOTA方法平均训练时间为 48 小时,而本方法的训练时间为 35-45 分钟,渲染时间为 10 秒/帧。额外的训练时间使本方法能够达到 SOTA 效果,而其他快速方法则无法达到。

写作总结



  1. Math-PUMA文章创新点既有数据又有训练范式,在写作时却始终围绕多模态渐进式对齐,重点突出。实验结果虽然不是全面优势,但是分析出了其背后合理的原因。最后的视觉对齐效果实验突出了文章针对视觉对齐的有效性,进一步突出重点

  2. CogVideoX的设计简洁且高效,文章的每一节都是总-分的形式,读者能快速的理解写作者的意图以及模型的设计细节。在介绍模型设计之后,紧接着通过简单且直观的小实验证明设计的优越性,加强论文的说服力,凸显创新性和先进性。

  3. 3DGS文章开篇在引言部分明确指出了当前技术在“实时渲染”和“高质量”之间的权衡问题。并用数据和对比强调其重要性。这种写作方式让读者一开始就明确研究的动机。在写作时,尽量在文章的前几段内明确指出研究的问题,并用具体的例子或对比加以阐述,避免空泛的叙述。这有助于吸引读者的注意力。


The End




VLRLab


分享者:邓菱儿 朱泠皞 陈昱潮

编辑:罗琪頔

审核:伏凌


免责声明:

(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。

(2)本文观点不代表本公众号立场


VLRLab学习屋
发布华中科技大学VLRLab实验室的新闻资讯与动态
 最新文章