北京大学提出了一种高效的3D内容生成方法DreamGaussian

文摘   2024-11-25 10:58   湖北  


LLaVA-o1: Let Vision Language Models Reason Step-by-Step



arXiv2024



     这篇文章提出了一个能够产生系统性、结构化思维和推理链条的多模态大模型,在需要结构化的复杂推理任务上显现出卓越的性能。文章同时设计了一种基于阶段的beam search方式,这种方式是时间可扩展的,意味着随着计算资源的增加,模型能够进行更加复杂的推理。本文的模型在更少的训练数据上实现了更优异的性能,仅使用100k sft数据就能实现媲美闭源模型的性能,证明了模型的有效性。

论文链接



https://arxiv.org/abs/2411.10440v1

Overview


    推理方法展示。N 个最佳搜索生成 N 个完整响应并从中选出最佳响应;句子级束搜索为每个句子生成多个候选选项并选择最佳响应。相比之下,我们的阶段级束搜索为每个推理阶段(例如,摘要、标题、推理和结论)生成候选选项,并在每个阶段中选择最佳选项。N 个最佳搜索在粗略级别运行,而句子级束搜索过于细粒度,我们的方法实现了最佳平衡并实现了最佳性能。

Experiments



    尽管仅使用 100k 数据,LLaVA-o1 仍实现了显著的性能提升。根据表 2,与基础模型 Llama-3.2-11B Vision-Instruct 相比,LLaVA-o1 在一般 VQA、数学推理、科学 VQA 和幻觉控制任务中表现出显著的改进,平均基准分数提高了 6.9%,从而验证了我们方法的有效性。

Unlocking the Capabilities of Thought: A Reasoning 

Boundary Framework to Quantify and Optimize Chain-of-Thought



arXiv2024



    这篇文章讨论了现今多模态大模型缺乏对图像细节理解的能力,故而就有很多工作将计算机视觉领域的方法结合到MLLM中,试图增强MLLM对于图像细节的理解,其中就包这篇文章引入了一种新颖的推理边界框架来量化CoT 能力并进行指导提升。首先定义一个推理边界(RB)来量化CoT的上限,并建立RB的组合律,从而实现适用于各种现实世界CoT任务的实用量化方法。通过专注于 RB 提升和推理路径优化的组合法则进一步提高 CoT。对27个模型和5个任务的广泛实验验证了所提出框架的存在性和合理性。

论文链接



https://arxiv.org/abs/2410.05695v2

Framework


    为了量化 LLM 中复杂推理的能力,引入了一个称为推理边界 (RB) 的上限概念,它正式定义了 LLM 在特定推理过程中可以处理的难易程度。简单来说,RB 反映了模型准确性显降低的极限。

Experiment



    实验分析不同推理边界的性质,根据不同 RB 的定义,将 LLM 的问题分为三个部分,验证定义的 RB 是否符合模型本身的内在本质。

    通过专注于 RB 提升和推理路径优化的组合法则进一步提高 CoT。在一些基准上的实验验证了所提出框架的合理性。


DREAMGAUSSIAN: GENERATIVE GAUSSIAN SPLATT-

ING FOR EFFICIENT 3D CONTENT CREATION



ICLR 2024



    文章提出了 DreamGaussian 框架,这是一种高效的3D内容生成方法,通过使用3D高斯点渐进密化技术,结合网格提取和UV纹理优化,从单张图像生成高质量3D模型,速度比传统方法快约10倍,仅需2分钟完成生成。这项技术在图像到3D和文本到3D任务中实现了高效与高质量的平衡,适用于动画和虚拟资产等实际场景。

论文链接



https://arxiv.org/abs/2309.16653v2

Framework


Experiment



    在表 1 中,比较了 CLIP 相似性和不同图像到 3D 方法在先前作品中的图像集合上的平均生成时间 。实验还对表 2 中详述的生成质量进行了用户研究。本研究的重点是评估参考视图的一致性和整体生成质量,这是图像到 3D 任务中的两个关键方面。论文两阶段结果实现了更好的视图一致性和生成性。


写作总结



  1. 论文1Ablation Study开篇使用总-分和设问的形式,让读者明确消融实验的内容和目的;作图很清晰,可以直观的理解方法设计,数据的生成流程,与其他方法的对比

  2. 论文2深入原理分析:数学理论方面的解释和背书,行文逻辑采用:定义边界+验证边界(实验)+利用边界+最终效果(实验),更有说服力。

  3. 文章不仅展示了方法在生产性能上的优点,还与现有方法的生成时间进行了比较,展现了方法的高效快捷。这不仅表现出研究的全面性,也体现了学术上的严谨性。

The End




VLRLab


分享者:朱泠皞 邓菱儿 陈昱潮

编辑:罗琪頔

审核:伏凌


免责声明:

(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。

(2)本文观点不代表本公众号立场


VLRLab学习屋
发布华中科技大学VLRLab实验室的新闻资讯与动态
 最新文章