12.3-4|单目3D平面重建，带有透明度通道矩形的3D平面表示

文摘 2024-12-03 10:49 西藏

三维重建与表示：单目3D平面重建，带有透明度通道矩形的3D平面表示

AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

2024-11-29｜THU, ETH Zurich, BJTU｜NeurIPS 2024|🔺5

http://arxiv.org/abs/2411.19950v1
https://huggingface.co/papers/2411.19950
https://hyzcluster.github.io/alphatablets

研究背景与意义

在三维计算机视觉领域，从单目视频中重建三维平面结构是一个关键问题。传统方法往往依赖于明确的几何输入和手工特征，这限制了其可扩展性和鲁棒性。近年来，基于学习的方法利用数据驱动的训练直接从单幅或稀疏视图图像中分割平面实例并回归平面参数。然而，现有的学习方法在处理复杂场景时常常面临完整性和泛化能力不足的挑战。因此，如何建立一个准确、完整且可泛化的三维平面重建系统仍然是一个亟待解决的难题。

本研究提出了一种新的平面表示方法——AlphaTablets，旨在克服传统方法的局限性。通过将三维平面表示为带有透明度通道的矩形，AlphaTablets结合了当前二维和三维平面表示的优点，提供了一种灵活且有效的三维平面建模方式。该方法不仅能够准确建模复杂的平面边界，还能通过差分渲染实现高效的图像重建。

研究方法与创新

AlphaTablets的核心创新在于其独特的三维平面表示形式。研究团队首先定义了AlphaTablets的数据格式，包括三维几何属性和二维纹理信息。通过引入差分光栅化技术，研究者能够在保持高效渲染的同时，确保从三维到二维的投影过程的可微性。

具体而言，研究者设计了一种底部向上的三维平面重建管道，利用从预训练模型中获取的几何线索和二维超像素进行初始化。随后，通过差分渲染的优化过程，调整平面的几何形状、纹理和透明度通道。为了进一步提高重建的完整性，研究团队引入了一种有效的合并机制，促进相邻平面的融合与精细化。

在实验中，AlphaTablets在ScanNet数据集上展示了其在三维平面重建中的卓越性能，显著超越了现有方法。这一成果不仅为三维计算机视觉领域提供了新的思路，也为后续的应用奠定了基础。

实验设计与结果分析

本研究的实验设计包括多个阶段：首先，利用现有的几何预测模型进行AlphaTablets的初始化；接着，通过差分渲染优化平面的几何和纹理参数；最后，实施合并策略以形成更大的平面结构。实验结果表明，AlphaTablets在三维平面重建中表现出色，尤其是在小平面实例的检测和重建方面，展现了其在细粒度平面结构处理中的优势。

具体来说，研究者采用了多种评估指标，如几何重建的准确性和分割性能，结果显示其在这些指标上均优于其他基线方法。此外，通过对不同组件的消融实验，研究团队验证了合并机制和损失函数设计对重建性能的重要性。

结论与展望

本研究提出的AlphaTablets方法为三维平面重建提供了一种新的表示形式，具有灵活性和有效性。通过差分渲染的优化和合并策略，AlphaTablets能够实现高精度的三维平面重建，展示了其在实际应用中的潜力。未来的工作将集中在进一步提升模型的泛化能力，探索与其他表示方法的结合，以应对更复杂的场景和多样化的应用需求。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

12.5-1|多镜头视频生成，逻辑一致性，视觉连贯性；文本视频编辑

12.4-1|带ICL的自回归图像生成与编辑，深层图像语义理解；Transformer高效文生图；修正流图像编辑；DIT剪枝加速

12.4-2|高分辨率长视频理解，视频理解数据增强；开源Sora复现计划；基于流匹配的音频驱动的面部视频生成；长视频中任意点跟踪

12.4-3|交错图文生成基准；与3D角色的动作、行为交互

12.4-5|编程与代码生成：o1-Coder，强化学习与蒙特卡洛搜索，代码生成

12.3-1|高层次自动推理范式；后训练特定领域多模态LLM微调；分解式神经架构搜索策略，推理加速；弱监督多阶段复杂数学推理

12.3-2|视频深度估计；视频扩散模型时间步动态缓存策略；高分辨率扩散模型；时空跳跃引导扩散，视频生成采样的多样性和动态性；

12.3-3|离散Token生成连续人类动作；轨迹级偏好优化，机器人动作策略

12.3-4|单目3D平面重建，带有透明度通道矩形的3D平面表示

12.3-5|视频生成运动控制，轨道注意力

11.30-1|VLM推理路径批判优化推理过程；非梯度引导的T2V文本到视频合成

11.30-2|自动T2I，prompt生成，模型自动选择，参数自动生成

11.30-3|VTOFF，虚拟试穿，高保真重建

11.30-4|长文本多领域关键词提取；大规模泛非洲英语多专业医学问答数据集

11.30-5|无位姿信息的3DGS重建，自监督

11.29-1|ROICtrl，多实例生成，区域控制；

11.29-2|单目视频生成4D场景；不同视觉层次的高保真文本-3D数据集；3D凸点云，3D表示；3D角色绑定、蒙皮

11.29-3|交错文本-图像生成评估，场景图结构，一致性评估

11.29-4|大模型GUI自动化、GUI智能体综述，人机交互

11.29-5|无需微调的个性化图像生成；VAR解码加速；身份一致性保留视频生成；自动驾驶生成式扩散决策；T2I图像细节层次控制

11.28-1|GUI视觉智能体，操作自动化；草图绘画过程模拟；图像区域感知，区域密集描述

11.28-2|长序列高效推理注意力；免训练多模态无效 token 剔除

11.28-3|UV空间的3D纹理生成；自监督点云表示学习；3D对象生成与理解

11.28-4|多模态大语言模型评估综述；视觉-语言生成奖励模型评估

11.28-5|使用视频生成完成图像编辑；图片对象插入，身份保持，在插入时进行编辑

11.27-1|材质，纹理生成，自由光照高保真渲染；3DGS生成与编辑

11.27-2|T2I零样本ID保持；视觉token因式量化

11.27-3|LLM作为评估者综述；跨模态知识迁移；多头MOE；从GPT-O1中提取长推理链

11.27-4|医疗多模态模型；多模态推荐系统

11.27-5|RAG参与故事视频生成，高一致性；扩散模型ID保持，图像编辑

11.26-1|TÜLU 3，开放后训练全过程；LLM越狱，数据无关的守卫

11.26-2|SNR采样器，T2I风格控制；DiT 图像生成控制；高质量VQA数据集构建框架；降低长视频token数量

11.26-3|SAE解构LLM多义神经元；用游戏评估VLLM复杂推理，空间理解与规划；基于SVD的新视角合成

11.26-4|面部年龄变换，面部衰老合成；机器人真实环境模仿学习与规划；云层分割

11.24-1|多模态混合偏好优化；长链多模态推理数据合成

11.24-2|自回归预训练，生成模型达到判别模型性能；Transformer和SSM头融合的小型语言模型；自动化文献检索和问答

11.24-3|DIT的不同层功能识别与图像编辑；基于DIT的复杂街景数据生成，自动驾驶

11.24-4|大规模、超稀疏内存层，推理加速；SAE实体识别，自我认知与幻觉和拒绝回答

11.24-5|Marco-o1，o1思路实验，蒙特卡罗树搜索，推理树微调；自然语言强化学习

11.24-6|低资源语言与Common Crawl数据集，自动抓取，适配器方法

11.22-1|SageAttention2，4-bit量化，硬件加速；注意力加速

11.22-2|人类感知的视频生成质量评估；文本与视频生成不一致的幻觉，错误分析与纠正

11.22-3|开放式视频分析竞技场，ELO评分；LLM智能体策略树预测

11.22-4|SAM2用于运动追踪；base64风格编码；RGBA图像生成，多层生成策略

11.22-5|BF16对RoPE负面影响，数值稳定性；不同数据分布的scaling laws

11.22-6|器官区域信息驱动的放射报告生成，多模态融合；

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉