近日,欧洲计算机视觉国际会议ECCV 2024公布了论文的收录结果。西湖大学工学院人工智能方向共16篇论文入选。
ECCV,全称为European Conference on Computer Vision,即欧洲计算机视觉国际会议,是计算机视觉领域中最顶级的会议之一,与ICCV(International Conference on Computer Vision)和CVPR(Conference on Computer Vision and Pattern Recognition)并称为计算机视觉领域的“三大顶会”。
ECCV每两年举行一次,会议内容广泛覆盖了计算机视觉的所有子领域,包括但不限于图像识别、物体检测、场景理解、视觉跟踪、三维重建、具身智能、深度学习在视觉中的应用等。本文将一并介绍西湖大学工学院人工智能方向的16篇研究成果。
01
WSI-VQA:基于生成式视觉问答理解全场图
WSI-VQA: Interpreting Whole Slide Image by Generative Question Answering
陈平易
杨林实验室2021级博士生
【科普一下】
基于全场图的病理分析是肿瘤诊断的金标准。然而阅读并理解全场图是十分困难且耗时的,因为全场图极其庞大(分辨率高达100,000 x 100,000)且潜在的特征十分细微。我们能看到最近的多模态大模型层出不穷(GPT-4V,LlaVa,Qwen-VL),这些大模型在很多任务上表现惊人,但是它们都没办法处理这样复杂的全场图。我们的工作为建立一个全场图级别的多模态大模型打下了基础。
【技术介绍】
全场图(WSI)分析是肿瘤诊断和预后的常规方法。病理学家需要丰富的经验才能获得准确可靠的全场图图像诊断结果。WSI的巨大规模和异构特征使得病理学阅读的工作流程极其耗时。在本文中,我们提出了一种新的框架(WSI-VQA),通过生成视觉问答来解释WSI。WSI-VQA将各种全场图级别的任务统一到视觉问答的框架中,病理学家可以在人机交互后实现免疫组化分级、生存预测和肿瘤分型。此外,我们建立了一个WSI-VQA数据集,其中包含8672个全场图级别问答对和977个全场图。除了能够处理不同的全场图级别的任务外,我们的生成模型(W2T)在医学正确性方面优于现有的判别模型,这揭示了我们的模型在临床场景中应用的潜力。最后,我们还将单词嵌入和WSI之间的共同注意映射可视化为热力图,作为诊断结果的直观解释,增强了医学可解释性。
论文地址:https://arxiv.org/abs/2407.05603
代码地址:https://github.com/cpystan/WSI-VQA
02
基于网络量化的视频单曝光压缩成像系统重建框架
A Simple Low-bit Quantization Framework for
Video Snapshot Compressive Imaging
曹淼,袁鑫实验室2021级博士生
王理顺,袁鑫实验室博后
【科普一下】
视频单曝光压缩成像系统可以通过低成本相机实现高速场景的低带宽采集,因而有望成为下一代高速采集范式。为了进一步推动视频单曝光压缩成像系统的实际应用,高效的重建算法一直是我们需要探索的重要方向。
【技术介绍】
本文提出第一个基于网络量化的视频单曝光压缩成像系统重建框架Q-SCI。实验中我们发现直接进行低比特量化会带来很大的性能损失,同时低比特量化的Transformer分支也会出现query和key值分布的偏移。针对以上问题,我们首先设计了一个高质量的特征提取模块。类似地,我们给出一种更精确的视频重建模块。最后,为了解决Transformer分支的query和key值分布偏移的问题,我们提出一种偏移矫正模块。大量实验结果表明我们提出的Q-SCI可以大幅降低重建算法的计算复杂度,同时保证较高的重建质量。
代码地址:https://github.com/mcao92/QuantizedSCI
03
四足机器人的视觉语言动作模型
QUAR-VLA: Vision-Language-Action Model for Quadruped Robots
丁鹏翔
王东林实验室2023级博士生
【科普一下】
四足机器人以其在复杂地形上出色的可穿越性和敏捷的运动为特点,在机器人领域引起了极大的关注。研究人员广泛使用这些机器人来探索包括自主导航和操纵在内的任务。
【技术介绍】
QUAR-VLA任务有效地融合了感知、规划和决策,以生成可执行的动作。在这个框架内,一个显著的挑战在于将细粒度指令与视觉感知信息相一致。这强调了确保机器人准确解释详细指令并根据其视觉观察结果采取行动所涉及的复杂性。因此,我们提出了QUAdruped Robotic Transformer(QUART),这是一系列VLA模型,用于集成来自不同模态的视觉信息和指令作为输入,并为真实世界的机器人生成可执行的动作,并提出了Quarduped Robot Dataset(QUARD),一个大型多任务数据集,包括导航、复杂地形运动和用于训练QUART模型的全身操纵任务。我们的广泛评估表明,我们的方法QUART在真实和仿真场景中都大幅度提高了四足机器人性能,并展现了一系列涌现能力。
论文地址:https://arxiv.org/abs/2312.14457
代码地址:https://sites.google.com/view/quar-vla/quar-vla-eccv24
04
像素级时空对齐的大型视频-语言模型
PiTe: Pixel-Temporal Alignment for Large Video-Language Model
刘阳&丁鹏翔
王东林实验室2024级、2023级博士生
【科普一下】
大型语言模型的发展进一步弥合了图像和文本之间的鸿沟,但视频复杂的时空数据结构特性使理解视频内容具有挑战。近期关于多模态大模型的相关研究工作通常将视觉数据(如图像)的特征对齐到语言特征的潜在空间中,以充分利用大模型的理解和推理能力。本文提出PiTe框架,通过物体移动轨迹的引导探索一种像素级的细粒度跨模态时空对齐方法。
【技术介绍】
通用大模型成功的关键在于如何有效地将大语言模型卓越的理解、推理和生成能力推广到更多场景。对于多模态视频理解而言,在空间和时间维度上对齐不同模态的信息至关重要。为了弥合不同模态间的鸿沟,本文提出了PiTe框架,它使用物体移动轨迹指导模型在像素级别细粒度地将视觉和语言特征同时在空间和时间维度上进行对齐。通过要求模型预测视频中文本中提到的目标的移动轨迹,其可以细粒度地学习到文本到视觉像素对齐信息,并且能够增强其有依据地生成输出的能力。为实现细粒度的视频语言跨模态对齐,我们设计自动标注流程并以此构建了一个多模态预训练数据集PiTe-143k,该数据集提供了视频和描述文本中共同出现的所有目标的像素级移动轨迹。
代码地址:https://github.com/yliu-cs/PiTe
05
GlobalPointer: 基于双凸松弛的大规模平面配准算法
GlobalPointer: Large-Scale Plane Adjustment with Bi-Convex Relaxation
廖邦彦
刘沛东实验室2023级博士生
【科普一下】
基于雷达的平面调整算法是诸多雷达点云算法的核心优化算法,它通过联合优化雷达位姿和点云平面来得到高精度的重建结果。然后,雷达输入数据量巨大,导致大规模的城市级别的优化难以在普通设备上运行。同时,大规模的优化会使得算法鲁棒性大幅下降。我们提出的算法能够大幅度提升算法运行效率和算法鲁棒性。
【技术介绍】
平面调整(PA)对于许多3D应用至关重要,涉及同时进行位姿估计和平面恢复。尽管近期取得了一些进展,但在多视图点云配准领域,它仍然是一个具有挑战性的问题。目前的最先进方法只能在良好初始化的情况下实现全局最优收敛。此外,其高时间复杂度使其在无法在大规模问题中应用。为了解决这些挑战,我们首先利用一种称为双凸松弛的新颖的优化策略,该策略将原始问题分解为两个更简单的子问题,使用凸松弛技术重新构造每个子问题,并交替求解,直到原始问题收敛。在此基础上,我们提出了两种用于解决平面调整问题的算法变体,分别基于点对平面误差和平面对平面误差,命名为GlobalPointer和GlobalPointer++。在合成和真实数据集上的大量实验表明,我们的方法能够以线性时间复杂度进行大规模平面调整,具有更大的收敛区域和对初始化不佳的更加鲁棒,同时实现了与现有方法相似的准确性。
论文地址:https://arxiv.org/pdf/2407.13537
代码地址:https://github.com/wu-cvgl/GlobalPointer
06
基于进化多任务的多目标神经架构搜索算法
MO-EMT-NAS: Multi-Objective Continuous Transfer of Architectural Knowledge Between Tasks from Different Datasets
廖鹏
金耀初老师指导
【科普一下】
神经架构搜索(NAS)的目的是通过算法自动找到可与人类专家手动设计的神经网络架构相媲美的架构。强化学习、梯度下降和进化算法是NAS中使用的三种典型搜索策略。然而,大多数 NAS 算法的计算成本都很高,因此,人们设计一次性NAS,通过参数共享来降低对计算资源的高要求。多目标NAS是为寻找多个神经网络模型,以满足现实世界应用中所要求的精度之外的目标,如模型大小。在现有的多目标NAS方法中,基于种群的进化多目标优化方法已被广泛采用,因为它能在单次进化中获得一组帕累托最优神经架构。多任务NAS已经从单任务学习和迁移学习发展到多任务学习,通过任务间的知识迁移促进各个任务的性能提升,最新的探索侧重于不同的数据集。
【技术介绍】
由于资源限制不同,在不同设备上部署模型需要在多个目标之间进行权衡。而由于基于超网的多目标神经架构搜索存在小模型陷阱问题,现有方法可能无法保留较大模型。此外,多任务神经架构搜索(MT-NAS)在同时处理多个任务方面表现出色,但现有的大多数方法都侧重于来自同一数据集的任务,这限制它们在现实世界中的实用性,因为现实世界中的多个任务可能来自不同的数据集。为应对上述挑战,我们提出一个用于NAS的多目标进化多任务框架,以实现面向不同数据集的任务间的架构知识迁移,同时为多目标(模型精度和模型大小)找到帕累托最优架构们。为缓解小模型陷阱问题,我们引入一个辅助目标,帮助保留多个精度相似的较大模型。此外,通过并行化基于参数共享的超网的训练和验证过程,计算效率也得到进一步提高。在七个具有二、三和四个任务组合的数据集上的实验结果表明,与最先进的单目标 MT-NAS 算法相比,所提算法可以实现更好的最小分类错误率,同时还能在模型性能和模型大小之间灵活权衡。此外,与相应的多目标单任务方法相比,所提算法的运行时间减少 59.7% 到 77.7%。
论文地址:http://arxiv.org/abs/2407.13122
07
BeNeRF:从单张模糊图像和事件流中恢复神经辐射场
BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream
李文朴,刘沛东实验室访问学生
万篇,刘沛东实验室访问学生
王朋,刘沛东实验室2022级博士生
【科普一下】
以往基于神经辐射场(NeRF)的方法通常依赖于多视图图像来学习3D表示。最近一些开创性的工作尝试利用单张图像来学习潜在的神经辐射场。它们通常依赖于大型数据集对网络进行预训练,以学习先验知识来解决病态问题。但是图像质量的降低进一步加剧了问题的复杂程度,因为模糊图像往往更难处理。虽然大多数视觉算法通常并不考虑运动模糊,但与清晰图像相比,它们实际上编码了额外的相机运动轨迹和更多的结构信息。本文探讨了从单个模糊图像中恢复神经辐射场和相机运动轨迹的可能性。与以往的工作不同,本文的方法不是从大型数据集中学习先验知识,而是利用额外的事件流来更好地约束问题。
【技术介绍】
本文提出了从单张模糊图像及其对应的事件流数据中恢复神经辐射场(NeRF)的算法。使用SE(3)空间中的三次B样条曲线建模相机在成像时间内的连续轨迹。通过从三次B样条曲线插值得到的六自由度相机位姿,可以从三维场景表示中合成模糊图像和时间间隔内的亮度变化。该算法可以通过最小化合成数据与真实测量数据之间的差异来共同学习隐式神经场景表示和相机运动的连续轨迹,而无需任何关于相机位姿的先验知识。
本文提出的方法在合成数据集和真实数据集上进行了全面的评估。实验结果表明,该方法能够仅依赖单张模糊图像和事件流学习到NeRF并从中渲染出视角一致的潜在清晰图像,在图像去模糊任务上达到最佳性能。更进一步,由于该方法既能重建准确的场景表示又能估计曝光时间段内的相机轨迹,因此它能够渲染出编码在单个模糊图像中符合多视图几何约束的潜在清晰图像序列,从而获得更多的空间几何结构信息。
论文地址:https://arxiv.org/abs/2407.02174
代码地址:https://github.com/WU-CVGL/BeNeRF
08
PathMMU: 一个用于病理学中理解和推理的大规模多模态专家级基准测试数据集
PathMMU: A Massive Multimodal Expert-Level Benchmark
for Understanding and Reasoning in Pathology
孙宇轩,杨林实验室、林涛实验室2022级博士生
【科普一下】
在现代医学中,病理学是诊断和理解疾病不可或缺的基础,近年来随着数字病理学的发展和人工智能技术的崛起,病理学领域经历了巨大的变革。相比传统病理模型通常只针对特定任务进行优化,新兴的大型多模态模型(LMM)展现出了处理广泛任务的能力,极大地推动了对病理区域全面识别的实现。然而,当前仍缺乏专业的大规模病理测试集来全面评估这些多模态模型在病理图像理解和推理方面的性能。为此,研究团队构建了一个庞大的多模态病理基准测试集,该测试集由七位专业病理医生进行严格标注,确保了其精确性和权威性。
【技术介绍】
研究者开发了名为PathMMU的病理大模型基准测试数据集,这是迄今为止最全面并且得到专家验证的病理学基准。该数据集包括33,428个多模态选择题和24,067幅图像,涵盖了广泛的内容来源。借助GPT-4V的先进技术,研究者从收集的超过30,000个图像-描述中生成了高质量的问答对。同时,研究团队还邀请了七位资深病理学家进行审核,以确保测试集和验证集符合严格的标准,并设置了专业水平的性能基准,以评估参与PathMMU考试的病理学家们的表现。此外,研究者对14个开源及4个闭源的大型多模态模型进行了广泛评估。实验结果表明,这些模型在病理图像理解能力上普遍表现不佳,存在通过走捷径不依赖图像进行猜题的问题,与人类专家的表现还存在显著差距。因此,将现有多模态大模型应用于临床的仍然存在明显局限性。
论文地址:https://arxiv.org/abs/2401.16355
代码地址:https://pathmmu-benchmark.github.io
09
释放基于提示的细胞核实例分割的力量
Unleashing the Power of Prompt-driven Nucleus Instance Segmentation
水忠益
杨林实验室2022级博士生
【科普一下】
在医学研究中,细胞核实例分割是一项关键技术,特别是在分析组织学图像以进行癌症诊断和治疗计划时。然而,现有的分割算法通常依赖于复杂的后处理步骤,这些步骤既耗时又容易出错。最近,Segment Anything Model (SAM) 因其出色的泛化能力和灵活性在医学图像分割领域引起了广泛关注。本文介绍了一种新的基于提示的框架——PromptNucSeg,它利用SAM和自动生成的核提示点来实现细胞核实例的自动分割,显著提高了分割精度和效率。
【技术介绍】
PromptNucSeg是一个创新的细胞核实例分割框架,通过结合核提示生成器和Segment Anything Model (SAM) 来实现自动化。核提示生成器负责为每个细胞核生成唯一的提示点,而SAM则根据这些提示点生成对应的分割掩码。为了提高对重叠细胞核的识别能力,我们还提出了使用相邻细胞核作为负提示的方法。该方法无需复杂的后处理步骤,在多个具有挑战性的基准测试中取得了新的性能记录。通过实验,我们验证了PromptNucSeg在不同数据集上的优越性能,并展示了其在医学图像分析中的巨大潜力。
论文地址:https://arxiv.org/abs/2311.15939
代码地址:https://github.com/windygoo/PromptNucSeg
10
自一致性训练使小模型具备与大模型相当的能力
Boosting the power of small multimodal reasoning models to match larger models with self-consistency training
谭铖
李子青实验室2021级博士生
【科普一下】
大型语言模型的最新进展导致了对思维链(CoT)提示的探索。这种方法指导模型系统地解开之前的基本原理提供答案,而不是直接回应,展示了该模型在各种自然语言处理(NLP)任务中的令人印象深刻的功效。此外,CoT提示的出现催化了大量的研究努力钻研大型语言模型的推理能力。一系列的思维链策略已经被研究,包括投票促进了CoT-SC,从链状思维到树状思维的转变思想树,并进一步扩展为图形结构思维。而CoT推理在语言领域已经完全确立模型,它对多模态推理的广阔而复杂的景观的突袭是多模态推理,其本质上涉及信息的无缝融合从不同的形式,如文本和图像,提出了独特的挑战。抽取、关联和生成多个基本原理的过程模态显然比完全基于文本的模态遇到的任务更复杂。
最近的一项开创性工作,Multimodal-CoT,开创了思维链提示策略在多模态推理中的应用任务。这种方法包含一个两阶段的框架,其特点是从答案推理中分离出基本原理生成。通过强迫模型在回答问题之前生成基本原理,Multimodal-CoT反映了仅语言的CoT提示,从而实现跨多种模式的推理。尽管Multimodal-CoT在多模态推理领域取得了有希望的进展,但它相比无推理基线提升仍然有限。此外,与真实推理相比,预测的推理过程不足,往往产生的结果缺乏相关性提出的问题。这种差异主要是由于推理的不准确,突出了推理过程的关键作用。
【技术介绍】
在这项工作中,我们深入研究了原理在模型推理中的重要性。我们观察到,当原理完全准确时,模型的准确性会显著提高,这凸显了高质量原理生成的需求。受此启发,我们提出了 MC-CoT,这是一种自洽训练策略,可生成多个原理和答案,然后通过投票过程选择最准确的答案。这种方法不仅提高了生成原理的质量,而且还能产生更准确、更可靠的答案。
通过大量实验,我们证明我们的方法显著提高了模型在各种基准测试中的性能。值得注意的是,我们表明,即使是较小的基础模型,如果配备了我们提出的方法,也可以实现与较大模型相当的结果,这说明了我们的方法在利用原理的力量改进多模态推理方面的潜力。
论文地址:https://arxiv.org/abs/2311.14109
代码地址:https://github.com/chengtan9907/mc-cot
11
面向单曝光光谱压缩成像的隐式扩散先验增强的深度展开重建网络
Latent Diffusion Prior Enhanced Deep Unfolding for Snapshot Spectral Compressive Imaging
吴宗亮
袁鑫实验室2021级博士生
【科普一下】
单曝光光谱压缩成像系统可以通过灰度相机实现高光谱场景的快速低带宽采集,因而有望成为下一代光谱成像范式。为了进一步推动光谱单曝光压缩成像系统的实际应用,高性能的重建算法一直是需要探索的重要方向。
【技术介绍】
单曝光光谱压缩成像重建旨在从二维压缩测量中重建三维空间光谱图像。现有的最先进方法大多基于深度展开网络结构,但存在固有的性能瓶颈,因为1)网络需要直接处理严重退化测量,以及2)基于回归损失的重建模型难以图像的细节。
在本文中,我们引入了一种生成式的隐式扩散模型,通过在两阶段训练中生成的无退化的知识先验来增强基于回归的深度展开网络。此外,本文提出了一种Trident Transformer,该Transformer通过提取先验知识、空间和光谱特征之间的相关性,将知识先验集成到深度展开去噪器中,从而指导重建并补偿光谱图像细节。这是在单曝光光谱压缩成像重建中首次将物理驱动的深度展开网络与生成式的隐式扩散模型相结合的方法。在合成数据集和真实数据集上的实验表明了此方法在重建质量和计算效率方面的优越性。
代码地址:https://github.com/Zongliang-Wu/LADE-DUN
12
面向单曝光压缩成像的分层可分离视频Transformer
Hierarchical Separable Video Transformer for Snapshot Compressive Imaging
王平
袁鑫实验室2021级博士生
【科普一下】
单曝光压缩成像是一种新型的计算成像技术,以较低的硬件成本实现高速视频采集,随后通过神经网络算法进行计算重建,其有望成为下一代高速摄影范式。
【技术介绍】
Transformer在解决视频单曝光压缩成像(SCI)逆问题(即从单镜头观测重建多个高保真帧)达到了最佳性能。然而,以往的模型一般采用窗口化或因子化注意力机制,没有针对时空建模的特殊归纳偏差,与SCI重建中信息线索大多集中于空间维度而非时间维度的情况并不协调。在这项工作中,我们定制了一种高效的重建架构,在早期层中不进行时间聚合,并将分层可分离视频Transformer(HiSViT)作为构建模块。HiSViT 模块由多组具有密集连接的跨尺度可分离多头自注意力(CSS-MSA)和门控自调制前馈网络(GSM-FFN)构建而成,每一组都在不同尺度的独立信道段中进行,从而实现多尺度交互和长距离建模。通过顺序计算空间-时间维度的注意力权重,CSS-MSA 引入了一种归纳偏差,即在帧内而不是帧间给予更多注意力,同时节省计算开销。GSM-FFN 通过门控机制和因式化时空卷积来增强连续性。大量实验证明,我们的模型在复杂度和参数相当或更少的情况下达到新的最佳性能。
论文地址:https://arxiv.org/abs/2407.11946
代码地址:https://github.com/pwangcs/HiSViT
13
从双层优化的视角防止快速对抗训练中的灾难性过拟合
Preventing Catastrophic Overfitting in Fast Adversarial Training: A Bi-level Optimization Perspective
王兆鑫
金耀初老师指导
【科普一下】
深度神经网络的出现让人工智能技术在计算机视觉、自然语言处理等领域焕发出新的生机,但是一些人眼无法感知的恶意扰动便可以轻易的摧毁深度学习系统,例如图片中的一点噪声或者句子中一个不起眼的拼写错误,都可以让深度学习系统按照攻击者的意图进行输出。在众多防御防御手段中,快速对抗训练是目前最为有效的一种方法,但是快速对抗训练非常容易使神经网络出现灾难性过拟合现象,每当出现这种现象,神经网络的防御能力会在极短的训练时间内消失,从而影响模型的鲁棒性。因此,解决快速对抗训练中的灾难性过拟合问题,是建立可信鲁棒的人工智能系统的关键步骤。
【技术介绍】
为了解决快速对抗训练中的灾难性过拟合问题,在这项工作中,我们从对抗训练双层优化的本质出发,从历史的扰动信息中生成新的扰动信息,采用一种自适应的机制对两类扰动进行整合后纳入对抗训练。结合提出的新的神经网络损失函数,可以有效的避免双层优化问题中内层问题崩溃,从而减轻了神经网络出现灾难性过拟合的风险。同时,在其他方法陷入灾难性过拟合时,我们的方法还可以帮助其他方法跳出过拟合困境,恢复正常的训练。
代码地址:https://github.com/HandingWangXDGroup/FGSM-PCO
14
面向全场图分类的注意力挑战性多实例学习
Attention-Challenging Multiple Instance Learning for Whole Slide Image Classification
章云龙
杨林实验室2021级博士生
【科普一下】
在医疗领域,病理学家经常需要分析大型数字化显微镜图像,称为全场图(WSI),以诊断疾病。这些图像包含海量细节,人工分析既耗时又容易出错。因此,研究人员开发了人工智能(AI)系统来辅助这项工作。这些AI系统使用一种叫做多实例学习(MIL)的方法来分析WSI。MIL就像是在一个巨大的拼图中寻找关键线索。然而,现有的AI系统往往只关注少数几个关键区域,忽视了其他可能同样重要的部分。这种现象称为"过拟合",会导致AI在面对新的、略有不同的图像时表现不佳。为了解决这个问题,研究人员提出了一种新方法,旨在让AI系统更全面地"看"整张图像,从而提高诊断的准确性和可靠性。
【技术介绍】
研究人员提出了一种名为注意力挑战性多实例学习(ACMIL)的新方法来解决过拟合问题。ACMIL包含两个关键技术:多分支注意力(MBA)和随机Top-K实例掩蔽(STKIM)。MBA使用多个"注意力分支",就像多个专家同时分析图像的不同方面。这样可以捕捉更多样的判别性特征,提高模型的泛化性。STKIM则随机遮蔽一部分最受关注的区域,并将它们的注意力重新分配给其他区域。这迫使模型关注更广泛的实例,增强其适应性。这两种技术的结合使ACMIL能够更全面地分析WSI,减少过拟合,提高模型在新数据上的表现。实验结果表明,ACMIL在多个WSI数据集上的表现优于现有最先进的方法。通过热力图和UMAP可视化,研究人员直观地展示了ACMIL如何有效地分散注意力,克服过度关注少数区域的问题,从而提高了AI系统在医学图像分析中的可解释性和准确性。
论文地址:https://arxiv.org/pdf/2311.07125
代码地址:https://github.com/dazhangyu123/ACMIL
15
BAD-Gaussians: 基于集束调整3D高斯泼溅的去模糊场景重建
BAD-Gaussians: Bundle Adjusted Deblur Gaussian Splatting
赵凌哲&王朋
刘沛东实验室2024级&2022级博士生
【科普一下】
虽然神经辐射场 (NeRF)在3D场景重建和新颖的视图合成方面表现出了令人印象深刻的能力,但它严重依赖于高质量的清晰图像和准确的相机位姿,而低光照、快速运动、长时间曝光及其导致的不准确位姿初始化在现实世界场景中很常见。同时,NeRF的隐式表示难以从严重运动模糊的图像中准确恢复复杂的细节,且无法实现实时渲染。相比之下,最近3D高斯泼溅的最新进展通过将点云优化为显式的3D高斯场景,实现了高质量的3D场景重建和实时渲染。
【技术介绍】
本文提出 BAD-Gaussians,一种基于集束调整3D高斯泼溅的去模糊场景重建新方法,该方法利用显式高斯表示并处理相机位姿不准确的严重运动模糊图像,以实现高质量的场景重建。我们的方法模拟了运动模糊图像的物理图像形成过程,并在曝光时间内恢复相机运动轨迹的同时联合学习高斯的参数。在我们的实验中,我们证明了 BAD-Gaussians 不仅在合成和真实数据集上实现了比以前最先进的去模糊神经渲染方法更好的渲染质量,而且大大提高了训练速度,同时能够实时渲染。
论文地址:https://arxiv.org/abs/2403.11831
代码地址:https://lingzhezhao.github.io/BAD-Gaussians/
16
OpenSight: 一种简洁的基于LiDAR的开放词汇物体检测框架
OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based
Object Detection
张虎
于开丞老师指导
【科普一下】
传统的基于LiDAR的目标检测研究主要集中在封闭集场景中,这在复杂的现实应用中显得不足。现有的方法往往局限于预先定义好的类别集合,无法应对开放世界中的各种未知类别。随着各种视觉语言大模型提出,使得开放场景的检测变得可能。直接将现有的2D开放词汇模型与一些已知的LiDAR类别一起转移以实现开放词汇能力,往往会遇到过拟合问题:即使面对新类别,所获得的模型也会检测到已知的对象。这种方法的局限性在于,它无法有效地处理开放环境中的各种新对象,导致模型在实际应用中的表现不理想。
【技术介绍】
在本文中,我们提出了一种名为OpenSight的更先进的2D-3D建模框架,用于基于LiDAR的开放词汇检测。OpenSight利用2D-3D几何先验进行初步辨别和定位通用对象,随后对检测到的对象进行更具体的语义解释。具体来说,该框架首先通过LiDAR的伴随相机图像生成通用对象的2D框。这些2D框连同LiDAR点一起被提升回LiDAR空间,以估算相应的3D框。为了更好地感知通用对象,我们的框架结合了时间和空间感知约束。时间感知将连续时间戳中的预测3D框相关联,重新校准遗漏或不准确的框。空间感知则随机将一些“精确”估算的3D框放置在不同距离,增加通用对象的可见性。
为了更准确地解释检测到的对象的具体语义,我们开发了一个跨模态对齐和融合模块。该模块首先将3D特征与2D图像嵌入对齐,然后融合对齐后的3D-2D特征进行语义解码。通过这种方式,我们的框架不仅能够识别通用对象,还能提供更详细的语义信息,提升了模型在开放环境中的表现。
我们的实验表明,OpenSight在广泛使用的3D检测基准上建立了最先进的开放词汇性能,并有效地识别了新类别对象。通过引入时间和空间感知约束,以及跨模态对齐和融合模块,我们的方法显著提升了模型在开放环境中的适应能力,为基于LiDAR的目标检测提供了一种有效的解决方案。
论文地址:https://arxiv.org/abs/2312.08876
代码地址:https://github.com/huzhangcs/OpenSight
文章来源:西湖大学人工智能
西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。
工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域,工学院已建成一批高水平实验室和研究中心,其中已获批成立浙江省3D微纳加工和表征研究重点实验室,培育建设浙江省海岸带环境与资源研究重点实验室,建立微纳光电系统集成浙江省工程研究中心。
扫描二维码 | 关注我们
西湖大学工学院
School of Engineering
Westlake University