ECCV'24 | 比NeuralPCI快600倍！FastPCI：超高效点云插值SOTA算法！

科技 2024-11-04 07:01 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

本文提出了一个名为FastPCI的高效激光雷达点云插值方法，采用了金字塔卷积和变换器架构，通过结构感知的运动估计、双向估计、运动补偿和多尺度损失等技术，实现了精确且快速的点云插值。FastPCI在KITTI、Argoverse 2和Nuscenes等大型数据集上的实验结果显示出其在插值精度和推理速度上的显著优势，特别是在车辆轮廓、道路边界等细节保留方面表现突出，大大优于当前的SOTA方法，验证了其在自动驾驶等对实时性要求高的场景中的实用性。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：FastPCI: Motion-Structure Guided Fast Point Cloud Frame Interpolation

作者：Nankai University等

作者机构：Tsinghua University等

论文链接：https://arxiv.org/pdf/2410.19573

2. 摘要

点云帧插值是一项具有挑战性的任务，涉及到在帧之间准确估计场景流并保持几何结构。现有技术通常依赖于预训练的运动估计器或密集的测试时间优化，这导致插值准确性下降或推理时间延长。本文提出了FastPCI，采用金字塔卷积-变换器架构进行点云帧插值。我们的混合卷积-变换器改进了局部和长距离特征学习，而金字塔网络则提供多级特征并减少计算量。此外，FastPCI提出了一种独特的双向运动-结构块，以实现更准确的场景流估计。我们的设计基于两个事实：(1) 精确的场景流保持三维结构，(2) 先前时间步的点云应能通过未来时间步的逆运动进行重建。大量实验表明，FastPCI显著优于最新的PointINet和NeuralPCI，具有显著的提升（例如，在KITTI数据集中，Chamfer距离分别减少26.6%和18.3%），同时速度分别提高了10倍和600倍以上。代码可在 https://github.com/genuszty/FastPCI 获取。

3. 效果展示

我们的FastPCI每帧可执行精确的点云帧内插，时间为20.1秒，比最先进的NeuralPCI和PointINet更准确，速度分别快600倍和10倍。

与当前最先进方法在KITTI odometry、Argoverse 2 sensor和Nuscenes数据集上的定性对比。列(a)-(c)分别表示在这三个数据集上的结果。每一行表示一种不同的方法。与最先进的PointINet（第1行）和NeuralPCI（第2行）相比，我们的FastPCI（第3行）在定性结果上表现最佳。

4. 主要贡献

我们提出了双向运动-结构变换器块。该块通过来自正向和反向点特征的混合信息以结构感知的方式估计运动。
我们提出了FastPCI，采用金字塔卷积-变换器架构，旨在快速而精确地进行点云帧插值。
我们建议使用重建损失、额外的金字塔损失和双向损失来优化FastPCI。对多种自动驾驶数据集的全面评估证明了FastPCI相较于最新技术的优越性。

5. 基本原理是啥？

FastPCI的基本原理是利用卷积神经网络和变换器的结合，通过金字塔结构进行分层插值，生成高效且准确的中间点云帧：

金字塔卷积-变换器架构：FastPCI采用金字塔卷积和变换器的混合结构，通过卷积来捕捉局部特征，并借助变换器来提取全局信息。金字塔结构通过逐层处理不同分辨率的特征，实现了细致的帧间信息填补，提高了模型对细节的捕捉能力。
双向运动-结构估计：FastPCI在前后帧之间进行双向运动估计，通过前向和后向的交叉注意力机制，从两帧的不同方向对特征进行分析。这种双向的结构有助于在生成中间帧时保证前后帧结构的一致性，提升了插值结果的真实性。推荐课程：聊一聊经典三维点云方法，包括：点云拼接、聚类、表面重建、QT+VTK等。
运动补偿与RefineNet模块：运动补偿模块用于对初步估计的运动和结构信息进行细化，RefineNet进一步优化生成的中间点云帧的细节，使得最终的插值效果更清晰和准确。
循环一致性和多尺度损失：为提升插值的稳定性和准确性，FastPCI引入了半途循环一致性损失和多尺度损失。循环一致性损失确保前后帧的运动估计保持一致，多尺度损失则通过在不同分辨率上施加监督，增强了模型对不同尺度特征的敏感度。

6. 实验结果

FastPCI的实验结果显示了其在三个大规模户外激光雷达数据集（KITTI odometry、Argoverse 2、Nuscenes）上的优异性能：

KITTI Odometry数据集：

在KITTI数据集中，FastPCI在所有帧和所有评价指标上都取得了最佳结果。
与最先进的NeuralPCI相比，FastPCI在帧2上将EMD误差减少了2.89，将CD误差减少了0.21，最终在整体的EMD和CD指标上分别减少了2.05和0.13。
图像可视化结果显示，FastPCI在车辆边缘的生成效果最清晰，噪声最少。

Argoverse 2传感器数据集：

FastPCI在几乎所有帧和评价指标上均表现出最佳性能。
定性实验结果表明，FastPCI生成的插值帧在道路边界和细节部分与真实值更为接近。

Nuscenes数据集：

FastPCI在Nuscenes数据集的整体指标上表现最佳。
尽管在帧1的CD指标和帧2的EMD指标上稍逊于NeuralPCI，但在整体EMD和CD指标上分别超过NeuralPCI 5.47和0.04。
定性结果中显示，FastPCI在插入帧中生成了更清晰的人物轮廓，具有更高的细节保留度。

运行时间对比：

FastPCI的推理速度在所有插值方法中最快，相比于PointINet快10倍以上，比NeuralPCI快600倍。这得益于其采用的金字塔卷积-变换器架构，使其适用于自动驾驶等对实时性要求高的应用场景。

消融实验：

结构感知运动估计：移除结构感知设计导致CD和EMD距离显著增加，证明了运动-结构联合学习的重要性。
双向估计：移除双向估计后，性能显著下降，表明其在提升前后帧信息交互上的作用。
混合卷积-变换器架构：用纯卷积替代变换器后，模型性能明显下降，显示出变换器在全局特征提取中的关键作用。
RefineNet和运动补偿模块：去除这些模块会略微降低性能，但其影响较小，主导作用在于运动补偿。
损失函数分析：循环一致性和多尺度损失在提升模型的帧间一致性和细节准确性方面起到了重要作用。

7. 总结 & 未来工作

本文介绍了 FastPCI，一种开创性的金字塔卷积-变换器混合架构，旨在实现快速而准确的点云帧插值。引入变换器和分层架构为我们的系统带来了长距离信息提取能力，同时保持了高效性。我们还观察到结构一致性和循环一致性对点云帧插值任务的重要性。为了兼顾这两者，我们的 FastPCI 提出了独特的双向运动-结构估计，以混合前向和后向估计之间的信息，以及运动和结构特征之间的信息。我们还提出了两个与架构设计密切相关的损失函数。第一个是半周期一致性损失，它鼓励网络学习一个循环一致的运动估计。第二个是多层重建损失，它利用我们分层架构设计的优势，通过较低分辨率的真实值进行中间阶段的监督。总体而言，FastPCI 在点云帧插值方面建立了新的基准，显著超越了现有的最先进方法 PointINet 和 NeuralPCI，并且效率更高。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247709541&idx=4&sn=9d49680a69fddb2fbaff88bc66b6a637

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉