北航自研:XR秒变“透视眼” | 基于CAD模型与单目RGB图像的6DoF位姿实时跟踪方案 | 下载

科技   科技   2024-04-22 03:05   浙江  

01 导 读

在今天的文章中,警长(黑毛警长008)将向大家介绍一项北京航空航天大学自研的XR三维注册技术。正文部分由作者投稿,描述偏学术,对于尚未深入接触XR行业的读者而言,可能会略感生涩。为此,警长在文章第三部分加入了点评和展望,对于想简单了解项目价值的读者,可以看下第二部分的视频后跳至文章第三部分。

🔺该技术可广泛用于各类虚/实融合以及虚/实交互场景,图源:北航

项目作者来自北京航空航天大学航空高端装备智能制造工信部重点实验室,团队长期从事 XR 虚拟装配、数字化设计、智能制造、数字孪生等方向的研究工作,曾主持多项国家级/省部级项目并发表论文/专利/软著/专著等学术成果,其中多项技术已实现成果转化,成功应用于工业软件及航空航天院所中。在文章中,该团队针对XR场景(尤其是工业弱纹理场景)特定物体的三维注册问题,自研了基于CAD模型与单目RGB图像的6DoF位姿实时跟踪方案,可替代国外同类商业 SDK 并推广至机器⼈、目标跟踪等领域,应用前景广阔。

02 正 文

位姿跟踪 —— 即实时估计相机相对于三维场景或相对于特定物体的6DoF位姿,既是增强现实技术的底层核心,也是决定应用系统性能优劣的关键。目前,基于SLAM框架的位姿跟踪方法相对成熟,已占据业界主流。但SLAM-based方法在增强现实应用中存在以下问题:

1. 只能获得相机与整个场景之间的相对位姿,无法获得场景中某个特定物体的相对位姿,不便于虚拟信息的精准叠加;
2. 更适合于静态场景,若场景发生较大变化或者目标物体本身发生运动,可能导致定位失败;
3. 消费级IMU传感器长时间运行易累积误差导致位姿估计产生漂移,需采用额外手段进行校正。

因此,对特定三维物体进行位姿跟踪,在大量应用场景中十分必要。同时,将物体跟踪与SLAM框架融合进行优势互补可形成更完整、更灵活、更普适的定位方案,拓展应用范围。

在基于单目RGB图像的三维物体位姿跟踪领域,利用局部特征描述子的方法较为常见,但此类方法要求物体表面具备丰富的纹理特征,工业领域通常无法满足。基于CAD模型的位姿跟踪方法更为业界青睐,虽然该方向已存在不少研究工作,但易用性、鲁棒性才是决定其是否可以落地实用的关键。目前提供商业解决方案的主要有德国Visometry公司的VisionLib SDK和美国PTC公司的Vuforia SDK (Model Target),收费较高,且部分功能需要上传CAD模型至其云端、License授权模式需要远程连接其服务器进行验证,导致国内用户在应用过程中十分被动,某些特殊厂所出于数据安全的考量甚至不具备应用条件。

Camereon Model Tracker
在此背景下,北京航空航天大学自研了基于CAD模型与单⽬RGB图像的刚体6DoF位姿估计与实时跟踪方案,可⽤于且不限于增强现实、机器⼈抓取、⽬标跟踪等领域。其主要特性包括:
  • 只需要提供⽬标物体的CAD 模型,⽆需预先训练
  • 快速稳定的实时位姿跟踪,可在主流移动设备上达到60FPS
  • 跟踪过程中特征⾃动提取、更新
  • 对复杂背景、局部遮挡、快速运动具有较好的鲁棒性
  • 跟踪失败时具备⼀定的⾃恢复能⼒
  • 与SLAM 融合,提⾼位姿稳定性和⾃恢复能⼒
  • 跨平台⽀持

🔺项目演示视频,图源:北航

⽬前作者已采用C++编写了算法内核。同时为了便于使用,又基于该内核开发了Unity插件,分为ARFoundation版和MRTK版。前者适用于iOS、Android等移动设备,后者适用于Microsoft Hololens 2,其它平台可基于C++内核自行封装。

该项目已分享在Github(https://github.com/HartisanBUAA/Camereon-Model-Tracker)。欢迎XR专家下载、测试并与作者交流(作者联系方式亦见Github)。

03 点评与展望

看完正文文章及视频演示,相信XR行业专家对这项技术已有了初步了解。下面警长用更通俗的方式解释一下它的应用场景和价值。

工业领域,这项技术可用于装配指导、质量检测、设备维修、培训演示等方面。例如:在装配环节,识别零部件的位姿后叠加装配信息,指导工人进行装配操作,提高效率、降低错误概率;在设备维修中,识别故障部件并叠加维修信息,指导工人进行维修,降低维修人员技能要求;在培训中,将复杂设备的内部结构、工作原理等以可视化的方式展示出来,加深学员理解,提升培训效果。

🔺基于AR辅助的汽车离合器片装配培训,图源:北航

文旅领域,它可用于文物展示、古建筑复原、考古探索等。游客只需看向实物,就能看到相关的3D虚拟信息(而非简单的2D视频或文字),方便游客了解文物的历史背景、艺术特色、保护现状等,还可利用AR技术对残缺不全的文物进行数字化修复,古建筑进行虚拟重建,考古遗址进行探索式展示,为游客提供沉浸式的文化体验。以下图为例,当游客戴着XR眼镜看向木乃伊,不仅能看到木乃伊的外部结构,也可以通过该技术看到展品内部3D结构。

🔺文物3D信息展示 图源:vr2.tv

教育领域,可用于物理、化学和生物实验,学生可以通过XR直观的观察给类教学模型的内部构造和运行机理,从而加深理解,提升学习效率。

🔺火星探测器结构展示与教学,图源:北航

销售领域,借助该技术可对产品的不同形态、结构特点向客户提供更为直观的效果预览,方便选购。例如汽车销售人员可通过XR展示车身(或者内饰)的不同颜色搭配,通过XR看车内的空间布局,透视车身结构、动力系统等,进一步客户的体验并提升销售转化率。

🔺车身颜色预览,图源:北航

🔺刹车系统展示,图源:

此外,它在XR游戏、XR广告等大众消费领域也大有可为。例如:XR游戏可通过识别特定物体触发游戏情节,增加趣味性;XR广告可针对不同实物展示定制化虚拟内容,吸引眼球。

🔺该技术可广泛用于各类虚/实融合以及虚/实交互场景,图源:北航

总之,这项技术打破了XR应用对环境的依赖,如与Vision Pro、Meta Quest、Hololens等具备空间计算能力的设备相结合,可使得设备既能感知周围环境,又能感知环境中的特定物体,大大拓展了XR的应用边界未来,随着技术的不断成熟和完善,该技术有望在更多领域发挥重要作用。期待北航团队继续深耕该领域,推出更多XR成果。

苹果Vision Pro商标完成注册,华为申请却遭“无效宣告”

2024-03-28

苹果新一代AirPods将强化AI交互能力,这家中国公司或重夺新品订单

2024-03-20

战争or游戏?美军测试Quest 3头显操控无人装备作战

2024-03-26

耀宇视芯发布VST芯片:致敬苹果R1,开启XR“双芯时代”

2024-02-26

仅两颗国产芯片 | 苹果Vision Pro芯片供应商解析 | PDF下载

2024-02-18

Vision Pro零组件重量图文解析

2024-02-08

投稿/商务/转载/合作

请联系微信:XRInstitute


点个在看你最好看


AR圈
『AR圈』由前H公司战略规划专家创办,专注解读AR/VR/AI眼镜的技术突破与产业机遇。以专业深度透析技术本质,以战略高度洞见市场未来。不仅是智慧的萃取炉,更是未来的孵化器。与AR圈同行,让我们共同开创下一个十年的科技传奇。
 最新文章