无需相机数据!刚刚苹果用AI颠覆3D视觉,0.3秒生成3D深度图,新框架还开源!

教育   2024-10-05 13:27   美国  

熊可爱


苹果开源Depth Pro:细节捕捉能力惊人,毛发级3D深度图生成只需0.3秒。空间计算、AR行业或迎来新突破。

苹果最近发布了一个名为Depth Pro的AI模型,它能够在不到一秒的时间内从单张2D图像生成详细的3D深度图,这可能会彻底改变机器如何感知深度,对空间计算、XR等行业产生深远影响。

Depth Pro能够生成高分辨率的深度图,速度极快,且不需要传统上需要的相机数据来做出这样的预测。这项技术在单目深度估计领域是一个重大进步,该过程仅使用一张图像来推断深度。

Depth Pro的另一个独特之处在于其能够估计相对和绝对深度的能力,称为“度量深度”。这意味着该模型可以提供现实世界的测量值,这对于需要在物理空间中精确放置虚拟对象的AR应用至关重要。

苹果发布Depth Pro:重塑3D视觉规则的AI模型

这项技术在实时空间感知至关重要的多个行业都有广泛的应用。该模型的创造者,由Aleksei Bochkovskii和Vladlen Koltun领导,称Depth Pro是同类中速度最快、精度最高的系统之一。

单目深度估计长期以来一直是一项挑战,通常需要多张图像或焦距等元数据来准确测量深度。

但Depth Pro绕过了这些要求,在标准GPU上仅用0.3秒就能生成高分辨率的深度图。该模型可以创建225万像素的地图,具有卓越的清晰度,捕捉到其他方法常常忽视的微小细节,如头发和植物。

“这些特性得益于多项技术贡献,包括高效的多尺度视觉变换器,用于密集预测,”研究人员在论文中解释道。这种架构使模型能够同时处理图像的整体上下文和细微细节——这是对之前较慢、不够精确模型的巨大飞跃。

Depth Pro真正与众不同之处在于其能够估计相对和绝对深度的能力,这种能力被称为“度量深度”。

这意味着该模型可以提供现实世界的测量,这对于AR等应用至关重要,因为虚拟物体需要在物理空间中精确放置。

而且,Depth Pro无需在特定领域的数据集上进行大量训练即可做出准确预测,这被称为“零-shot学习”。这使得该模型具有高度的灵活性,可以应用于各种图像,而无需深度估计模型通常需要的相机特定数据。

“Depth Pro在‘野外’的任意图像上生成带有绝对尺度的度量深度图,无需相机内参等元数据,”作者解释道。这种灵活性打开了新的可能性,从增强AR体验到改善自动驾驶汽车的障碍物检测和导航能力。

对于想要亲身体验Depth Pro的人,Hugging Face平台上提供了实时演示。

熊嘻嘻


地址::


https://huggingface.co/spaces/akhaliq/depth-pro

AIGC + 3D/空间计算相关内容拓展:


苹果Vision Pro空间视频手册 - 涵盖技术方案/产品化模版/创业机会/产品案例参考


AIGC+3D:近期常看3个方案 - AI生成VR 360全景图、数字人化身、3D模型纹理贴图


AI生成沉浸式3D世界(空间照片/视频);套壳ChatGPT,ARR突破400万美元......


基于AI生成3D模型动作、AI动作捕捉;AI+3D重建,电商人一键生成产品的3D宣传片


【工具库+方案】照片生成3D场景/3D点云,非常适合做三维重建、AR大空间

AI创业者

实际应用:从电子商务到自动驾驶

这种灵活性对多个行业具有重要意义。例如,在电子商务中,Depth Pro可以让消费者通过简单地将手机相机指向房间,查看家具在家中的摆放效果。在汽车行业,从单一相机生成实时、高分辨率深度图的能力,可以改善自动驾驶汽车对其环境的感知,提升导航和安全性。

“该方法应在这种零-shot模式下理想地生成度量深度图,以准确重现物体形状、场景布局和绝对比例,”研究人员写道,强调该模型在减少与传统AI模型训练相关的时间和成本方面的潜力。

应对深度估计的挑战

深度估计面临的最大挑战之一是处理所谓的“漂浮像素”——由于深度映射中的错误而在空中悬浮的像素。Depth Pro直面这一问题,使其在3D重建和虚拟环境等需要准确性的应用中尤其有效。

此外,Depth Pro在边界追踪方面表现优异,超越了以前的模型,能够清晰划分物体及其边缘。研究人员声称其在边界精度上“超越其他系统一个倍数”,这对于需要精确物体分割的应用(如图像抠图和医学成像)至关重要。

为了加速其采用,苹果将Depth Pro开源。代码和预训练模型权重可在GitHub上获取,允许开发者和研究人员实验并进一步完善这项技术。该库包括从模型架构到预训练检查点的所有内容,使其他人能够轻松基于苹果的工作进行开发。

AI深度感知的未来

随着人工智能不断突破可能性的边界,Depth Pro在单目深度估计的速度和精度方面树立了新的标准。其能够从单张图像生成高质量、实时的深度图的能力,可能对依赖空间感知的行业产生广泛影响。

在一个AI日益成为决策和产品开发中心的世界里,Depth Pro展示了尖端研究如何转化为实际的、现实世界的解决方案。无论是改善机器对周围环境的感知,还是提升消费者体验,Depth Pro的潜在用途都是广泛而多样的。

正如研究人员总结的那样,“Depth Pro在物体边界的清晰划分上大大超越了所有先前的工作,包括头发、毛发和植物等精细结构。”随着开源发布,Depth Pro可能很快成为从自动驾驶到AR等行业的核心,改变机器与人类在3D环境中的互动方式。

AI创业者


代码地址:


https://github.com/apple/ml-depth-pro

#社区日报 1、【经验与SOP】AI时代SaaS产品定价的演变 - 如何调整以及模版参考2、基于Web的实时动作捕捉工具,视频可生成3D人物动作


3、【图谱+数据】AI大模型顶级公司OpenAI和Anthropic到底赚钱不?赚了多少钱?4、做AI数字宠物的创业者关注:专注于单张图片生成动物的3D模型,附带代码......5、今天看小扎最新采访说到“2030年智能眼镜取代手机”,翻到了Meta在AR+AI的10年产品路线图(2016年制定)


【社区成员扫码查看】


社区会员

—— End ——

【驶向互联网下一站社区】AI/一人商业/XR/前沿科技...你的最佳Copilot。昨日社区内容如下:

1、【SOP - 业务经验】如何利用生成式AI来培训员工: 

https://t.zsxq.com/EQmUb

2、面向技术人员的AI大模型日报 - 每天筛选全球hackernews上面的AI热点:

https://t.zsxq.com/s9KNZ

3、【盘点】YC Demo Day 1 中值得关注的10多家AI公司,看看全球都在做什么生意?https://t.zsxq.com/n6W6F

4、【AI风向标】打造电脑工作者的“AI助手”,以“万物快捷方式”简化日常工作流程,融资3000万美元:

https://t.zsxq.com/ir5Oh

5、【文字稿】Snap AR眼镜大揭秘 - 通往智能眼镜的道路(发展历程、光学技术等)

https://t.zsxq.com/QuSge

6、做VR射击游戏,7个月内突破2000万美元,83.5万玩家入坑,Quest平台发布后收入翻倍:

https://t.zsxq.com/mGEtv

7、【随想】空间计算/XR的现状——Meta Orion(优势亮点、不太理想的部分)

https://t.zsxq.com/tQBhY

8、AI代理最新趋势:AI Agent如何推动下一波企业自动化浪潮:

https://t.zsxq.com/4egYZ

9、2024年空间计算/XR的现状:

https://t.zsxq.com/mkG1I

10、【方案库】基于Quest或者Vision Pro做类似“空间回忆”产品的,关注一个AI NeRF方案:

https://t.zsxq.com/jE7Fi

如何查看:扫描下图二维码进入社区查阅:

三次方AIRX
加微:XDZ8833,进万人AI和XR创业者裙。三次方-聚焦下一代互联网的科技产业服务平台!包含媒体服务、智库、社区等业务!面向下一代互联网的创业者社区,关注AI、XR、一人商业等
 最新文章