深度感知一切|自港大&抖音的DepthAnythig

文摘   2024-02-01 15:42   湖北  

深度是啥?近大远小就是深度,它反映了物体到你的距离。热知识:人的两只眼睛形成立体视觉,可以轻松判断远处的山,近处的人。同样地,机器也需要至少两个摄像头去判断物体远近,然而实际情况却是,他们通常只有一个视角,那么这还能判断物体远近吗?

答案当然可以!港大&抖音联合给出解决方案:直接上大模型,单眼感知深度。链接自取:https://huggingface.co/spaces/LiheYoung/Depth-Anything

请欣赏论文中的效果:

上面四个场景展示了室内静物、人群、室外高楼,具有不同的深度信息,而该模型均能够较好地感知这些场景内不同地物的远近程度,说明了其泛化性能较强。注意到,真实的样本获取代价较高,且不易获取,而该模型提供了一种低廉的获取方式,这对于抠图非常有利!

本着实践出真理的原则,本螺丝钉也尝试了一下,下面是用了手机拍照的结果:

本着遥感螺丝钉的称号,上一些遥感影像看看:


这效果也有点太逆天了,上图显示,对于一张俯视图(遥感卫星影像),该模型仍然能够有效识别出建筑和地面的远近,说明啥,说明咱们遥感人赶快学(juan) 起来!

城市感知计算
认识世界和改造世界,张岩博士和志愿者团队搭建的非盈利城市科学分享平台,欢迎加好友学术交流。
 最新文章