深度是啥?近大远小就是深度,它反映了物体到你的距离。热知识:人的两只眼睛形成立体视觉,可以轻松判断远处的山,近处的人。同样地,机器也需要至少两个摄像头去判断物体远近,然而实际情况却是,他们通常只有一个视角,那么这还能判断物体远近吗?
答案当然可以!港大&抖音联合给出解决方案:直接上大模型,单眼感知深度。链接自取:https://huggingface.co/spaces/LiheYoung/Depth-Anything
请欣赏论文中的效果:
上面四个场景展示了室内静物、人群、室外高楼,具有不同的深度信息,而该模型均能够较好地感知这些场景内不同地物的远近程度,说明了其泛化性能较强。注意到,真实的样本获取代价较高,且不易获取,而该模型提供了一种低廉的获取方式,这对于抠图非常有利!
本着实践出真理的原则,本螺丝钉也尝试了一下,下面是用了手机拍照的结果:
本着遥感螺丝钉的称号,上一些遥感影像看看:
这效果也有点太逆天了,上图显示,对于一张俯视图(遥感卫星影像),该模型仍然能够有效识别出建筑和地面的远近,说明啥,说明咱们遥感人赶快学(juan) 起来!