点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
白小交 发自 凹非寺 量子位 | 公众号 QbitAI
无需用户提示,AI就可以识别万物!
而且精度更高、速度更快。
刚刚,IDEA研究院创院理事长沈向洋官宣IDEA研究院最新成果:通用视觉大模型DINO-X。它实现视觉任务大一统,支持各种开发世界感知和目标理解任务,包括开放世界对象检测与分割、短语定位、视觉提示计数、姿态估计、无提示对象检测与识别、密集区域字幕等。这背后得益于,他们构建了超过一亿高质量样本的大型数据集Grounding-100M。前者可为各种场景提供更强的感知能力,后者经过优化,推理速度更快,更适合部署在边缘设备上。实验结果表明,DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零镜头物体检测基准测试中分别获得了 56.0 AP、59.8 AP和 52.4 AP 的成绩。尤其是在 LVIS-minival 和 LVIS-val 这两个罕见类别的基准测试中实现新SOTA——分别获得了 63.3 AP 和 56.5 AP 的成绩,都比之前的SOTA性能提高了 5.8 AP。这一结果表明,它在识别长尾物体方面的能力有了显著提高。在开放世界,AI识别万物
首先就是全面检测,几乎可识别所有物体。DINO-X称得上目前业界检测最全的通用视觉模型,甚至无需用户提示。然后是泛化和通用性。在面对未见过的物体或环境时,模型仍能保持高水平的检测性能。细粒度目标理解:DINO-X通过统一多个视觉任务,实现了多样化输出,包括边界框、分割掩码、关键点和描述文本,提升了模型在复杂场景下的理解能力。多任务感知与理解:DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。长尾目标检测优化:为了支持长尾目标的检测任务,DINO-X不仅支持文本提示和视觉提示,还支持经过视觉提示优化的自定义提示。跟之前的版本 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro相比,此次通用视觉大模型DINO-X 进一步增强了语言理解能力,同时在密集物体检测场景中表现出色。如何做到?
DINO-X可接受文本提示、视觉提示和自定义提示,并能同时生成从粗略的表示(如边框)到精细的细节(包括遮罩、关键点和对象标题)等各种输出。DINO-X Pro的核心架构,与Grounding DINO 1.5类似,利用预先训练好的 ViT 模型作为主要的视觉骨干,并在特征提取阶段采用了深度早期融合策略。但不同的是,他们扩大了DINO-X Pro在输入阶段的提示支持,除了文本,还支持视觉提示和自定义提示,以满足包括长尾物体在内的各种检测需求。而对于DINO-X Edge版本,他们利用 EfficientViT作为高效特征提取的骨干,并采用了类似Transformer编码器-解码器架构。此外,为了提高 DINO-X Edge 模型的性能和计算效率,他们还对模型结构和训练技术做了几个方面的改进。更强的文本提示编码器,采用了与pro模型相同的 CLIP 文本编码器。知识提炼:从 Pro 模型中提炼知识,以提 Edge 模型的性能。具体来说,团队利用基于特征的蒸馏和基于响应的蒸馏,分别调整Edge模型和 Pro模型之间的特征和预测对数。改进FP16推理:采用浮点乘法归一化技术,在不影响精度的情况下将模型量化为 FP16。拥有了对开放世界的视觉感知
DINO-X的万物识别能力,让其拥有了对开放世界(Open World)的视觉感知,可以轻松应对真实世界中的众多不确定性和开放环境。IDEA研究院创院理事长沈向洋提到了具身智能、大规模多模态数据的自动标注、视障人士服务等这几个场景。对具身智能而言,开发环境感知和理解是核心能力,这其中的视觉感知更是机器和物理世界交互的基础。近期,聚焦人居环境具身智能核心技术攻关的福田实验室正式挂牌,该实验室正式由IDEA研究院与腾讯合作组建,致力于打造最前沿的具身智能创新平台。多模态模型通常需要处理大量的图片并生成图文对,而仅依靠人工标注的方式不仅耗时、成本高,而且在面对海量数据时难以保障标注的一致性和效率。DINO-X的万物识别能力,可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果,从而降低手工标注的工作量。视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求,DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音,为视障人士的未来生活带来美好希望。在自动驾驶、智能安防、工业检测等领域,DINO-X使得系统能够应对各种复杂场景,识别出传统模型难以检测的物体,为产业升级和社会发展注入新的活力。IDEA研究院一系列视觉大模型,为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题,提供了可行的方案。△Dino-X基座大模型零样本检测能力,为广大中小企业客户提供便捷高效的计数和标注工具
目前,IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作,在视觉大模型的落地方面取得了实质性进展。一方面,有别于市场上的以语言为基础的多模态大模型基于全图理解的方法, 通过在物体级别的理解上加入语言模块优化大模型幻觉问题。另一方面结合自研的“视觉提示优化”方法,无需更改模型结构,不用重新训练模型,实现小样本下的场景化定制。
△IDEA研究院通用视觉大模型行业平台架构
论文链接: https://arxiv.org/abs/2411.14347 官网链接:https://deepdataspace.com/home本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~