刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

科技 2024-11-23 07:00 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

白小交发自凹非寺量子位 | 公众号 QbitAI

无需用户提示，AI就可以识别万物！

而且精度更高、速度更快。

刚刚，IDEA研究院创院理事长沈向洋官宣IDEA研究院最新成果：通用视觉大模型DINO-X。

它实现视觉任务大一统，支持各种开发世界感知和目标理解任务，包括开放世界对象检测与分割、短语定位、视觉提示计数、姿态估计、无提示对象检测与识别、密集区域字幕等。

这背后得益于，他们构建了超过一亿高质量样本的大型数据集Grounding-100M。

与之前DINO家族中Grounding DINO 1.5类似，DINO-X 也分为DINO-X Pro模型和DINO-X Edge模型。

前者可为各种场景提供更强的感知能力，后者经过优化，推理速度更快，更适合部署在边缘设备上。

实验结果表明，DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零镜头物体检测基准测试中分别获得了 56.0 AP、59.8 AP和 52.4 AP 的成绩。

尤其是在 LVIS-minival 和 LVIS-val 这两个罕见类别的基准测试中实现新SOTA——

分别获得了 63.3 AP 和 56.5 AP 的成绩，都比之前的SOTA性能提高了 5.8 AP。

这一结果表明，它在识别长尾物体方面的能力有了显著提高。

在开放世界，AI识别万物

总结来看，DINO-X主要有四个方面的特点。

首先就是全面检测，几乎可识别所有物体。DINO-X称得上目前业界检测最全的通用视觉模型，甚至无需用户提示。

然后是泛化和通用性。在面对未见过的物体或环境时，模型仍能保持高水平的检测性能。

细粒度目标理解：DINO-X通过统一多个视觉任务，实现了多样化输出，包括边界框、分割掩码、关键点和描述文本，提升了模型在复杂场景下的理解能力。

多任务感知与理解：DINO-X整合了多个感知头，支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务，让感知到理解逐步成为了现实。

长尾目标检测优化：为了支持长尾目标的检测任务，DINO-X不仅支持文本提示和视觉提示，还支持经过视觉提示优化的自定义提示。

跟之前的版本 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro相比，此次通用视觉大模型DINO-X 进一步增强了语言理解能力，同时在密集物体检测场景中表现出色。

如何做到？

DINO-X可接受文本提示、视觉提示和自定义提示，并能同时生成从粗略的表示（如边框）到精细的细节（包括遮罩、关键点和对象标题）等各种输出。

DINO-X Pro的核心架构，与Grounding DINO 1.5类似，利用预先训练好的 ViT 模型作为主要的视觉骨干，并在特征提取阶段采用了深度早期融合策略。

但不同的是，他们扩大了DINO-X Pro在输入阶段的提示支持，除了文本，还支持视觉提示和自定义提示，以满足包括长尾物体在内的各种检测需求。

而对于DINO-X Edge版本，他们利用 EfficientViT作为高效特征提取的骨干，并采用了类似Transformer编码器-解码器架构。

此外，为了提高 DINO-X Edge 模型的性能和计算效率，他们还对模型结构和训练技术做了几个方面的改进。

更强的文本提示编码器，采用了与pro模型相同的 CLIP 文本编码器。

知识提炼：从 Pro 模型中提炼知识，以提 Edge 模型的性能。具体来说，团队利用基于特征的蒸馏和基于响应的蒸馏，分别调整Edge模型和 Pro模型之间的特征和预测对数。

改进FP16推理：采用浮点乘法归一化技术，在不影响精度的情况下将模型量化为 FP16。

拥有了对开放世界的视觉感知

DINO-X的万物识别能力，让其拥有了对开放世界（Open World）的视觉感知，可以轻松应对真实世界中的众多不确定性和开放环境。

IDEA研究院创院理事长沈向洋提到了具身智能、大规模多模态数据的自动标注、视障人士服务等这几个场景。

对具身智能而言，开发环境感知和理解是核心能力，这其中的视觉感知更是机器和物理世界交互的基础。近期，聚焦人居环境具身智能核心技术攻关的福田实验室正式挂牌，该实验室正式由IDEA研究院与腾讯合作组建，致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对，而仅依靠人工标注的方式不仅耗时、成本高，而且在面对海量数据时难以保障标注的一致性和效率。DINO-X的万物识别能力，可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果，从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求，DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音，为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域，DINO-X使得系统能够应对各种复杂场景，识别出传统模型难以检测的物体，为产业升级和社会发展注入新的活力。

IDEA研究院一系列视觉大模型，为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题，提供了可行的方案。

△Dino-X基座大模型零样本检测能力，为广大中小企业客户提供便捷高效的计数和标注工具

目前，IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作，在视觉大模型的落地方面取得了实质性进展。

一方面，有别于市场上的以语言为基础的多模态大模型基于全图理解的方法，通过在物体级别的理解上加入语言模块优化大模型幻觉问题。

另一方面结合自研的“视觉提示优化”方法，无需更改模型结构，不用重新训练模型，实现小样本下的场景化定制。

△IDEA研究院通用视觉大模型行业平台架构

论文链接： https://arxiv.org/abs/2411.14347

官网链接：https://deepdataspace.com/home

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247711690&idx=3&sn=ae35b02c5ddea6943557b823e1d52f4c

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

一位阿里P9的年薪和家庭资产

章国锋团队开启SfM新篇章！DATAP-SfM：动态感知跟踪一切！

无人机流式输出视频没有用？Video2BEV：通过3D高斯与视频提升无人机定位精度

CVPR，ICCV，ECCV，AAAI，IJCAI等顶会的评分机制是怎样的？

KW-MINI | 精度0.05mm！体积超小！重量超轻！结构光3D相机！

卡尔曼滤波YYDS！「分割一切」遇上「跟踪一切」！前谷歌经理直呼“优雅”

全面理解运动预测、规划、建图！DriveMLLM：自动驾驶多模态的空间理解基准

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

具身智能还有多久才能落地？

科技部发文：对短期内发表多篇论文、取得多项专利等成果的，开展专项数据核查！

那些从自动驾驶“跳槽”进具身智能的大佬们，都来自哪家公司？

Adobe重磅开源DiffusionGS：融入3DGS到扩散模型，6s完成三维重建！

清华大学＋具身智能+ Visuomotor控制任务=？

NeurIPS'24｜VL-SAM：北大出品，完全无训练的开放式检测分割模型

匹配一切！Stereo Anything：统一立体匹配和大规模混合数据！

今晚八点开课！彻底搞懂扩散模型基本原理与实战教程！

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

用YOLO实现无人机桥梁检查，到底应该选择哪个模型？

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

零基础入门大模型：从理论到实战

三维重建大一统！2分钟生成超真细节的3D形状、Mesh、纹理、材质！

清华开源RDT-1B，揭秘全球最大的双臂机器人扩散大模型

扩散模型为什么能成为学术界和工业界的团宠？

程序员在古代算文官还是武官？

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

白小交 发自 凹非寺 量子位 | 公众号 QbitAI

无需用户提示，AI就可以识别万物！

而且精度更高、速度更快。

在开放世界，AI识别万物

如何做到？

拥有了对开放世界的视觉感知

△Dino-X基座大模型零样本检测能力，为广大中小企业客户提供便捷高效的计数和标注工具

△IDEA研究院通用视觉大模型行业平台架构

3D视觉工坊知识星球

3D视觉模组选型：www.3dcver.com

白小交发自凹非寺量子位 | 公众号 QbitAI