首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

科技 2024-11-22 16:49 北京

白小交发自凹非寺
量子位 | 公众号 QbitAI

无需用户提示，AI就可以识别万物！

而且精度更高、速度更快。

刚刚，IDEA研究院创院理事长沈向洋官宣IDEA研究院最新成果：通用视觉大模型DINO-X。

它实现视觉任务大一统，支持各种开发世界感知和目标理解任务，包括开放世界对象检测与分割、短语定位、视觉提示计数、姿态估计、无提示对象检测与识别、密集区域字幕等。

这背后得益于，他们构建了超过一亿高质量样本的大型数据集Grounding-100M。

与之前DINO家族中Grounding DINO 1.5类似，DINO-X 也分为DINO-X Pro模型和DINO-X Edge模型。

前者可为各种场景提供更强的感知能力，后者经过优化，推理速度更快，更适合部署在边缘设备上。

实验结果表明，DINO-X Pro 模型在 COCO、LVIS-minival 和 LVIS-val 零镜头物体检测基准测试中分别获得了 56.0 AP、59.8 AP和 52.4 AP 的成绩。

尤其是在 LVIS-minival 和 LVIS-val 这两个罕见类别的基准测试中实现新SOTA——

分别获得了 63.3 AP 和 56.5 AP 的成绩，都比之前的SOTA性能提高了 5.8 AP。

这一结果表明，它在识别长尾物体方面的能力有了显著提高。

在开放世界，AI识别万物

总结来看，DINO-X主要有四个方面的特点。

首先就是全面检测，几乎可识别所有物体。DINO-X称得上目前业界检测最全的通用视觉模型，甚至无需用户提示。

然后是泛化和通用性。在面对未见过的物体或环境时，模型仍能保持高水平的检测性能。

细粒度目标理解：DINO-X通过统一多个视觉任务，实现了多样化输出，包括边界框、分割掩码、关键点和描述文本，提升了模型在复杂场景下的理解能力。

多任务感知与理解：DINO-X整合了多个感知头，支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务，让感知到理解逐步成为了现实。

长尾目标检测优化：为了支持长尾目标的检测任务，DINO-X不仅支持文本提示和视觉提示，还支持经过视觉提示优化的自定义提示。

跟之前的版本 GroundingDINO 1.5 Pro 和 Grounding DINO 1.6 Pro相比，此次通用视觉大模型DINO-X 进一步增强了语言理解能力，同时在密集物体检测场景中表现出色。

如何做到？

DINO-X可接受文本提示、视觉提示和自定义提示，并能同时生成从粗略的表示（如边框）到精细的细节（包括遮罩、关键点和对象标题）等各种输出。

DINO-X Pro的核心架构，与Grounding DINO 1.5类似，利用预先训练好的 ViT 模型作为主要的视觉骨干，并在特征提取阶段采用了深度早期融合策略。

但不同的是，他们扩大了DINO-X Pro在输入阶段的提示支持，除了文本，还支持视觉提示和自定义提示，以满足包括长尾物体在内的各种检测需求。

而对于DINO-X Edge版本，他们利用 EfficientViT作为高效特征提取的骨干，并采用了类似Transformer编码器-解码器架构。

此外，为了提高 DINO-X Edge 模型的性能和计算效率，他们还对模型结构和训练技术做了几个方面的改进。

更强的文本提示编码器，采用了与pro模型相同的 CLIP 文本编码器。

知识提炼：从 Pro 模型中提炼知识，以提 Edge 模型的性能。具体来说，团队利用基于特征的蒸馏和基于响应的蒸馏，分别调整Edge模型和 Pro模型之间的特征和预测对数。

改进FP16推理：采用浮点乘法归一化技术，在不影响精度的情况下将模型量化为 FP16。

拥有了对开放世界的视觉感知

DINO-X的万物识别能力，让其拥有了对开放世界（Open World）的视觉感知，可以轻松应对真实世界中的众多不确定性和开放环境。

IDEA研究院创院理事长沈向洋提到了具身智能、大规模多模态数据的自动标注、视障人士服务等这几个场景。

对具身智能而言，开发环境感知和理解是核心能力，这其中的视觉感知更是机器和物理世界交互的基础。近期，聚焦人居环境具身智能核心技术攻关的福田实验室正式挂牌，该实验室正式由IDEA研究院与腾讯合作组建，致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对，而仅依靠人工标注的方式不仅耗时、成本高，而且在面对海量数据时难以保障标注的一致性和效率。DINO-X的万物识别能力，可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果，从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求，DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音，为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域，DINO-X使得系统能够应对各种复杂场景，识别出传统模型难以检测的物体，为产业升级和社会发展注入新的活力。

IDEA研究院一系列视觉大模型，为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题，提供了可行的方案。

△Dino-X基座大模型零样本检测能力，为广大中小企业客户提供便捷高效的计数和标注工具

目前，IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作，在视觉大模型的落地方面取得了实质性进展。

一方面，有别于市场上的以语言为基础的多模态大模型基于全图理解的方法，通过在物体级别的理解上加入语言模块优化大模型幻觉问题。

另一方面结合自研的“视觉提示优化”方法，无需更改模型结构，不用重新训练模型，实现小样本下的场景化定制。

△IDEA研究院通用视觉大模型行业平台架构

论文链接： https://arxiv.org/abs/2411.14347

官网链接：https://deepdataspace.com/home

— 完 —

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025智能未来大会探讨行业破局之道了！

首批嘉宾阵容在此，观众报名通道已开启！欢迎来到MEET智能未来大会，期待与您一起预见智能科技新未来！

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247760605&idx=1&sn=a3ddd410290301559741528daaba62df

追踪人工智能新趋势，关注科技行业新突破

最新文章

黄仁勋港科大全程高能：对话沈向洋，现场发显卡，与梁朝伟共同获得荣誉博士学位

乌镇最火AI议题，原来答案藏在这份报告里

AI推演OpenAI内斗结果：奥特曼仅有20%胜率，马斯克也有机会接盘？？？

将活体神经元植入大脑，他和马斯克闹掰后开辟脑机接口新路线

限定120分钟科研挑战，o1和Claude表现超越人类

可口可乐pick可灵，用AI拍了新广告片

经典卡尔曼滤波器改进视频版「分割一切」，网友：好优雅的方法

Nature：谷歌学术正在被AI工具颠覆

20种复杂Excel操作一句话搞定！北大ChatExcel全新升级，所有人免费可用

最新嘉宾阵容来了！MEET2025智能未来大会正在报名中

陶哲轩宣布“等式理论计划”成功，人类AI协作，57天完成2200万+数学关系证明

Claude自动玩崩铁清日常，NUS新论文完整测评AI电脑操控：GUI智能体的黎明

40亿美元！Anthropic再获亚马逊新一轮投资，双方正合作开发AI芯片

AI模仿人类看漫画，视频大模型时序定位能力新SOTA

低成本机器人“皮肤”登上Nature子刊：实现三维力的自解耦，来自法国国家科学研究中心&香港大学

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

百度AI营收占比翻倍，净利润涨12%，李彦宏主动剧透新版文心大模型

第二波嘉宾曝光！二十位科技圈大咖齐聚MEET2025智能未来大会

汽车上的《Her》：模型竟然想做个人了，甩掉机械感，让灵魂有趣，来自吉利的全新尝试

王炸！谁能想到年底杀出的黑马是美图啊

谷歌Gemini突发试验版模型，重回竞技榜第一！新版GPT-4o只领先了1天

FLUX“官方版ControlNet”来了！景深轮廓更精准控制，共四款官方工具一齐上线

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

2D图纸分分钟转3D模型！杭州独角兽补齐空间智能关键一环，现公开两大技术引擎

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

史上最严“中文真实性评估”：OpenAI o1第1豆包第2，其它全部不及格

OpenAI重夺竞技场第一，但这波靠的是4o

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

让模型预见数据分布变化，东京大学等提出时态域泛化全新框架

定档12月11日，MEET2025智能未来大会报名通道已开启！

DeepSeek版o1炸场，数学代码超越OpenAI，每天免费玩50次，后续将开源

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉