点击蓝字
关注我们
关注并星标
从此不迷路
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
Column of Computer Vision Institute
近期开源的 Deepseek V3,让国产 MoE 大模型在全球圈粉无数,一跃成为中国 AI 圈的顶流担当。
而作为中国具身智能的领军企业,智元也在2024年底放了个大招,携手上海人工智能实验室等单位重磅开源了AgiBot World,具身智能领域也迎来了「ImageNet」时刻!
AgiBot World(智元世界)—— 一个汇集百万真实机器人数据的开源数据集。在这个具身数据的世界里,机器人不再只是进行简单的桌面任务,而是全方位融入我们的日常生活。机器人和人类和谐相处世界的大幕,正在徐徐拉开。
2024,哪个场景最符合你对未来机器人的想象?
作你的「家务管家」,洗衣、做饭都交给它?
还是化身「打工人」在超市拣货、收银、整理货架?
亦或是工厂里的「永动机」,搬运、打包,不断电不下班?
这些「科幻片」里的场景已经在路上了!
欢迎来到 AgiBot World,一个汇集百万真实机器人数据的开源数据集。具身应用,数据先行,作为具身领域的 ImageNet,智元世界有望成为引领我们进入具身智能新时代的「通关密码」,让机器人的世界更加真实,从此告别「NPC」人生!
项目开源地址
HuggingFace:https://huggingface.co/agibot-world
Github:https://github.com/OpenDriveLab/agibot-world
项目主页:https://agibot-world.com/
是的,你没看错,加持了 AgiBot World 的百万真机数据,机器人的控制已经如此精细。现在就能在你家客厅优雅地插花了。
整套动作行云流水,用金属制的机械手抓取,娇嫩的花材也完好无损。
刷马桶这事,等到机器人「出师」后也能放心交给他,再也不用全家抽签确定谁去刷了。
具身智能领域的 ImageNet 何时到来?
Open X-Embodiment, ICRA 2024
谷歌 DeepMind 通过整合来自 22 种不同本体机器人的数据构建了 Open X-Embodiment数据集,但大部分数据缺乏统一标准化的采集流程,且许多机器人构型已经过时,数据质量格式参差不齐,在机器人策略学习的过程中甚至会带来副作用。
为实现规范化的数据采集,来自斯坦福、伯克利、谷歌等构建了 DROID 数据集,尽管涵盖了相对丰富的场景与技能,然而作者团队在后续研究中指出 DROID 存在大量低质量数据,从而给机器人的学习过程造成「困惑」。
一些具身大模型初创公司基于自采集的大规模高质量双臂机器人数据训练的模型展现出了整理、分拣、洗衣等执行复杂动作的能力,这进一步印证了高质量数据在当前具身智能领域研究阶段的重要性,但相关数据集目前仅在公司内部使用,并未开源。
AgiBot World
让高质量机器人数据触手可及
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。
这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。
通过汇聚顶尖资源与技术力量,各方将共同推动具身智能发展新范式,加速人类迈向通用人工智能的新时代,在全球范围内奠定中国在这一前沿领域的领导地位。
AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。
相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。
多样任务,十八般武艺样样精通
插内存条的过程需要毫米级精细控制,稍有不慎可能导致设备损坏,如神经纤维般灵敏的末端触觉传感器助力机器人精准对接。
饭后勺筷碗盘层层堆叠在洗碗池中,在这条数据中,机器人将杂乱的餐具一一准确无误地整理至洗碗机相应卡槽中,整理洗碗机的操作流程长、动作繁琐。
熨衣服是个「精细活儿」,只见机器人双手协作,一只手稳稳抓住衬衫的一角,另一只手精准控制挂烫机与衣物的距离,细致地熨烫每一道褶皱,让衣物焕发平整光泽。
对于大件物体搬运,单机器人难以完成。两个机器人分工协作,可以分担重量,也能实时调整位置与角度,以确保物体搬运过程中稳定安全。
家居场景再现真实住宅布局,包括卧室、客厅、厨房、卫生间等核心空间,可以实现家务清洁、物品整理和厨房任务等 超市场景高度还原超市货架布局与收银区设计,包含生鲜、日用、冷冻等多个品类区域,可以模拟物品上架、货物盘点、顾客引导、无人结算等 餐厅场景实现智能服务体验,模拟前厅、后厨与用餐区域,包括点餐台、备餐区、餐桌等,可以实现餐厅服务(点餐、上菜、清理餐桌)、食材传递、后厨协作等 工业场景模拟分拣与物流自动化,复刻工业仓库与生产线,包括分拣系统、打包设备、传输带等,可以实现物料分拣、包装打包、物流搬运等
360° 感知:8 个摄像头环绕式布局,能够实时全方位感知周围环境的动态变化。 灵巧操作:可配备具有 6 个主动自由度的灵巧手,保障动作精准且灵活,能够完成熨衣服等多种复杂操作。 末端精细感知:标配末端六维力传感器,并可配备高精度视触觉传感器,能够感知力的微小变化,做到「拿捏有度」,从容完成各种精细操作。 高自由度:全身最高 32 个自由度,灵活应对洗衣、做饭、分拣、搬运等复杂任务。
任务设计:从设计初稿和设计迭代流程中,邀请了学术界、工业界、消费者多视角进行任务把关。这样设计出的任务更加贴近真实的工作和生活场景。 数据采集:从采集员培训到采集质量把控,由完善的管理体系和专业的管理团队进行全程保障。 审核标注:对于采集的数据,首先会经过端云两侧的严格筛选,自动剔除不符合要求的数据。此外,专业的审核员会对全量数据进行逐帧审核,确保每一个动作都符合任务标准,并对关键帧和数据特性进行多维度标注。 算法验证:通过人工审核的数据还会进一步通过算法进行验证。对于未能通过验证的数据,会重新设计任务进行数据补采,确保数据可用性。
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
往期推荐
🔗
Drone-YOLO:一种有效的无人机图像目标检测 机场项目:解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题 2PCNet:昼夜无监督域自适应目标检测(附原代码) YOLO-S:小目标检测的轻量级、精确的类YOLO网络 大改Yolo框架 | 能源消耗极低的目标检测新框架(附论文下载) 改进的检测算法:用于高分辨率光学遥感图像目标检测 小米平板6 Max-Yolo:在便携终端上实时检测不再是难题 旋转角度目标检测的重要性!!!(附源论文下载) PE-YOLO:解决黑夜中的目标检测难点 EdgeYOLO:边缘设备上实时运行的目标检测器及Pytorch实现 Q-YOLO:用于实时目标检测的高效推理