重磅首播!既要做“通才”,又要做“专才”,如何构建通用可泛化的机器人来精准执行任务?

财富   2024-11-17 11:31   北京  

构建通用可泛化的机器人操作策略目前成为领域内的关注热点,而数据的稀缺性使得机器人基础模型(Foundation Model)难以直接复制大语言模型的成功路径。本次具身智能之心邀请了OpenDriveLab &上海交通大学联培博士生布清文分享他们近期在如何利用数据金字塔构建层次化机器人操作框架方向上的两篇探索性工作。

工作一:CLOVER--闭环视觉运动控制框架

论文链接:https://arxiv.org/abs/2409.09016

项目主页:https://github.com/OpenDriveLab/CLOVER

CLOVER采用基于文本的视频扩散模型,可生成视觉预测作为控制参考,并用此参考为后续闭环控制模块进行偏差估计。得益于闭环控制策略,该模型对视觉干扰和物体变化等情况具有良好的鲁棒性,获得精准且可靠的状态控制及优秀的长时序任务性能。

来源:https://arxiv.org/abs/2409.09016 , Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation.

图 1 展示了 CLOVER 基于逆动力学模型(IDM)框架生成未来子目标以建立闭环策略。在背景干扰存在的情况下,行为克隆(BC)方法(如 ACT、RT - 1)无法抵抗视觉干扰,而 CLOVER 由于其闭环属性,表现出较强的鲁棒性。

工作二:RoboDual--行业首款通用具身操作的双系统协同框架

论文链接:https://arxiv.org/abs/2410.08001

项目主页:https://github.com/OpenDriveLab/RoboDual

智元机器人携手上海人工智能实验室成功打造了行业首款通用具身操作的双系统协同框架——RoboDual。
RoboDual模型框架

这一创新成果将Generalist(通才)的广泛适应性也就是泛化能力,和Specialist(专才)的高效精准性完美融合,显著增强了机器人操作的灵活性和准确性。


在传统的具身智能机器人系统中,“大脑”负责环境理解、任务规划和决策,推理能力出众但实操效率不高;而“小脑”则专注于运动规划和控制,操作能力强但泛化能力有限。两者通常各自为战,难以实现协同作业。


智元机器人与上海人工智能实验室创新性地研发出RoboDual双系统协同框架,利用“小脑”低延迟、高精度、训练高效的优势来弥补“大脑”实操效率低下的不足。该框架直接部署在机器人边缘侧进行高效推理,“大小脑”交替执行任务。这种设计不仅提高了操作精度和降低了延迟,还大幅提升了场景和指令的泛化能力。同时,在单个任务或场景的微调上也更加高效,并在各项常见评测指标上超越了通才和专才模型。

RoboDual整体框架结构

研究发现,在具身走向通用的路径中,专用策略(Specialist Policy)低延迟、高精度、训练高效的特点刚好可以弥补当前通用模型(Generalist Policy)的劣势,于是团队提出了RoboDual工作,将Generalist的泛化能力和Specialist的精准高效结合到一个协同工作框架中,不仅在操作时的精度更高、延迟更低,还具备更强的场景、指令的泛化能力,同时对于单个任务或场景的微调更加高效。


转载自https://mp.weixin.qq.com/s/3kzk2oE04Jox-Px8vc348w

人工智能与量化交易算法知识库
黄含驰的人工智能、优化与量化交易算法知识库,干货满满,不容错过!
 最新文章