SmartFlowAI
点击上方蓝字关注我们
作者:周善斌,沈阳工业大学赫兹矩阵机器人实验室负责人
全文约 3000 字,预计阅读时间 6 分钟
引言
在构建具身智能技术上,一个良好的学习进化架构至关重要,回顾在上一篇《一文带你初步理解具身智能前世今生》中讲到如今市面上常见的两种具身智能学习进化架构技术路线,本文我们将会详细探讨这两种技术路线的特征和差异,并对这两种架构做出未来的设想。
让我们先大致回顾下两种学习模型的特征:
主流发展一:以 OpenAI 与 Figure 合作为代表的分层决策模型
分层决策模型大致解读:
第一层OpenAI model,通过OpenAI多模态大模型感知决策同时实现,模型整合任务、环境和本体的感知信息。 第二层Neural Network Policies,以RL模型为具身模型,从而实现大模型的环境感知到动作的规划。 第三层Whole Body Controller,最后通过传统的运动学控制算法k控制机器人完成具体动作
根据以上的解读,你对这分层决策模型已经分别有了大致的了解。
对于分层决策模型,最形象的比喻是一个像搭积木的大脑。
想象一下,这种大脑就像一座精密的大楼,每一层都有专门的"部门"负责不同工作:
顶层负责整体规划,决定"要做什么" 中层负责具体决策,思考"怎么做" 底层负责执行控制,完成"具体动作"
在架构设计上,分层决策模型(OpenAI/Figure)会将任务分解为规划、决策和控制多个层次,在每层有专门的模型负责特定功能,其更强调模块化和可解释性,以及各层可独立优化和升级。
在任务层级功能上,分层决策模型当中各个层级的功能职责往往不同。
在最顶层-规划层(Planning Layer),其功能定位:战略决策层。其主要职责主要职责:
(一)负责任务理解与分解,理解人类指令或环境目标,将复杂任务分解成子任务序列,制定完成任务的整体策略。
(二)高级认知处理,进行场景理解与语义分析,长期目标规划,任务优先级排序,资源分配决策。
(三)抽象推理,因果关系分析,类比推理,经验总结与应用。
实际例子:
假设任务是"整理房间",规划层执行步骤为:
分析房间状况 拆分成:清理地面→整理桌面→收纳物品等子任务 确定执行顺序和重要性
在中层-决策层(Decision Layer),其功能定位:战术决策层。主要职责:
(一)动作序列生成,将子任务转化为具体动作序列,计算动作可行性,优化动作路径。
(二)状态评估,实时环境状态分析,动作执行效果评估,意外情况处理策略。
(三)适应性调整,根据反馈调整动作参数,处理环境变化,动态路径规划。
实际例子:
对于"收纳物品"这个子任务,决策层会:
识别物品类型和位置 规划抓取姿态和力度 确定放置位置和方式
在底层-控制层(Control Layer),其功能定位:执行控制层。主要职责:
(一)运动控制,精确的关节控制,实时轨迹跟踪,力反馈调节
(二)感知处理,传感器数据实时处理,位置和姿态估计,碰撞检测与避免
(三)安全保障,急停保护,过载保护,异常状态处理
实际例子:
执行"抓取物品"时,控制层负责:
控制机械臂运动到指定位置 调节抓取力度 保持稳定性
另外还有层间协作机制:
(一)会通过自上而下的指令流:
1.规划层→决策层:传递任务目标和约束条件。
2.决策层→控制层:下发具体动作指令
(二)自下而上的反馈流:
控制层→决策层:报告执行状态 决策层→规划层:更新任务进度
(三)实时调整:
各层都有独立的反馈闭环 可以根据情况动态调整策略
每层之间往往都有不同的关键技术支撑:
(一)算法支持:
规划层:大语言模型、知识图谱 决策层:强化学习、路径规划 控制层:自适应控制、视觉伺服
(二)架构特点:
模块化设计 可并行处理 容错机制
(三)优化方向:
层间通信效率 决策实时性 系统鲁棒性
这种分层架构的设计理念类似于人类的思维过程:从宏观到微观,从抽象到具体,每一层都专注于自己的职责,又通过紧密的配合完成复杂任务。这种设计使系统既有很强的可控性和可解释性,又保持了较好的灵活性和适应性。
他的优点十分显而易见,功能模块之间像搭积木一样容易改进,模块与模块之间出问题容易找到原因,并且不需要特别多的训练数据。缺点是较多模块的设计导致系统比较复杂,并且各个部分配合可能不够默契,集体反应可能较慢。
主流发展二、以 Google RT-2 为代表的端到端模型
端到端模型策略大致解读:
第一步,先在大规模互联网数据上预训练 VLMs,然后在机器人任务上微调。 第二步,输入是任务和对象的组合,输出是一系列动作。 第三步,利用大模型完成从输入到感知、推理、决策和行为指令输出的全过程。
然而,对于对于端到端模型,更像是一个一气呵成的大脑。
这种方案更像是一个"天才",看到什么情况立即就知道该怎么做,不需要复杂的思考过程。就像武侠高手,看到对手出招就能立即反应,招招相连,一气呵成。
这种方法:
直接从"看到的场景"到"具体动作" 不需要中间层层推理 完全依靠大量练习形成"条件反射"
他是如何将所有场景的信息集成并且做出应答的呢?这个模型内部有三个部分:输入层,编码器,解码器。
从结构层级看:
一、信息收集(输入层)主要分为以下三步:
(一)多感官信息采集
视觉系统:高清摄像头捕捉环境图像,深度相机测量空间距离,立体视觉构建3D场景。 触觉系统:压力传感器感知接触力,力矩传感器测量扭转力,温度传感器检测物体温度。 听觉系统:麦克风阵列接收声音,语音指令识别,环境声音分析。
(二)信息预处理
图像处理:降噪和增强,色彩平衡,畸变校正。 信号滤波:去除电气噪声,平滑力信号,消除震动干扰
(三)数据同步:时间对齐,不同传感器数据时间戳同步处理,延迟补偿,丢帧修复,空间配准,多相机标定,坐标系转换,传感器融合。
二、思考分析(编码器层)
(一)场景理解
物体识别:目标检测,姿态估计,类别分类。 空间分析:场景分割,深度估计,3D重建。
(二)状态提取
(三)预测模块
动作效果预测:物理模拟,轨迹预测,结果估计。 风险评估:碰撞预测,稳定性分析,安全评估。
三、行动指挥(解码器层)
(一)动作规划
(二)执行控制
轨迹生成:路径规划,速度规划,加速度优化。 运动控制:位置控制,力控制,阻抗控制。
(三)实时调整
反馈控制:位置误差补偿,力反馈调节,轨迹实时修正。 异常处理:碰撞检测与响应,超限保护,急停机制。
实际例子:
【三者协同工作示例】
以"拿起杯子"任务为例:
(一)信息收集(输入层)
看到杯子的形状、位置 感知杯子的重量、材质 到具体指令要求
(二)思考分析(编码器层)
理解杯子的位置和姿态 分析最佳抓取点 预测需要的抓取力度
(三)行动指挥(解码器层)
规划手臂移动轨迹 控制抓取器开合 实时调整抓取力度
其工作流程图大致如下由此方便大家理解:
端到端模型(RT-2)会直接从感知到动作的映射,使用单一统一模型完成所有任务,更加注重强调端到端训练的简洁性,并且更依赖大规模数据驱动。他的优点相比于分层决策模型,结构简单直接,反应更快,决策潜力更大。缺点为需要海量训练数据,而且不容易理解它为什么这么做,其训练成本很高。
我们可以大致总结出下表,其技术特点对比:
分层决策模型 端到端模型
──────── ───────
高可解释性 ←→ 高集成度
模块独立 ←→ 统一架构
显式规划 ←→ 隐式学习
安全可控 ←→ 性能优先
灵活升级 ←→ 整体优化
两者的应用场景倾向,分层决策模型往往倾向于高精度工业场景,安全关键任务,需要精确控制的场景。端到端模型更倾向于家庭服务场景,交互式应用,需要快速响应。
对于这两种架构的未来发展展望,未来将会出现一种混合型的架构方案,在重要决策使用封层方式,在简单的反应使用端到端的方式,优势互补,场景适应和性能平衡。相比于现行两种处理方式,混合架构的核心优势,我觉得会体现在决策分级处理,分层优势的可解释性,安全性,模块化得到保留,并将端到端的实时响应和隐式学习能力融入。
如猜想的混合架构(仅供参考)大致下图所示:
高层决策(分层架构)
│
├── 任务理解
├── 目标分解
├── 安全约束
│
中层规划(混合处理)
│
├── 动作序列
├── 资源调度
├── 状态监控
│
底层执行(端到端)
│
├── 技能执行
├── 实时控制
└── 环境适应
对其混合架构的平衡策略猜想如下:
在场景适应性平衡
(一)高精度场景下,以分层架构为主,端到端辅助优化,严格安全控制。
(二)快速响应场景,以端到端为主,分层架构监督,柔性安全约束。
性能与安全平衡
(一)安全保障,关键决策分层控制,行为边界限制,异常检测处理。
(二)性能提升,非关键环节端到端,参数在线优化,经验持续积累。
计算资源平衡
(一)资源分配,任务优先级,实时性要求,计算负载。
(二)并行处理,模块独立运行,资源动态调度,负载均衡。
结语
本篇对于混合架构部分多为本人猜想方向,仅供参考。在下一篇中我们会大致讲解具身智能的市场前景以及硬软件水平,让大家更加深入理解具身智能发展的环境以及上下游关系。
往期 · 推荐
🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!
一起“点赞”三连👇