一文带你了解具身智能的学习进化架构技术路线

科技   2024-11-02 22:23   北京  

SmartFlowAI


点击上方蓝字关注我们

作者:周善斌,沈阳工业大学赫兹矩阵机器人实验室负责人

全文约 3000 字,预计阅读时间 6 分钟

引言

在构建具身智能技术上,一个良好的学习进化架构至关重要,回顾在上一篇《一文带你初步理解具身智能前世今生》中讲到如今市面上常见的两种具身智能学习进化架构技术路线,本文我们将会详细探讨这两种技术路线的特征和差异,并对这两种架构做出未来的设想。

让我们先大致回顾下两种学习模型的特征:

主流发展一:以 OpenAI 与 Figure 合作为代表的分层决策模型

分层决策模型大致解读:

  1. 第一层OpenAI model,通过OpenAI多模态大模型感知决策同时实现,模型整合任务、环境和本体的感知信息。
  2. 第二层Neural Network Policies,以RL模型为具身模型,从而实现大模型的环境感知到动作的规划。
  3. 第三层Whole Body Controller,最后通过传统的运动学控制算法k控制机器人完成具体动作

根据以上的解读,你对这分层决策模型已经分别有了大致的了解。

对于分层决策模型,最形象的比喻是一个像搭积木的大脑。

想象一下,这种大脑就像一座精密的大楼,每一层都有专门的"部门"负责不同工作:

  1. 顶层负责整体规划,决定"要做什么"
  2. 中层负责具体决策,思考"怎么做"
  3. 底层负责执行控制,完成"具体动作"

在架构设计上,分层决策模型(OpenAI/Figure)会将任务分解为规划、决策和控制多个层次,在每层有专门的模型负责特定功能,其更强调模块化和可解释性,以及各层可独立优化和升级。

在任务层级功能上,分层决策模型当中各个层级的功能职责往往不同。

在最顶层-规划层(Planning Layer),其功能定位:战略决策层。其主要职责主要职责:

(一)负责任务理解与分解,理解人类指令或环境目标,将复杂任务分解成子任务序列,制定完成任务的整体策略。

(二)高级认知处理,进行场景理解与语义分析,长期目标规划,任务优先级排序,资源分配决策。

(三)抽象推理,因果关系分析,类比推理,经验总结与应用。

实际例子:

假设任务是"整理房间",规划层执行步骤为:

  1. 分析房间状况
  2. 拆分成:清理地面→整理桌面→收纳物品等子任务
  3. 确定执行顺序和重要性

在中层-决策层(Decision Layer),其功能定位:战术决策层。主要职责:

(一)动作序列生成,将子任务转化为具体动作序列,计算动作可行性,优化动作路径。

(二)状态评估,实时环境状态分析,动作执行效果评估,意外情况处理策略。

(三)适应性调整,根据反馈调整动作参数,处理环境变化,动态路径规划。

实际例子:

对于"收纳物品"这个子任务,决策层会:

  1. 识别物品类型和位置
  2. 规划抓取姿态和力度
  3. 确定放置位置和方式

在底层-控制层(Control Layer),其功能定位:执行控制层。主要职责:

(一)运动控制,精确的关节控制,实时轨迹跟踪,力反馈调节

(二)感知处理,传感器数据实时处理,位置和姿态估计,碰撞检测与避免

(三)安全保障,急停保护,过载保护,异常状态处理

实际例子:

执行"抓取物品"时,控制层负责:

  1. 控制机械臂运动到指定位置
  2. 调节抓取力度
  3. 保持稳定性

另外还有层间协作机制

(一)会通过自上而下的指令流:

1.规划层→决策层:传递任务目标和约束条件。

2.决策层→控制层:下发具体动作指令

(二)自下而上的反馈流:

  1. 控制层→决策层:报告执行状态
  2. 决策层→规划层:更新任务进度

(三)实时调整:

  1. 各层都有独立的反馈闭环
  2. 可以根据情况动态调整策略

每层之间往往都有不同的关键技术支撑

(一)算法支持:

  1. 规划层:大语言模型、知识图谱
  2. 决策层:强化学习、路径规划
  3. 控制层:自适应控制、视觉伺服

(二)架构特点:

  1. 模块化设计
  2. 可并行处理
  3. 容错机制

(三)优化方向:

  • 层间通信效率
  • 决策实时性
  • 系统鲁棒性

这种分层架构的设计理念类似于人类的思维过程:从宏观到微观,从抽象到具体,每一层都专注于自己的职责,又通过紧密的配合完成复杂任务。这种设计使系统既有很强的可控性和可解释性,又保持了较好的灵活性和适应性。

他的优点十分显而易见,功能模块之间像搭积木一样容易改进,模块与模块之间出问题容易找到原因,并且不需要特别多的训练数据。缺点是较多模块的设计导致系统比较复杂,并且各个部分配合可能不够默契,集体反应可能较慢。

主流发展二、以 Google RT-2 为代表的端到端模型

端到端模型策略大致解读:

  1. 第一步,先在大规模互联网数据上预训练 VLMs,然后在机器人任务上微调。
  2. 第二步,输入是任务和对象的组合,输出是一系列动作。
  3. 第三步,利用大模型完成从输入到感知、推理、决策和行为指令输出的全过程。

然而,对于对于端到端模型,更像是一个一气呵成的大脑。

这种方案更像是一个"天才",看到什么情况立即就知道该怎么做,不需要复杂的思考过程。就像武侠高手,看到对手出招就能立即反应,招招相连,一气呵成。

这种方法:

  1. 直接从"看到的场景"到"具体动作"
  2. 不需要中间层层推理
  3. 完全依靠大量练习形成"条件反射"

他是如何将所有场景的信息集成并且做出应答的呢?这个模型内部有三个部分:输入层,编码器,解码器。

从结构层级看:

一、信息收集(输入层)主要分为以下三步:

(一)多感官信息采集

  1. 视觉系统:高清摄像头捕捉环境图像,深度相机测量空间距离,立体视觉构建3D场景。
  2. 触觉系统:压力传感器感知接触力,力矩传感器测量扭转力,温度传感器检测物体温度。
  3. 听觉系统:麦克风阵列接收声音,语音指令识别,环境声音分析。

(二)信息预处理

  1. 图像处理:降噪和增强,色彩平衡,畸变校正。
  2. 信号滤波:去除电气噪声,平滑力信号,消除震动干扰

(三)数据同步:时间对齐,不同传感器数据时间戳同步处理,延迟补偿,丢帧修复,空间配准,多相机标定,坐标系转换,传感器融合。

二、思考分析(编码器层)

(一)场景理解

  1. 物体识别:目标检测,姿态估计,类别分类。
  2. 空间分析:场景分割,深度估计,3D重建。

(二)状态提取

(三)预测模块

  1. 动作效果预测:物理模拟,轨迹预测,结果估计。
  2. 风险评估:碰撞预测,稳定性分析,安全评估。

三、行动指挥(解码器层)

(一)动作规划

(二)执行控制

  1. 轨迹生成:路径规划,速度规划,加速度优化。
  2. 运动控制:位置控制,力控制,阻抗控制。

(三)实时调整

  1. 反馈控制:位置误差补偿,力反馈调节,轨迹实时修正。
  2. 异常处理:碰撞检测与响应,超限保护,急停机制。

实际例子:

【三者协同工作示例】

以"拿起杯子"任务为例:

(一)信息收集(输入层)

  1. 看到杯子的形状、位置
  2. 感知杯子的重量、材质
  3. 到具体指令要求

(二)思考分析(编码器层)

  1. 理解杯子的位置和姿态
  2. 分析最佳抓取点
  3. 预测需要的抓取力度

(三)行动指挥(解码器层)

  1. 规划手臂移动轨迹
  2. 控制抓取器开合
  3. 实时调整抓取力度

其工作流程图大致如下由此方便大家理解:

端到端模型(RT-2)会直接从感知到动作的映射,使用单一统一模型完成所有任务,更加注重强调端到端训练的简洁性,并且更依赖大规模数据驱动。他的优点相比于分层决策模型,结构简单直接,反应更快,决策潜力更大。缺点为需要海量训练数据,而且不容易理解它为什么这么做,其训练成本很高。

我们可以大致总结出下表,其技术特点对比:

分层决策模型 端到端模型

──────── ───────

高可解释性 ←→ 高集成度

模块独立 ←→ 统一架构

显式规划 ←→ 隐式学习

安全可控 ←→ 性能优先

灵活升级 ←→ 整体优化

两者的应用场景倾向,分层决策模型往往倾向于高精度工业场景,安全关键任务,需要精确控制的场景。端到端模型更倾向于家庭服务场景,交互式应用,需要快速响应。

对于这两种架构的未来发展展望,未来将会出现一种混合型的架构方案,在重要决策使用封层方式,在简单的反应使用端到端的方式,优势互补,场景适应和性能平衡。相比于现行两种处理方式,混合架构的核心优势,我觉得会体现在决策分级处理,分层优势的可解释性,安全性,模块化得到保留,并将端到端的实时响应和隐式学习能力融入。

如猜想的混合架构(仅供参考)大致下图所示:

高层决策(分层架构)
    │
    ├── 任务理解
    ├── 目标分解
    ├── 安全约束
    │
中层规划(混合处理)
    │
    ├── 动作序列
    ├── 资源调度
    ├── 状态监控
    │
底层执行(端到端)
    │
    ├── 技能执行
    ├── 实时控制
    └── 环境适应

对其混合架构的平衡策略猜想如下:

在场景适应性平衡

(一)高精度场景下,以分层架构为主,端到端辅助优化,严格安全控制。

(二)快速响应场景,以端到端为主,分层架构监督,柔性安全约束。

性能与安全平衡

(一)安全保障,关键决策分层控制,行为边界限制,异常检测处理。

(二)性能提升,非关键环节端到端,参数在线优化,经验持续积累。

计算资源平衡

(一)资源分配,任务优先级,实时性要求,计算负载。

(二)并行处理,模块独立运行,资源动态调度,负载均衡。

结语

本篇对于混合架构部分多为本人猜想方向,仅供参考。在下一篇中我们会大致讲解具身智能的市场前景以及硬软件水平,让大家更加深入理解具身智能发展的环境以及上下游关系。


往期 · 推荐

FastChat(一):200 行代码实现 Mini FastChat

落地分享:来看 UFH AI 医疗大模型如何助力国际化诊疗场景

一文详解大模型推理:从基础知识到 vLLM

你不知道的MMLU那些事儿


🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!


一起“点赞”三连👇

机智流
共赴 AI 时代浪潮~涉及涵盖计算机视觉、大语言模型、多模态模型等AI领域最新资讯知识分享~
 最新文章