一篇具身智能的最新全面综述！（下）

科技 2024-11-04 07:01 江苏

来源：Datawhale，作者：郑程睿

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

最近，具身智能的概念很火。

那什么是具身智能呢？它又有什么用？

一文带你了解。

今天是下篇，聚焦人机交互、未来发展。

本文部分参考中国信息通信研究院和北京人形机器人创新有限公司的《具身智能发展报告》

具身智能的人机交互

在机器主动感知与认知的具身交互中，具身智能系统借鉴大脑记忆、自主学习与预测机制，结合感知器件的物理特性（材料、电子、电气机械结构）的新型传感器，解决跨模态数据、多时空异步模式、多异构信息深度融合认知、知识表征、进化学习等挑战性问题。探索自主概念生成、技能学习、利用与发现方法，使得 AI 系统具有 Learning to learn 的能力和问题求解的泛化能力，在开放、动态环境中自主完成复杂任务。

目前，人机混合智能技术正朝着一个新的发展方向迈进，即通过人、机器和环境之间的相互作用，形成一种新型的智能形态。这种新型智能形态旨在实现人类智慧与机器智能之间的双向交流和相互增强。

拟人化交互

在人机协同工作领域，研究人员正在探索更高层次的协作模式。这涉及到在多级人机协同系统中，人类在提供反馈、做出决策调整以及参与规划过程中的积极参与和互动。目标是使具身智能体能够通过类似人类的思维方式与人类进行交互，并能够产生符合人类期望的行为反馈。在人机交互的分工中，人的作用是引导思维过程的思路。

在拟人化交互中，核心挑战在于如何在人与机器之间合理分配认知负荷。认知负荷指的是在特定任务执行期间，对个体认知系统施加的心理活动总量。当认知负荷超过个体所能承受的认知资源时，就会产生超负荷现象，这会导致个体的认知能力显著下降。

交互式学习

通过交互式学习，机器人能够在与人类的互动中实现知识传递。在这一过程中，一个大型的模型作为基础，它优化了交互过程中的信息增益和累积的反馈奖励。这种学习方式结合了真实环境下的监督学习，使机器人能够从标注数据中学习，以及虚拟环境下的强化学习，让机器人从延迟的奖励中学习。这三种学习方式形成了一个三重闭环系统，使得机器人能够从交互数据中持续学习和改进。

人机决策柔性调节机制

在人机协同决策过程中，根据任务需求和环境变化，动态调整人和机器的决策权限和参与程度的机制。这种机制能够提高决策的灵活性和适应性，确保在不同的情境下都能做出最优的决策。

机器通常负责处理大量数据和执行复杂计算，而人类则提供直觉、经验和道德判断。柔性调节机制允许在决策过程中根据实际情况动态调整人机之间的协作关系，例如，在某些情况下可能需要更多地依赖机器的计算能力，在其他情况下则可能需要人类的直觉和判断。

安全性

具身智能人机交互中的安全性包括了物理安全性和感知安全性。物理安全指的是避免机器人对人类或环境造成伤害。感知安全性，即人类用户的安全感，是人机交互过程中的主观安全感，包含了交互过程中的舒适性、可预测性、控制感和信任感。

实现物理安全性涉及到机器人的设计、编程和操作，以确保在所有预期的使用场景中，机器人的行为都是安全的。物理安全的研究包括但不限于机器人的碰撞检测与反应、力控制和柔顺性设计、以及使用黏弹性材料来包裹机器人的连杆以减少撞击时的伤害。随着技术的发展，物理安全的研究也在不断进步，例如，通过仿真分析来预测和评估潜在的物理交互风险。

建立感知安全性是一个多层次、多维度的过程，涉及心理学、技术、设计、伦理等多个领域。人类的安全感不仅仅依赖于客观的安全标准，还受其主观感受、情感状态以及机器人行为表现的影响。以下是一些重要的指标：

1. 行为透明性：机器人应尽可能清晰、透明地展示其意图和行为。这包括机器人在行动前给予足够的提示，尤其是在人类与机器人共享工作空间时。

2. 可预测性：如果机器人的行为模式稳定并且符合人类的预期，人类会感到更加安全。机器人应避免突发的、令人无法预料的行为或动作，这会引发紧张感和不适。

3. 拟人化设计：机器人设计应尽量模仿人类行为或符合人类习惯。例如，通过使用符合人类社交礼仪的动作与语言互动，可以使人类感到与机器人的互动更加自然和舒适。

4. 直观的交互界面：机器人的操作界面应符合人类的认知模型，使其使用简单易懂。复杂、晦涩的操作可能会增加使用者的不确定性和恐惧感。

5. 速度控制：机器人的速度和动作幅度需要与人类的感知速度相协调。如果机器人动作太快，可能会给人一种危险或攻击性的感觉。通过控制机器人的行动速度、柔和的启动和停止，人类可以感受到更强的掌控感。

6. 安全距离：保持适当的物理距离有助于提升安全感。特别是在近距离交互的场景中，机器人应该尽量避免过于贴近人类，保持适当的个人空间。机器人应具备感知人类距离并自动调整的能力。

7. 及时反馈：人类与机器人互动时，及时的反馈可以帮助使用者确认机器人的状态及其理解是否正确。无论是视觉、听觉还是触觉反馈，都应尽量即时有效，确保人类能清晰感知到机器的响应。

8. 人类控制权：确保人类在互动过程中始终具有控制权，能随时终止或调整机器人的行为。机器人应提供易于使用的紧急停止功能，增强人类的掌控感和安全感。

智能时代的伦理学慎思也强调了人类对智能机器人进行设计、开发、应用与运营的伦理责任。人类对人工智能负有完全责任，而不仅仅是责任的分担者之一。这意味着在设计具身智能体时，我们必须考虑到它们可能带来的伦理风险，并采取措施以确保它们的行为符合人类的伦理标准。随着技术的发展，基于具身智能体有可能进化为超智能体，这要求我们在设计和开发过程中就考虑到安全性。有效的人机合作不仅能够使人类指导伦理和安全决策，还能确保基于具身智能体的目标与人类利益的一致性。

机器人的软硬件构成

机器人主要分为：机器人本体和控制装置。

本体

机器人的本体包括：机身、驱动器、机械臂、末端执行器、移动底盘，传感器等。

机身是机器人本体的主体，一般由高强度钢材制成，以支撑其他所有部件。其内部空间容纳着各种传感器、控制器和电源设备等。

机械臂通常由关节驱动，实现多自由度的运动。

末端执行器是连接在机器人边缘的工具，用于实现功能。最常见的通用的末端执行器就是灵巧手和夹具，也可以是清理工具、吸盘等特定功能的工具。

移动底盘可以是用于平地的轮式底盘，和用于不平整地面的双足、四足、轮足等。

控制装置

控制装置包括: 控制系统、伺服驱动系统、电源装置，交互设备。

控制系统负责处理传感器数据、规划路径、执行任务，并与其他子系统协作。控制系统通常由嵌入式计算设备或工业计算机组成，通过运行控制算法（如 PID 控制、深度学习模型等）来决定机器人如何运动和操作。

伺服驱动系统负责驱动机器人的关节和执行机构，实现精确的运动控制。伺服系统一般包括伺服电机、伺服驱动器和指令机构。伺服电机作为执行机构，负责实现运动；伺服驱动器作为功率电源，控制电机的运动；指令机构则负责发出脉冲或速度信号，配合伺服驱动器工作。伺服系统能够进行速度与转矩控制，还能进行精确、快速、稳定的位置控制。伺服系统的结构通常包括三个闭环控制：电流环、速度环和位置环。

常见的机器人交互装置有麦克风、遥控器等。尤其是带屏遥控器,集成了显示屏和控制功能的遥控器，允许用户直接在遥控器上查看实时图像和进行各种操作。

软件中间件

机器人操作系统中间件，负责硬件抽象、设备驱动、库函数、可视化、消息传递和软件包管理等。最常用的元操作系统就是 ROS（Robot Operating System)，它并不是一个真正的操作系统，而是一个运行在 Ubuntu 上的软件框架。ROS将机器人的软件功能封装为节点，支持节点之间的分布式、点对点通信，并由主节点（master）负责对网络中各个节点之间的通信过程进行管理调度。不同节点可使用不同编程语言，可分布式运行在不同的主机。这种设计使得机器人的各个模块可以松耦合地协同工作，便于模块化的修改和升级，提高了系统的容错能力。

人形机器人

具身智能的本体不只是机器人，还可以是汽车、无人机、玩具等具有传感器并可自主运动的硬件。应用的领域包括工业生产、安防巡检、医疗护理、家庭陪护、应急救援等。具身智能的载体会因不同的应用场景而产生不同的形态。这是因为在目前的具身智能体仍处于 ANI（人工狭窄智能）阶段，它们只能执行单一的任务。

人形的优点

随着 AI 的发展逐渐步入 AGI（人工通用智能）阶段，人形机器人将成为具身智能体的最终形态。这是因为大模型为“智能”提供了通用性，而类人体的构造为“具身”提供了通用性。具体原因如下：

1. 遵循自然的高效设计：人类本身拥有高效的身体结构和功能。例如，直立行走解放了双手，使我们能够使用多种工具。机器人甚至可以弥补人类身体的缺憾，例如，机器人的可见光相机不会近视，还可以使用红外相机、深度相机等多种光学传感器。

2. 适应人类环境：人类物理世界的环境和工具都是为人类使用而设计的。人形机器人通过类似人体的构造可以自然地适配这些环境和工具。例如，ANI阶段的扫地机器人只能执行扫地任务，而 AGI 阶段的人形机器人不仅可以使用吸尘器扫地，还可以使用抹布擦桌子。

3. 人机交互的自然性：与非人形机器人相比，人形机器人具有与人类相似的外观和行为模式，更容易被用户接受，减少了用户对未知技术的恐惧感。用户更容易与人形机器人建立积极的心理联系，产生亲近感和信任感，这极大地降低了用户习惯培养的成本。拟人化的机器人更容易被视为有道德责任的主体，用户在与机器人互动时会更加注意自己的言行举止，从而减少对机器人硬件的损坏。

4. 数据的可获得性：具身智能训练模型时面临训练数据匮乏的问题，这是因为训练数据需要人类对机器的动作进行规划。而由于人形机器人的身体结构与人类相似，大量的人类运动视频可以通过标注成为训练数据，从而解决了数据匮乏的问题。

人形的缺点

然而人的身体构造也拥有明显的缺点，尤其是直立和双足引发的一些问题：

1. 运动控制的挑战：人形机器人在稳定性和运动控制方面面临困难。由于其脚与地面的接触时间短且空间小，导致稳定控制的时空域非常有限。这种不稳定性使得机器人在复杂环境中行走和操作时容易失去平衡。人类能够通过复杂的神经系统和肌肉控制来动态调整身体姿态，保持平衡。而人形机器人虽然可以编程来模拟一些平衡动作，但这些控制算法通常不如人类的自然反应那样精准和快速，导致在面对突发干扰或不平坦的地面时更容易失去平衡。

2. 能量效率问题：双足机器人的高能耗要求更高效的电力系统和能源管理。当前的电池技术尚未能满足长时间运行的需求，限制了机器人的应用范围。而且双足机器人一般都要求机身更轻，难以在机身上安装大电池，这使得当前市面上很多双足机器人的续航都只能达到 2 小时。

因此，笔者认为双足不是人形机器人的必需。室内场景适合使用轮式人形机器人，因为轮式人形机器人能够搭载大容量电池，提供更长的续航时间。移动时产生的噪音和对地面的磨损也较小。此外，其力学结构更为稳定，在平坦地面上能够更灵活地移动。

而不平坦的场景更适合使用四足机器人，即机器狗。四足机器人相较于双足机器人，在稳定性、适应性、灵活性和功能性上具有显著的优点。

具身智能的面临的挑战

数据

相较于软件智能体使用的大模型训练时的海量互联网数据，具身智能的大模型的训练中拥有严重的数据匮乏的问题，这是因为具身智能需要的是来自物理世界动态环境中的交互数据。在真实环境中采集大规模高质量的数据需要大量的人力、物力和时间投入。在复杂环境中布置传感器和监测设备的费用高昂，还涉及安装、维护和更新成本。不同传感器的采样频率、响应时间和精度存在差异，导致时空对齐困难。比如视觉传感器和力传感器同时采集数据时可能出现时间偏差，影响数据的准确性和可用性。

真实世界的场景丰富多样。机器人可能在不同的气候条件、地形地貌和社会环境中工作，全面采集这些场景数据极为困难。模拟环境（如 3D 仿真平台）虽然能够提供某种程度上的训练数据，但模拟和现实之间仍存在很大的差距。“模拟-现实鸿沟”（Sim2Real gap）指的就是在仿真环境中训练的模型在真实世界中表现不佳。只是因为模拟环境中的物理规律通常是简化版的，无法完全模拟真实世界的复杂物理现象（如摩擦力、空气阻力等）。模拟环境中的感知（如摄像头、激光雷达）通常比真实环境中的传感器表现更理想，因此在实际应用中，具身智能的感知模块往往无法准确处理现实中的噪声和偏差。

物理世界的负样本数据也非常匮乏。在物理世界中收集负样本意味着需要机器人反复尝试任务，并在每次尝试中经历失败。这种过程不仅耗时，而且设备损耗和实验设置成本也较高。物理实验需要更高的维护成本和风险控制。

物理世界中的数据在处理时面临着复杂的合规问题，尤其是在与数据隐私和安全相关的领域。机器人在真实环境中收集和使用的数据常常涉及到个人隐私、敏感信息以及各种法规要求的限制。例如，在安防巡检机器人的应用场景中，摄像头、传感器等设备会捕捉到包括人脸、车牌等隐私信息，这类数据通常涉及到隐私保护法规。

软件

具身智能的发展中，软硬件解耦面临难题。具身智能系统需要集成多个紧密相连的层次，这些层次之间算法的相互依赖性需要精确的协调，使得平台开发变得复杂。现有的平台在高层次上可能是模块化的，但在关键组件内部缺乏清晰的模块化。紧密耦合的架构和单片代码使得替换或扩展关键模块变得困难。在仿真中验证的算法往往不能直接转移到硬件平台。这种不兼容性源于虚拟和现实系统之间的硬件接口、设备驱动程序和系统依赖性差异，导致需要大量的努力来适应或重新实现算法。

之前介绍的中间件 ROS 为了传统机器人控制领域设计的，能够支持运动控制、 SLAM 等多种领域。然而对云端、边端的大模型的接入则突显了兼容性的问题。未来中间件如何更好地适配大模型也是一个挑战。

硬件

硬件的耐用性是确保其长期稳定运行的关键因素。机器人集成了多种传感器、执行器和复杂的机械结构，这些部件的精密性要求高，一旦损坏，更换成本昂贵。例如，机器人关节模块集成了无框电机、伺服驱动器、专用减速机系统等多个部件，这些部件的损坏可能导致整个模块需要更换，增加了维护成本。

机器人在运行过程中会产生热量，如果无法有效散热，会导致机器人关键部件性能降低，影响使用寿命。例如，谐波减速器由于齿轮啮合摩擦产生的热量，如果没有有效的散热措施，会导致部件损坏。机器人中的传感器和电子元件对温度变化敏感，高温可能导致传感器损坏或性能下降，而电子元件在高温下故障率会大幅增加。

这里给大家推荐一门我们最新的课程《国内首个面向具身智能方向的理论与实战课程》：

课程亮点

本课程从学术研究和实际应用两方面，带你从零入门具身智能的原理学习、论文阅读、代码梳理等内容。
课程由具身智能领域的资深专家主讲，他们先后担任研究所、国企、大厂具身智能负责人，拥有丰富的理论知识和实践经验。

课程答疑

本课程答疑主要在本课程对应的鹅圈子中答疑，学员学习过程中，有任何问题，可以随时在鹅圈子中提问。

▲长按购买课程

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247709541&idx=3&sn=d1d24f798613a1479b23fd31822b726b

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉