最近,具身智能的概念很火。
那什么是具身智能呢?它又有什么用?
一文带你了解。
今天是下篇,聚焦人机交互、未来发展。
上篇见《一篇具身智能的最新全面综述!(上)》
具身智能的人机交互
在人机协同工作领域,研究人员正在探索更高层次的协作模式。这涉及到在多级人机协同系统中,人类在提供反馈、做出决策调整以及参与规划过程中的积极参与和互动。目标是使具身智能体能够通过类似人类的思维方式与人类进行交互,并能够产生符合人类期望的行为反馈。在人机交互的分工中,人的作用是引导思维过程的思路。
在拟人化交互中,核心挑战在于如何在人与机器之间合理分配认知负荷。认知负荷指的是在特定任务执行期间,对个体认知系统施加的心理活动总量。当认知负荷超过个体所能承受的认知资源时,就会产生超负荷现象,这会导致个体的认知能力显著下降。
通过交互式学习,机器人能够在与人类的互动中实现知识传递。在这一过程中,一个大型的模型作为基础,它优化了交互过程中的信息增益和累积的反馈奖励。这种学习方式结合了真实环境下的监督学习,使机器人能够从标注数据中学习,以及虚拟环境下的强化学习,让机器人从延迟的奖励中学习。这三种学习方式形成了一个三重闭环系统,使得机器人能够从交互数据中持续学习和改进。
具身智能人机交互中的安全性包括了物理安全性和感知安全性。物理安全指的是避免机器人对人类或环境造成伤害。感知安全性,即人类用户的安全感,是人机交互过程中的主观安全感,包含了交互过程中的舒适性、可预测性、控制感和信任感。
实现物理安全性涉及到机器人的设计、编程和操作,以确保在所有预期的使用场景中,机器人的行为都是安全的。物理安全的研究包括但不限于机器人的碰撞检测与反应、力控制和柔顺性设计、以及使用黏弹性材料来包裹机器人的连杆以减少撞击时的伤害。随着技术的发展,物理安全的研究也在不断进步,例如,通过仿真分析来预测和评估潜在的物理交互风险。
建立感知安全性是一个多层次、多维度的过程,涉及心理学、技术、设计、伦理等多个领域。人类的安全感不仅仅依赖于客观的安全标准,还受其主观感受、情感状态以及机器人行为表现的影响。以下是一些重要的指标:
1. 行为透明性:机器人应尽可能清晰、透明地展示其意图和行为。这包括机器人在行动前给予足够的提示,尤其是在人类与机器人共享工作空间时。
2. 可预测性:如果机器人的行为模式稳定并且符合人类的预期,人类会感到更加安全。机器人应避免突发的、令人无法预料的行为或动作,这会引发紧张感和不适。
3. 拟人化设计:机器人设计应尽量模仿人类行为或符合人类习惯。例如,通过使用符合人类社交礼仪的动作与语言互动,可以使人类感到与机器人的互动更加自然和舒适。
4. 直观的交互界面:机器人的操作界面应符合人类的认知模型,使其使用简单易懂。复杂、晦涩的操作可能会增加使用者的不确定性和恐惧感。
5. 速度控制:机器人的速度和动作幅度需要与人类的感知速度相协调。如果机器人动作太快,可能会给人一种危险或攻击性的感觉。通过控制机器人的行动速度、柔和的启动和停止,人类可以感受到更强的掌控感。
6. 安全距离:保持适当的物理距离有助于提升安全感。特别是在近距离交互的场景中,机器人应该尽量避免过于贴近人类,保持适当的个人空间。机器人应具备感知人类距离并自动调整的能力。
7. 及时反馈:人类与机器人互动时,及时的反馈可以帮助使用者确认机器人的状态及其理解是否正确。无论是视觉、听觉还是触觉反馈,都应尽量即时有效,确保人类能清晰感知到机器的响应。
8. 人类控制权:确保人类在互动过程中始终具有控制权,能随时终止或调整机器人的行为。机器人应提供易于使用的紧急停止功能,增强人类的掌控感和安全感。
机器人的软硬件构成
人形机器人
人形的优点
人形的缺点
而不平坦的场景更适合使用四足机器人,即机器狗。四足机器人相较于双足机器人,在稳定性、适应性、灵活性和功能性上具有显著的优点。
具身智能的面临的挑战
数据
相较于软件智能体使用的大模型训练时的海量互联网数据,具身智能的大模型的训练中拥有严重的数据匮乏的问题,这是因为具身智能需要的是来自物理世界动态环境中的交互数据。在真实环境中采集大规模高质量的数据需要大量的人力、物力和时间投入。在复杂环境中布置传感器和监测设备的费用高昂,还涉及安装、维护和更新成本。不同传感器的采样频率、响应时间和精度存在差异,导致时空对齐困难。比如视觉传感器和力传感器同时采集数据时可能出现时间偏差,影响数据的准确性和可用性。
真实世界的场景丰富多样。机器人可能在不同的气候条件、地形地貌和社会环境中工作,全面采集这些场景数据极为困难。模拟环境(如 3D 仿真平台)虽然能够提供某种程度上的训练数据,但模拟和现实之间仍存在很大的差距。“模拟-现实鸿沟”(Sim2Real gap)指的就是在仿真环境中训练的模型在真实世界中表现不佳。只是因为模拟环境中的物理规律通常是简化版的,无法完全模拟真实世界的复杂物理现象(如摩擦力、空气阻力等)。模拟环境中的感知(如摄像头、激光雷达)通常比真实环境中的传感器表现更理想,因此在实际应用中,具身智能的感知模块往往无法准确处理现实中的噪声和偏差。
物理世界的负样本数据也非常匮乏。在物理世界中收集负样本意味着需要机器人反复尝试任务,并在每次尝试中经历失败。这种过程不仅耗时,而且设备损耗和实验设置成本也较高。物理实验需要更高的维护成本和风险控制。
物理世界中的数据在处理时面临着复杂的合规问题,尤其是在与数据隐私和安全相关的领域。机器人在真实环境中收集和使用的数据常常涉及到个人隐私、敏感信息以及各种法规要求的限制。例如,在安防巡检机器人的应用场景中,摄像头、传感器等设备会捕捉到包括人脸、车牌等隐私信息,这类数据通常涉及到隐私保护法规。
软件
具身智能的发展中,软硬件解耦面临难题。具身智能系统需要集成多个紧密相连的层次,这些层次之间算法的相互依赖性需要精确的协调,使得平台开发变得复杂。现有的平台在高层次上可能是模块化的,但在关键组件内部缺乏清晰的模块化。紧密耦合的架构和单片代码使得替换或扩展关键模块变得困难。在仿真中验证的算法往往不能直接转移到硬件平台。这种不兼容性源于虚拟和现实系统之间的硬件接口、设备驱动程序和系统依赖性差异,导致需要大量的努力来适应或重新实现算法。
之前介绍的中间件 ROS 为了传统机器人控制领域设计的,能够支持运动控制、 SLAM 等多种领域。然而对云端、边端的大模型的接入则突显了兼容性的问题。未来中间件如何更好地适配大模型也是一个挑战。
硬件
硬件的耐用性是确保其长期稳定运行的关键因素。机器人集成了多种传感器、执行器和复杂的机械结构,这些部件的精密性要求高,一旦损坏,更换成本昂贵。例如,机器人关节模块集成了无框电机、伺服驱动器、专用减速机系统等多个部件,这些部件的损坏可能导致整个模块需要更换,增加了维护成本。
机器人在运行过程中会产生热量,如果无法有效散热,会导致机器人关键部件性能降低,影响使用寿命。例如,谐波减速器由于齿轮啮合摩擦产生的热量,如果没有有效的散热措施,会导致部件损坏。机器人中的传感器和电子元件对温度变化敏感,高温可能导致传感器损坏或性能下降,而电子元件在高温下故障率会大幅增加。
一起“点赞”三连↓