Nature Machine Intelligence:生成式人工智能(AI)会改变机器人技术吗?

学术   2024-09-19 19:46   四川  
当前,人们对将大型视觉-语言模型和生成式人工智能(AI)应用于机器人技术充满期待,但机器人要征服现实世界的复杂性仍面临挑战。或许机器人技术是时候吸取自身的教训,从大规模扩展和整合大量训练数据中获益。在最近的IEEE机器人与自动化国际会议(ICRA)上,几位专家就“生成式AI将使许多传统机器人技术方法过时”这一观点进行了辩论。该领域确实需要新的想法,因为经过数十年艰苦的计算开发和工程努力,机器人在感知、运动规划、推理、抓取、操纵和人机交互等方面的方法,还远远无法应对复杂和不可预测的人类世界。事实上,深度学习方法开始在机器人控制和传感器数据处理方面与传统方法竞争。大型生成式AI模型的前景很诱人,因为有了足够的训练数据,它们可以推广到不同的任务和情境中。

然而,为机器人收集训练数据既昂贵又缓慢。在ICRA小组会议上,来自斯坦福大学的Jeannette Bohg进行了一个粗略的估计:为了达到与自然语言处理可用数据量相似的程度,即来自互联网用户产生的图像和文本流,机器人训练数据需要扩大2700万倍。这听起来令人生畏,但Bohg指出,实现这一目标并没有根本性障碍。研究人员可以迎接挑战,投入大量精力来收集高质量的机器人数据。值得注意的是,最近一个名为“Open X-Embodiment”的开源机器人数据集,似乎是一个可观的开端,该数据集包含100多万条来自22个不同机器人平台的实机轨迹数据,汇集了全球34个机器人研究实验室的60个现有数据集。然而,能否收集到足够的数据来开发通用机器人模型的可行性值得怀疑。现实世界交互的复杂性巨大,需要高标准的可靠性和稳健性。在实验室环境中,50%甚至75%的高零样本性能是令人印象深刻的成就,但在现实世界的交互中这是不可接受的。在辩论中,密歇根大学的Chad Jenkins强调了可靠性和用户信任的问题:我们能否确定一个通用机器人模型在我们需要它工作时真的会工作?聊天机器人在产生幻觉般的答案时,可能不会造成特别严重的后果。但是,那些在现实世界中运行并与人类进行交互的机器人,必须具备高度的安全性和可靠性。机器人与人类的交互可能会涉及到各种重要的场景和任务,如果机器人不可靠或不安全,可能会对人类造成伤害或损失。所以,与聊天机器人相比,这些在现实环境中运行的机器人需要满足更高的标准,以确保它们的行为是可靠和安全的。在Jenkins看来,机器人技术总是需要转向基于对世界物理理解的模型


用于机器人学习的大规模、开放数据集:Open X-Embodimen(Abhishek P., et al. 2023


Open X-Embodimen数据集的构成,场景、技能等的多样性。(Abhishek P., et al. 2023)


研究人员已经在探索将大型视觉语言模型用于他们的机器人的可行性。初步结果显示,在场景理解、人机交互甚至行动规划方面,能力和稳健性有了有希望的飞跃。GPT-4、 Gemini 等大型视觉语言模型通过从互联网用户那里获取了海量的数据。由于拥有如此大量的数据,这些模型似乎能够模拟出一种具有 “常识性” 的实际知识,并且这种知识在理论上有可能被应用于机器人的场景理解和与人的交互。但是,在一个动态变化的世界中行动所带来的复杂问题仍然存在。机器人如何与环境进行物理交互将取决于它们的可供性(可供性指的是物体或环境所提供的行动可能性或功能)。对于机器人来说,它们的身体结构和特性决定了它们能够与环境进行何种物理交互,以及能够执行哪些任务。例如,机器人的形状、大小、关节活动范围等因素会影响它能够触及和操作的物体,以及它在不同环境中的移动方式。谷歌研究的“SayCan”模型将大型语言模型(LLM)与机器人技能和适应性相结合,使得机器人能够在现实世界中遵循长期复杂的自然语言指令。SayCan模型主要由两部分构成:Say部分中由LLM来完成理解语言含义,并给出相应的有助于解决问题的答案的任务,Can部分则会对这些答案进行评估,即“可供行功能”,从而结合当时的物理环境来确定此时什么行为是可以执行的。


LLM并不是以物理世界为基础的,它的工作过程中并没有对周围物理环境和响应结果的观察。这就导致 LLMs 给出的有些答案有时与周围环境格格不入、显得不切实际。SayCan利用预训练技能的价值函数来约束 LLMs,使 LLMs 能够将其语言理解转化为机器人可以执行的具体行动,从而实现对现实世界中复杂指令的执行。(Ahn M., et al. 2022)


(a) 展示了一个价值函数模块,被用于根据当前的观察情况构建一个关于行动的价值函数空间,在(b)中,“捡起红牛罐” 和 “捡起苹果” 具有较高的值,因为这两个物体都在场景中;而在(c)中,机器人正在一个空的空间中导航,因此没有任何捡起的动作会获得高值。这说明了价值函数会根据场景中的具体情况来评估每个动作的可行性和价值。(Ahn M., et al. 2022


SayCan 的工作原理是综合考虑语言模型提供的技能对指令的有用性概率和价值函数提供的成功执行该技能的概率,来选择合适的技能。然后,将选择的技能添加到响应中,并再次查询模型,以进行下一轮的决策,直到达到终止条件。(Ahn M., et al. 2022


机器人执行从抽屉取薯片这一任务的具体步骤。由于机器人只有一只手臂,这限制了它的操作能力,因此它需要精心规划动作顺序。具体步骤为:先从抽屉中取出薯片并放在柜台上,这个过程可能需要一些复杂的操作来确保薯片能够成功取出并放置在合适的位置;然后,机器人需要关闭抽屉;最后,在抽屉关闭后,机器人再次拿起放在柜台上的薯片。这个例子说明了机器人在执行任务时需要根据自身的硬件条件和任务要求进行合理的规划和动作安排。(Ahn M., et al. 2022


在进行特定的测试或任务时,给模型下达了 “捡起灭绝动物” 的指令,该模型根据其学习和理解,选择了恐龙雕像作为响应,认为恐龙雕像符合 “灭绝动物” 的要求。这展示了该模型对指令的理解和执行能力,以及它在识别和选择相关物体方面的表现。(Ahn M., et al. 2022

在机器人技术领域,一个重要的研究方向是创建能够对世界具有先进物理常识理解能力的视觉语言模型。为了实现这一目标,关键在于从视频中仔细地收集各种示例数据。通过这些示例数据,可以更深入地理解物体的物理属性,例如形状、大小、重量、材质等,以及在操作物体时所产生的物理效果,比如物体的运动轨迹、受力情况等。


PACS是一个为物理常识属性进行标注的视听基准,包含 13400 个问答对、1526 个视频和 1377 个独特的问题。通过对先进的单模态和多模态模型进行基准测试,以突出当前模型失败的地方和原因,PACS 为通过研究多模态推理来推进物理推理的研究提供了新的机会。该图展示了来自PACS 的两个示例数据点,每个数据点包含一个问题和一对对象。(Yu S., et al. 2022)

PACS数据收集的整个流程,包括收集对象、创建数据点(如视频剪辑注释、问题创建、问题重新分配)以及检查数据点(质量检查)等步骤。(Yu S.et al. 2022

模型在处理更复杂或需要更多隐含知识的问题时会感到吃力。(Yu S.et al. 2022


在大型科技公司支持和推动下,机器人技术具有强大的发展势头。鉴于硬件的改进、计算效率的提高以及当前人工智能的发展势头,毫无疑问,机器人在社会中将变得更加突出。设计能够在现实世界中安全可靠运行的机器人仍然是一个具有挑战性的问题,但大型视觉语言模型和生成式人工智能为该领域带来了新的思路,它们有望提升机器人的能力。未来,我们需要继续在数据收集、可靠性和物理交互等方面探索和创新,以实现机器人技术的可持续发展。


由美国公司 Figure 开发的人形机器人使用 OpenAI 的编程来实现语言和视觉功能。(Gibney E., 2024)

近期,本社论以“Will generative AI transform robotics?”为题发表于Nature Machine Intelligence
—— 原文 ——
Will generative AI transform robotics?[J]. Nature Machine Intelligence 6, 579 (2024). 

相关阅读:
• 智能农业和精准农业中的计算机视觉:技术与应用
• 人工智能与机器人技术:引领气候适应性智能农业的革命
• Trends in Genetics:人工智能在植物育种领域的应用

白露秋分夜,一夜凉一夜。

AgriPheno平台
植物生理生态、植物表型组学和基因组学、激光雷达探测技术及数据分析、光谱技术、花粉活力分析、生物育种、温室气体、机器人自动化等领域,国内外最新资讯、战略与政策导读。
 最新文章