模拟到现实无缝转换!麻省理工学院研究团队提出生成模型LucidSim,破解机器人训练难题!

科技   2024-11-19 19:44   广东  

来源:机器人大讲堂

机器人学习系统的成功很大程度上取决于其训练数据的真实性和覆盖范围。真实世界数据虽然本质上是真实的,但其覆盖范围有限,无法覆盖机器人在部署时可能遇到的各种场景。因此这种方法只在特定环境下被验证为有效,机器人在面对未知或新颖情境时往往难以应对。随着机器人在整个训练过程中不断改进,其进一步提高技能所需的数据也在不断扩增。然而,获取正确的数据目前的实践中仅能依靠手动操作,每当面临新的场景和任务时,都必须从零开始进行重复的工作。

         

 

另一种方法是在模拟环境中进行训练。精确而高效的物理模拟是机器人学习过程中不可或缺的重要一环,它使机器人能够在虚拟环境中探索那些在真实世界里难以复现的复杂故障情境,并从海量的在线策略数据中学习。但物理模拟的渲染与现实之间仍然存在现实差距,而尝试大规模手工制作详细逼真场景内容实现机器人从模拟到现实转移所需的多样性成本又过高。因此,如何将RGB色彩感知融合进从模拟到现实的转换流程,来达到与现实世界相媲美的丰富度和逼真度,仍然是一个关键挑战。

         

 

▍研发生成模型LucidSim,实现模拟到现实转换

         

 

针对这一挑战,来自麻省理工学院计算机科学与人工智能实验室(CSAIL)、人工智能与基础交互研究所的机器人专家和工程师团队近日对此进行了深入研究,并开发了一种使用生成模型LucidSim从机器人自我中心的角度合成场景的多样化和物理精确图像序列的方法,用于教导机器人如何穿越地形并绕过现实世界中的物体。该模型不仅能够在虚拟环境中精准模拟复杂场景,还能实现与现实世界的高度对齐,为机器人的智能导航与决策提供强有力支持。   

         

 

         

 

生成模型LucidSim由先进的物理引擎MuJoCo与创新的深度学习模型ControlNet整合而成。利用MuJoCo物理引擎的强大功能,在每一帧中精心渲染出深度图像与语义掩码,这些精细的数据随后被作为深度条件输入到ControlNet模型中。通过这一创新方法,团队根据已知的场景几何结构和相机姿态的变化,成功计算出真实的稠密光流,并对初始生成的帧进行六个时间步的扭曲处理,从而生成了时间上高度一致的视频序列。这一技术不仅提升了模拟环境的真实感,更为机器人的学习提供了丰富的视觉信息。

         

 

值得一提的是,该研究团队还提出了一种创新的自动提示技术,这一技术能够增加数据的多样性,并满足定制化数据合成的需求。通过这一技术,团队成功地为机器人生成了几何和动态对齐的视觉数据,这为将计算能力转化为现实世界的能力提供了有力支撑。最终,研究团队成功得到了一个完全在模拟环境中训练的、稳健的视觉跑酷策略。


         

通过将视觉跑酷策略作为机器人学习的一种极具潜力的新数据源,并使用视觉跑酷作为试验台对机器狗进行穿越未知领域障碍物的训练,研究团队尝试完全在生成的世界中训练配备低成本现成彩色相机的机器狗,找到精确控制语义组成和场景外观的方法,使其与模拟物理环境相协调,保持对模拟到现实泛化所必须的随机性,并教会机器狗在现实世界中快速攀爬高障碍物。   

         

 

         

 

借助在机器狗上展示零样本迁移至现实世界的RGB纯观测演示,研究团队向观众介绍了生成模型LucidSim对机器人从虚拟环境到现实世界的适应性和转化能力的明显提升。

    

 


▍利用物理引导,生成多样化视觉数据

         

 

在模拟至现实的转换场景中,机器人先在模拟环境中接受训练,随后无需进一步调整即可直接应用于现实世界。

         

 

         

 

虽然研究团队对即将部署机器人的环境有所了解,但这些信息往往是不完整的,可能仅包括简略的描述或参考图像。为弥补这一信息缺口,研究团队借助生成模型LucidSim中的先验知识,开创了一种名为“先验辅助域生成”(PADG)的引导流程。这一流程的核心在于一项自动提示技术,它对合成多样化领域至关重要。

         

 

   

  • 从LLM 中获取多样化、结构化的提示

         

 

研究团队通过观察发现,反复从同一提示中采样往往会产生外观相似的图像。为获取多样化的图像,研究团队首先通过向chatGPT提供一个包含标题块、请求细节以及要求以JSON格式输出结构化结果的“元”提示,来批量生成结构化的图像提示。

         

 

         

 

         

 

请求中详细指定了天气、时间、光照条件以及文化场所等要素。由于手动编辑生成的图像提示不切实际,研究团队通过生成少量图像来调整元提示,并反复迭代直至它们能够稳定地产出合理图像。下图底部展示了来自同一元提示但不同图像提示的多样化样本实例。

         

 

上排:由同一元提示产生的不同提示所生成的图像;下排:不同的元提示。        

 


  • 在几何与物理引导下生成图像

         

 

同时,研究团队增强了原始的文本到图像模型,并加入了额外的语义和几何控制,使其与模拟物理保持一致。   

         

 

首先,研究团队用成对的提示和语义掩码替换了图像的文本提示,每对都对应一种资产类型。以楼梯场景为例,研究团队通过文本在粗略的轮廓内指定了台阶的材质和纹理。为确保图像的几何一致性,研究团队还采用了经过MiDAS单目深度估计训练的现成ControlNet。调节深度图像是通过反转z缓冲区并在每张图像内进行归一化计算得出的。调整控制强度以避免丢失图像细节至关重要。研究团队的场景几何结构来源于先前工作中的简单地形,可选择性地包含侧壁。为专注于分析视觉多样性,研究团队避免了对地形几何结构进行随机化处理。

         

 

         

 

  • 生成短视频

         

 

为了制作短视频,研究团队开发了“动态梦境”(DIM)技术,该技术利用根据场景几何结构和两帧之间相机视角变化计算出的真实光流,并将生成的图像扭曲为后续帧。由此产生的图像堆栈包含了对于跑酷至关重要的时序信息。此外,生成速度同样重要。DIM显著提高了渲染速度,因为计算光流并应用扭曲操作的速度远快于生成图像。

         

 

   

         

 

▍两大阶段,在线策略监督中学习稳健真实世界视觉策略

         

 

在策略训练方面,研究团队将训练过程分两个阶段:预训练阶段和后续训练阶段。

         

 

在预训练阶段,研究团队仿效一位拥有高级图像直接访问权限、依照强化学习(RL)流程进行训练的特权专家从而初步构建视觉策略。通过收集来自专家及其早期不完美检查点的数据,并向专家查询动作标签可以监督视觉策略的学习。预训练后,视觉策略的表现虽然不佳,但已能做出足够合理的决策,以便在后续训练阶段收集在线策略数据。

         

 

   

         

 

而后,团队进一步从视觉策略本身收集在线策略数据,并与之前积累的所有数据进行交替学习。经过三次重复训练后,视觉策略的性能得到了显著提升,该策略在整个测试场景中展现出了强大的泛化能力与稳健性,能够在现实世界中进行零样本迁移至彩色观测。

         

 

   

此外,研究团队还提出了一种简化的Transformer架构,缩减了多模态输入处理中的组件。与以往采用ConvNet加循环网络的四足机器人跑酷研究方法不同,该团队采用了含多层查询注意力(MQA)的五层Transformer。他们将摄像头画面分块并行处理,再将处理结果与本体感受观测结合,对所有时间步重复此过程,并加入可学习嵌入。

         

 

对于RGB图像,团队发现在卷积前加入批归一化层有益。动作输出通过额外类别标记计算,经ReLU潜在层和线性投影得出。此策略在Nvidia AGX Orin上处理七帧输入时可达50Hz,但记忆跨度有限(140毫秒),不适用于需更长记忆的任务,如跨越宽间隙(需400毫秒记忆)。

         

 

▍模拟评估,验证生成模型LucidSim先进性

         

 

为了证明LucidSim先进性,研究LucidSim与经典域随机化、深度学生策略和其他基线的差别,研究团队在模拟和真实世界环境中,就追踪足球(追逐足球);追踪橙色交通锥(追逐锥筒);跨越障碍(跨栏);以及穿越具有各种材质类型的楼梯(爬楼梯)等任务进行了实验比较。

         

 

         

 

在追逐任务中,研究团队在机器人摄像机视锥内随机采样目标物体的位置。对于跨栏和爬楼梯任务,研究团队则手动放置橙色锥筒以视觉指示路径点。每个任务在三个复制场景中进行评估,每个场景进行50次试验,随机化起始姿势和路径点位置偏移。 


研究团队考虑了以下基线:一种需要特权地形数据的专家策略(oracle);使用相同管道训练的深度学生策略;使用经典域随机化在纹理上训练的RGB学生策略;以及研究团队的生成模型LucidSim,它使用DIM生成的帧堆栈进行训练。研究团队还提供了Extreme Parkour深度策略在模拟中的性能以进行校准,该策略在更多数据上进行训练。

         

 

         

 

实验结果表明,生成模型LucidSim在几乎所有的模拟评估中都优于经典的领域随机化方法,特别是在处理复杂任务(如跨越障碍)时。

         

 

领域随机化基线在模拟中能够相当有效地爬楼梯,这可能是由于在识别出第一步后形成了重复的步态。然而,它在跨越障碍时表现不佳,因为跳跃的时机非常关键。深度学习模型在3D场景中存在细微但常见的模拟到现实的差距。例如,由于训练环境中从未见过栏杆,因此最优策略在一个楼梯环境(Marble)中表现不佳。而LucidSim策略则受此影响较小。

         

 

类似的现象也影响了深度学习模型,它在基准环境中的椅子、墙壁和栏杆等特征上分散了注意力。过去的研究使用激进的裁剪来缓解这种类型的模拟到现实的差距。

         

 

……
         

 

参考文章:
https://arxiv.org/html/2411.00083v1    

阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”


未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料欢迎扫描二维码或点击本文左下角“阅读原文”进入。



截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告


1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0(167页)

3. 战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)

4. 人工智能与物理学相遇的综述(86页)

5. 麦肯锡:全球难题,应对能源转型的现实问题(196页)

6. 欧米伽理论,智能科学视野下的万物理论新探索(50页报告)

7. 《美国反无人机系统未来趋势报告(2024-2029 年)》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015(94页)

11. CB Insights:未来变革者:2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页,美国防部首席数字和人工智能办公室(CDAO)

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP:2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察:引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起:整合人工智能、区块链技术与量子计算(研究报告,书)

19. OpenAI o1 评估:AGI 的机遇和挑战(280页)

20. 世界知识产权组织:2024 年全球创新指数(326页)

21. 美国白宫:国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索,243页

23. 中国信通院:量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能,144页

26. 联合国:《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织:2024团结在科学中,守卫地球系统的未来

28. 世界经济论坛 《量子技术助力社会发展:实现可持续发展目标》研究报告

29. 人工智能科学家:迈向全自动开放式科学发现

30. 欧盟:石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会:美国的数字身份之路研究报告

32. 麦肯锡:2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议:2024世界投资报告

34. 兰德:评估人工智能对国家安全和公共安全的影响

35. 兰德:2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织:2015-2022 年生物多样性与发展融资

37. ITIF:中国半导体创新能力研究报告

38. 英国皇家学会:数学未来计划, 数学和数据教育的新方法研究报告

39. 欧盟:10年人类大脑计划创新评估报告

40. GLG格理集团:2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国:2024为人类治理人工智能最终报告

43. 达信Marsh:2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询:2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价:准确性、无害性和公平性,223页pdf

46. 麦肯锡:2024世界能源产业展望

47. 世界经济论坛《太空:全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛:世界“技术先锋”名单100家公司名单

49. 世界经济论坛:2024绘制地球观测的未来:气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告(94页)

52. IQM :2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值(58页)

55. 2023-2024世界基础设施监测报告

56. 世界银行:2024世界发展报告,中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会:《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康:2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告(80页)

63. 国家互联网信息办公室:国家信息化发展报告2023年110页

64. 埃森哲:2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院:2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会:《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询:2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术:前景、危险和可能性》45页报告

71. 英国皇家学会报告:人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所:2024世界技趋势报告(980页)

73. 面向大规模脉冲神经网络:全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础:从经济学到不对称战争》2024最新94页报告

76. CBInsights:2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院:数据管理和使用:21 世纪的治理(2024),99页

78. 兰德智库:展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织:2024年世界知识产权报告:让创新政策促进发展

80. 全球灾难风险研究所:评估大型语言模型接管灾难的风险

81. 牛津马丁学院:人工智能风险国际科学评估的未来

82. 联合国贸易和发展署:2024世界投资报告

83. 兰德公司:人工智能军事应用的新风险和机遇

84. 英国皇家学会:AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论:从中国到世界从陆地到海洋-240902,98页

86. 中国信通院发布《大模型落地路线图研究报告(2024年)》

87. 星河智源:2024年无人驾驶技术全景报告35页

88. 星河智源:2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论:特斯拉领衔人形机器人的从1到N

90. 兰德:展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡:2024困难点:驾驭能源转型的物理现实(196页)

93. 《麻省理工科技评论》万字长文:什么是人工智能?

94. 软件与服务行业:从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院:中国数字经济发展研究报告2024年82页

96. CB Insights:2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能:全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准(8项)汇编

100. 麦肯锡2024技术趋势展望报告100页


上下滑动查看更多

人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
 最新文章