首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

学术 2024-09-30 11:43 山东

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑 | 萝卜皮

人们每天都会执行许多任务，例如系鞋带或拧紧螺丝。但对于机器人来说，学习这些高度灵巧的任务非常困难。为了让机器人在人们的生活中更多的发挥作用，它们需要更好地在动态环境中与物理对象接触。

近日，谷歌 DeepMind 的研究人员宣布开发了两款新型人工智能机器人系统。一款名为 ALOHA Unleashed，旨在推动双臂操控科学的发展。另一款名为 DemoStart，旨在提升拥有多个手指、关节或传感器的机器人手的功能。

同时，DeepMind 团队在最近的论文中还公布了一项使机器人灵活适应未知任务的解决策略，使机器人可以更从容地处理现实场景中出现的未知任务、意外任务。

ALOHA Unleashed：提高机器人灵活性的简单秘诀

ALOHA Unleashed 方法以 ALOHA 2 平台为基础，该平台基于斯坦福大学的原始 ALOHA（一种用于双手遥控的低成本开源硬件系统）。

ALOHA 2 比之前的系统更加灵巧，因为它有两只手，可以轻松进行遥控以进行训练和数据收集，并且它允许机器人通过更少的演示来学习如何执行新任务。

论文链接：https://aloha-unleashed.github.io/assets/aloha_unleashed.pdf

为了让机器人手更灵巧，研究人员开发了一个协议来收集任何双手操作平台都无法比拟的大规模数据，在真实机器人上对 5 项任务（例如系鞋带和将衣服挂在衣架上）进行了超过 26,000 次演示，在 3 项模拟任务上进行了超过 2,000 次演示。

视频：双臂机器人拉直鞋带并将其打成蝴蝶结的示例。（来源：DeepMind 官网）

研究人员发现，单靠数据是不够的。该方法的另一个关键要素是使用扩散损失进行训练的基于 Transformer 的学习架构。

该架构以多个视图为条件，对动作轨迹进行去噪，该轨迹在滚动视界设置中以开环方式执行。结果表明，非扩散架构无法解决这里的某些任务，尽管之前已针对 ALOHA 平台进行了调整。

视频：双臂机器人的示例：将一件 Polo 衫铺在桌子上、放在衣架上、然后挂在衣架上。（来源：DeepMind 官网）

视频：双臂机器人修理另一个机器人的示例。（来源：DeepMind 官网）

研究人员表示，这是目前为止第一个可以自主系鞋带或挂 T 恤的机器人端到端策略。

DemoStart：强化学习应用于多指机器人，从模拟到现实

控制灵巧的机械手是一项复杂的任务，随着手指、关节和传感器的增加，这项任务变得更加复杂。

在另一篇新论文中，DeepMind 团队介绍了 DemoStart，它使用强化学习算法帮助机器人在模拟中获得灵巧的行为。这些学习到的行为对于复杂的实施例（如多指手）特别有用。

论文链接：https://arxiv.org/abs/2409.06613

DemoStart 首先从简单状态开始学习，然后随着时间的推移，从更困难的状态开始学习，直到它尽其所能掌握一项任务。与从现实世界示例中学习相同目的所需的模拟演示相比，它学习如何在模拟中解决一项任务所需的模拟演示要少 100 倍。

视频：机械臂在模拟（左）和真实环境（右）中学习成功插入黄色连接器的示例。（来源：DeepMind）

视频：机械臂在模拟中学习拧紧螺钉螺栓的示例。（来源：DeepMind）

在模拟中，该机器人在执行多项不同任务时的成功率超过 98%，包括重新定向显示特定颜色的立方体、拧紧螺母和螺栓以及整理工具。

在真实世界中，它在重新定向和提起立方体时的成功率为 97%，在需要高手指协调性和精确度的插头插座插入任务中成功率为 64%。

Gen2Act：新场景中的人体视频生成可实现通用机器人操控

机器人操作策略如何推广到涉及未见过的物体类型和新动作的新任务？

DeepMind 团队提供了一种解决方案 Gen2Act，即通过人类视频生成从网络数据中预测运动信息，并根据生成的视频调整机器人策略。

该团队展示了如何利用在易于获取的网络数据上训练的视频生成模型来实现泛化，而不是尝试扩展昂贵的机器人数据收集。

论文链接：https://arxiv.org/abs/2409.16283

Gen2Act 将语言条件操纵视为零样本人类视频生成，然后使用以生成的视频为条件的单一策略执行。

为了训练该策略，研究人员使用的机器人交互数据比视频预测模型训练时的数据少一个数量级。Gen2Act 不需要微调视频模型，可以直接使用预先训练的模型来生成人类视频。

图示：Gen2Act 学习生成人类视频，然后根据生成的视频执行机器人策略。这可以在未见过的场景中实现多样化的现实世界操控。（来源：论文）

研究人员在各种现实场景中测试了 Gen2Act。并展示了，Gen2Act 如何能够操纵看不见的物体类型并执行机器人数据中不存在的任务的新颖动作。

视频：视频生成和机器人执行的详细结果。（来源：网络）

相关内容：https://techxplore.com/news/2024-09-google-deepmind-unveils-ai-based.html

人工智能 × [ 生物神经科学数学物理化学材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

http://mp.weixin.qq.com/s?__biz=MzI3MjM3ODk0NQ==&mid=2247503060&idx=1&sn=400953dd647bc7ccc037eb0c4286e738

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

最新文章

为233种疾病推荐候选药物，中国科学院深度生成模型助力药物发现，登Nature子刊

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

准确、高效、物理有效，中科大、北大提出「两段式」分子对接统一框架DeltaDock

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

TMI2024 | 阿大、同济等提出TraCoCo，用于3D医学图像半监督分割

科学实验室走向全自动化，机器人融合AI，加速科学发现，Science子刊观点

不懂AI、不会编码？如何轻松拿捏AlphaFold准确预测蛋白结构

Nature 子刊，化学语言模型自动设计多靶点配体

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

AI搞科研？西湖大学发布「AI科学家」Nova，效果比SOTA竞品提升2.5倍

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

1.1亿个结构DFT计算，Meta推出OMat24，AI驱动材料发现开源化

Nature子刊，北大陈语谦团队提出多模态单细胞数据整合和插补的深度学习方法

速度提高1000万倍，AI快速准确预测等离子体加热，助力核聚变研究

从结构准确预测蛋白质功能，东北大学「CNN+GCN」统一框架，优于现有方法

仅8B参数，可与GPT-4媲美，上交大团队构建多语言医学大模型

准确预测蛋白质功能，中山大学基于几何图学习的酶工程新方法

几秒完成化学反应，每天筛选上万反应，浙大、之江全自动高通量AI「机器人」

中国科学院核聚变最新进展，AI 加速等离子体参数预测

Nature子刊，香港浸大、英伟达团队多模态深度语言模型，用于复杂的宏基因组研究

AI 驱动的「科学搜索引擎」如何加速你的课题进度

水和算法有何相似？用物理学来理解大语言模型

化学空间导航仪：流生成式AI引导分子属性控制

AI发现超16万种新RNA病毒？阿里云、中山大学合作研究登Cell

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

快多个数量级，清华更高精度、更泛化的深度学习电子结构计算方法登Nature子刊

Nature子刊，基于量子实验数据进行机器学习，用于解决量子多体问题

AI再夺诺奖！2024诺贝尔化学奖授予蛋白质计算领域三位科学家

诺奖颁给交叉学科，对「AI for Science」意味着什么？

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

精准预测流产风险，上海交大等开发可解释AI算法，为早期预防带来希望

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

如何用生成式 AI 定义我们的未来？看看微软怎么说

更简单、更清晰，解析核酸、蛋白、细胞等结构，AI实现快速分子模式挖掘

Science 发文，高通量蛋白质组学和人工智能的革命

中国科大、科大讯飞团队开发ChemEval：化学大模型多层次多维度能力评估的新基准

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

同时生成蛋白序列和结构，David Baker团队序列空间扩散新模型登Nature子刊

新「AI科学家」？MIT整合多智能体，实现材料科学研究自动化

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

机器学习辅助催化剂设计，天大团队开发通用且可解释的描述符

中国科学院物理学家利用机器学习揭示原子核壳演化

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

准确率87.6%，南农、国防科大、苏大等发布显微图像分类AI新方法

借助谷歌AI工具，科学家揭示「生物蛋白如何应对恶劣条件」

全球首个真实场景城市内涝监测大模型

首个多模态地理科学大模型「坤元」

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉