212页PPT:大模型时代的具身智能

教育   2024-12-22 17:16   江苏  

来自:赛尔实验室

LLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入!

随着人工智能尤其是大模型技术的发展,具身智能成为了当前研究的焦点之一。日前,我中心发布了题为《大模型时代的具身智能》的具身大模型关键技术与应用报告,共计212页PPT,对具身智能的核心技术、前沿研究动态、行业应用、未来研究趋势等作了详细的梳理、分析和展望。报告摘要及作者介绍如下(报告全文 可点击最下方“阅读全文”下载):

报告摘要:

随着大模型技术的突破性进展,人工智能的发展从感知智能和认知智能,逐步向能够与真实物理环境进行交互的具身智能阶段发展,并在大模型在多种任务上的强大泛化能力和人形机器人对于人类社会场景的适应能力的基础上,有望通过具身智能的发展,最终实现通用人工智能。本报告旨在梳理具身智能领域研究和产业现状,并从大模型赋能具身智能研究的角度,介绍具身大模型的关键技术及应用、机器人智能控制的主流方法、具身智能领域规划大模型面临的主要问题和最新进展,以及对后续具身智能技术路线进行分析和展望。

一、引言

报告开篇通过阐述当前大模型技术在机器人智能化的感知、决策、规划、运动执行等方面的不足,引出并解答了“什么是具身智能?”,以及 “我们为什么研究具身智能?”的问题;强调了具身智能的特点是具有物理身体,研究上注重智能实体与现实的交互,及提升智能实体的自主能力通用能力;同时,报告概括的总结出,具身感知具身推理具身执行是当前大模型时代具身智能的研究关键。

二、具身智能的关键研究问题

(1)具身感知

具身感知主要解决当前大模型对现实世界的细粒度表征和理解上存在不足,以及无法“交互”着感知的问题,例如“电饭煲盖子如何打开?”、“警察的手势是什么意思?”等等。本报告将具身感知按照感知对象分成了两大类、四小类,即对“物”的感知,包括微观的物体感知和宏观的场景感知,以及对“人”的行为感知表达感知

(2)具身推理

具身推理主要解决当前大模型对现实世界的人类生活经验、工作经验理解和推理能力不足的问题。研究包括负责决策和规划自己如何行动的任务规划、负责知道自己在哪里、去哪里的导航、以及能否通过导航自主探索环境并回答问题的具身问答

(3)具身执行

具身执行主要解决当前大模型对现实世界的智能实体应如何运动不理解、无法操控机器人像人类一样运动的问题。模仿学习强化学习是当前主流的让机器人习得动作的方式,但这两类方式都依赖大量的数据、拟真的仿真环境和高频高效的反应。因此,具身执行的研究关键便是如何采集、构造大规模数据集,如何将仿真与现实环境对齐,及如何降低模型参数提升算法的计算效率

三、总结与展望

本报告对未来具身智能的研究产业发展伦理安全分别做了展望。当前行业竞争十分激烈,但离机器人进入人类生产生活获得收益的目标仍然遥远。同时,如何保证未来的机器人不伤害人类、不会造成人口大量失业的社会问题也需要我们的提前思考和预防。此外,要想真正实现类人的机器人,仅有一个感知、推理、执行能力出色的具身大模型是不够的,还需要未来的大模型能够具备交互学习和持续学习的能力,才能让机器人像人一样在世界中不断摸爬滚打,从实践和试错中不断完善。

作者介绍:

张伟男,长聘教授/博士生导师,哈工大人工智能学院执行院长兼计算学部副主任,国家级青年人才,国家重点研发计划青年科学家项目负责人,中国计算机学会(CCF)理事、中国中文信息学会社交媒体处理专委会社交机器人专业组组长、大模型专委会委员。研究兴趣包括自然语言处理、大模型、社交机器人和具身智能。

王雪松,哈尔滨工业大学计算学部在读博士研究生,师从刘挺教授、张伟男教授。曾担任中国中文信息学会青工委学生执委,曾获黑龙江省“三好学生”称号。研究方向为多模态大模型和具身智能,参与研发哈工大“活字”大模型,带头研发了哈工大展厅服务机器人等。

陈一帆,哈尔滨工业大学计算学部在读硕士研究生,导师为张伟男老师。研究领域涉及对话式推荐、检索增强、具身智能,曾基于哈工大自研“活字”大模型开发检索增强大模型活字日新。目前研究方向为大模型、具身智能。

其他参与制作人员:

宋浩,哈尔滨工业大学计算学部在读硕士研究生

田翔,哈尔滨工业大学计算学部在读硕士研究生

孙楚芮,哈尔滨工业大学计算学部在读硕士研究生

梁师齐,哈尔滨工业大学计算学部在读硕士研究生

刘凯峰,哈尔滨工业大学计算学部在读本科生


编辑:李宝航

初审:张伟男、丁   效
复审:冯骁骋
终审:单既阳




备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦

深度学习自然语言处理
一个热衷于深度学习与NLP前沿技术的平台,期待在知识的殿堂与你相遇~
 最新文章