为何机器人难以打通「任督二脉」?

文摘   2024-11-14 10:44   中国香港  
点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入
编辑 / RoboX‍‍‍
昨日(11月11日),国家地方共建具身智能机器人创新中心宣布,其通用机器人母平台——「天工」启动开源计划。
据介绍,创新中心将联合全球高校、科研院所、集成商等具备人形机器人二次开发能力的机构,打造具身智能开源开放社区。
目前,创新中心已开放「天工」软件开发文档、结构设计文档,年底则进一步将开源天工结构图纸、软件架构、电气系统等内容,数据集、运动控制训练框架等方面也将陆续开放开源。
而就在近日,在2024 AI创造者大会上,该创新中心CTO唐剑详细介绍了天工、开物机器人平台的最新成果,以及大模型时代下的具身智能技术走向。

唐剑指出,周星驰的电影《功夫》中提到,要想练成绝世武功,就要打通任督二脉。那要想让机器人练成绝世武功、操作物理世界的万物,也要打通「任督二脉」(机器人和物理世界的交互)。

随着ChatGPT等大模型的出现,也带来了具身智能的新希望。但至于如何打通督脉,至今还没有一家公司或者是科研机构,有非常好的解决方案,这也是创新中心的一个研究重点。

上世纪80年代,美国学者莫拉维克提出了「莫拉维克悖论」。通俗理解起来,就是指机器人容易干的事情,人觉得很难;而人觉得很难的事情,机器人就觉得比较容易。典型案例就是机器人下围棋能下过世界冠军。

反倒是一些简单的事情,例如洗衣做饭等家务,目前还没有大规模落地应用。
唐剑称,这就像之前网上的一个说法:AI的方向是不是搞错了?大家本来希望AI洗衣做饭,让人去写诗作画,但现在却是AI去写诗作画了,人还在洗衣做饭。
唐剑认为,AI的方向并没有错,只是对于机器人来说,在千家万户做泛化的家务应用,是非常有挑战性的。

因为在非结构化的物理世界中,场景很不确定,这和工厂的强结构化空间不一样,许多操作都需要随机应变。

另外,类似家务等工作的任务流程也不不固定——没人会给做饭写一个SOP,确定每一个步骤,也没有人会严格按照SOP来做工作。
同时,在家庭中,还有各种各样的物品,哪怕一个杯子都有上千万种,在整个操作过程中,可能出现各种各样的失误情况。

这也是为什么自动驾驶已经做了约20年了,还没有做通。就是因为公开道路会遇到各种各样突发的情况,这是极具挑战性的。
伴随着「将AI用到物理世界」的趋势,业界从聚焦数据智能,开始转向关注具身智能,这也包括李飞飞提的空间智能的概念。
唐剑将「具身」「智能」拆成两部分,并围绕创新中心的相关技术,分别进行了讲解:

一、具身部分

据唐剑介绍,创新中心的主要产品,就是天工机器人。该中心在今年4月底,已经发布了天工1.0版。然后在118天后的8月底,又发布了天工1.2版的MAX版本。
其身高约为1.73米,和多数人的身高相似,体重为60公斤左右,全身有42个自由度。它不仅可以行走,还可以奔跑,速度可达7.2km/h,同时具备灵巧手,传感器等等。

而且,创新中心计划以成本价,向高校、科研院所,以及科研单位出售天工机器人,并配套开放各类运控、具身智能的接口,同时赠送自研统购的数据采集设备,以进行遥操作机器人采集数据。

至于轮臂机器人——天轶,后续也会被加上双臂和灵巧手,完成物理操作。

二、智能部分
唐剑介绍称,在大模型出现之前,做具身智能有两条主流路径:
1、模仿学习:也就是监督学习,这需要大量的数据来训练模型,指导机器人能在物理世界完成各种操作;
2、强化学习:如果说模仿学习就像跟着教科书和老师学,那强化学习就像实战派,让机器人在实际环境中学好经验,在物理世界就能做好工作。
“监督学习和强化学习各具优劣势。在大模型出现之前,因为模型数据、算力等方面的限制,机器人并未在非结构化、半结构化的物理世界中出现大规模的应用。

当然,工厂环境除外。因为这种工业机器人的流程极其固定,甚至轨迹都是固定的。“唐剑说道。
2022年底,ChatGPT出现了,此类模型最强的是其泛化能力。例如,从前的问答机器人都集中在某个领域——订票、金融等等。但现在利用GPT技术,对话没有方向限制。虽然有时答案不准确,但如果做好知识库,答案也可以非常准。

唐剑称,现在业界将大模型和具身智能相结合,比较主流的一种路径就是「大脑加小脑」的范式——在云端部署一个大模型,相当于机器人的大脑,它主要做场景的理解和任务的拆解(例如物体认知、物品之间的关系、位置,以及它们与机器人的相对位置关系。)

另一种路径,就是做任务的拆解——将一个任务拆成更小的,非常细力度的子任务,来对应具体任务的执行。

小脑可以是运行在机器人身上的智能体,它会将大脑做的任务拆解,进行具体技能的执行,并且处理一些错误:例如抓取物体失败了,小脑要及时感知,再进行重新操作。

唐剑举了一个例子:如果机器人收到的指令是「帮我烤一片面包」,那么大脑拆解子任务,包括拿起面包、放入面包机中,按下按钮,等待、放入盘中等。也就是说,其实机器人本体上有一个技能库,可具体执行各种操作。

唐剑指出,创新中心会在年底正式发布开物平台,它是具身智能体,但它是一个分布式多具身智能体,有点像操作系统,面向下层适配各类硬件。

“这就是一脑多机,要支持各种硬件,不只限于天工或天轶平台。开物平台可以让应用方案集成商和开发商,在非常熟悉特定场景的基础上,用简单的自然语言编程,控制机器人,完成各种操作。

据介绍,开物平台利用在云端的Brain Agent完成理解、拆解任务,将其对应到各个原技能上。

唐剑解释称,「原技能」通常是一个不带宾语的动词,就像打开、拿起,放下等等。不过目前来看,如果要在居家、工业或物流等不同场景中使用原技,还很难保证原技能的精准度。

“开物平台的最终目标,是希望开发者投入很小的团队,在一两周的时间内,就能让一台机器人下地干活。”

总结来看,开物会用百万级的轨迹数据来训练机器人,让它有强大的泛化能力,操作各种各样不同的物体,适配各种场景。

“我们希望用这种方式快速适配各种场景,而不需要针对某一场景下的某一各特定任务,专门开发一套程序。该平台的目标,是降低90%的开发时间。”
目前,在政府的支持下,创新中心也在和众多机器人公司合作,包括各种各样的机器人和机械臂,覆盖多场景,多任务的数据集。

互联网的数据不是特别有价值,对于机器人训练,最需要的是轨迹数据。我们在年底会发布30万条有稠密信息的数据,包括末端执行、各个关节、每个时刻的落地位姿,以及各个传感器在每个时刻的读数和视觉信息,到明年年底计划会发布200万条。”
除了上述已经发布或临近发布的产品外,唐剑也介绍了一些最新学术成果和工作:
1、具身指令增强:

他指出,人类指令通常会非常简单,例如“抓起这个玩具熊”。如果在此基础上,做一个简单的扩展,指出相应的物品绝对位置,以及它与机器人相对的位置,把指令扩展以后,能够极大地提升各类操作的成功率。

2、用一个VLA模型,执行多种任务

唐剑表示,现在其VLA模型能够实现双臂真正协同操作,而不是左臂和右臂「各干各的」,而且只用一个VLA模型就可以cover多种技能。

3、利用模型自动补全用RGB-D摄像头的视觉缺失,从而提升各种任务的成功率。
最后,唐剑表示,在上世纪80年代,随着麦金塔图形界面的电脑出现,进入个人电脑时代;2005年,随着iPhone智能手机让人类代入移动互联网时代,每人拥有一台手机;而未来,一定会是具身智能机器人时代,每家都会有一台具身智能机器人。”

自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!   

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!


自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧


自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章