首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

为何机器人难以打通「任督二脉」？

文摘 2024-11-14 10:44 中国香港

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入

编辑 / RoboX

昨日（11月11日），国家地方共建具身智能机器人创新中心宣布，其通用机器人母平台——「天工」启动开源计划。

据介绍，创新中心将联合全球高校、科研院所、集成商等具备人形机器人二次开发能力的机构，打造具身智能开源开放社区。

目前，创新中心已开放「天工」软件开发文档、结构设计文档，年底则进一步将开源天工结构图纸、软件架构、电气系统等内容，数据集、运动控制训练框架等方面也将陆续开放开源。

而就在近日，在2024 AI创造者大会上，该创新中心CTO唐剑详细介绍了天工、开物机器人平台的最新成果，以及大模型时代下的具身智能技术走向。

唐剑指出，周星驰的电影《功夫》中提到，要想练成绝世武功，就要打通任督二脉。那要想让机器人练成绝世武功、操作物理世界的万物，也要打通「任督二脉」（机器人和物理世界的交互）。

随着ChatGPT等大模型的出现，也带来了具身智能的新希望。但至于如何打通督脉，至今还没有一家公司或者是科研机构，有非常好的解决方案，这也是创新中心的一个研究重点。

上世纪80年代，美国学者莫拉维克提出了「莫拉维克悖论」。通俗理解起来，就是指机器人容易干的事情，人觉得很难；而人觉得很难的事情，机器人就觉得比较容易。典型案例就是机器人下围棋能下过世界冠军。

反倒是一些简单的事情，例如洗衣做饭等家务，目前还没有大规模落地应用。

唐剑称，这就像之前网上的一个说法：AI的方向是不是搞错了？大家本来希望AI洗衣做饭，让人去写诗作画，但现在却是AI去写诗作画了，人还在洗衣做饭。

唐剑认为，AI的方向并没有错，只是对于机器人来说，在千家万户做泛化的家务应用，是非常有挑战性的。

因为在非结构化的物理世界中，场景很不确定，这和工厂的强结构化空间不一样，许多操作都需要随机应变。

另外，类似家务等工作的任务流程也不不固定——没人会给做饭写一个SOP，确定每一个步骤，也没有人会严格按照SOP来做工作。

同时，在家庭中，还有各种各样的物品，哪怕一个杯子都有上千万种，在整个操作过程中，可能出现各种各样的失误情况。

这也是为什么自动驾驶已经做了约20年了，还没有做通。就是因为公开道路会遇到各种各样突发的情况，这是极具挑战性的。

伴随着「将AI用到物理世界」的趋势，业界从聚焦数据智能，开始转向关注具身智能，这也包括李飞飞提的空间智能的概念。

唐剑将「具身」和「智能」拆成两部分，并围绕创新中心的相关技术，分别进行了讲解：

一、具身部分

据唐剑介绍，创新中心的主要产品，就是天工机器人。该中心在今年4月底，已经发布了天工1.0版。然后在118天后的8月底，又发布了天工1.2版的MAX版本。

其身高约为1.73米，和多数人的身高相似，体重为60公斤左右，全身有42个自由度。它不仅可以行走，还可以奔跑，速度可达7.2km/h，同时具备灵巧手，传感器等等。

而且，创新中心计划以成本价，向高校、科研院所，以及科研单位出售天工机器人，并配套开放各类运控、具身智能的接口，同时赠送自研统购的数据采集设备，以进行遥操作机器人采集数据。

至于轮臂机器人——天轶，后续也会被加上双臂和灵巧手，完成物理操作。

二、智能部分

唐剑介绍称，在大模型出现之前，做具身智能有两条主流路径：

1、模仿学习：也就是监督学习，这需要大量的数据来训练模型，指导机器人能在物理世界完成各种操作；

2、强化学习：如果说模仿学习就像跟着教科书和老师学，那强化学习就像实战派，让机器人在实际环境中学好经验，在物理世界就能做好工作。

“监督学习和强化学习各具优劣势。在大模型出现之前，因为模型数据、算力等方面的限制，机器人并未在非结构化、半结构化的物理世界中出现大规模的应用。

当然，工厂环境除外。因为这种工业机器人的流程极其固定，甚至轨迹都是固定的。“唐剑说道。

2022年底，ChatGPT出现了，此类模型最强的是其泛化能力。例如，从前的问答机器人都集中在某个领域——订票、金融等等。但现在利用GPT技术，对话没有方向限制。虽然有时答案不准确，但如果做好知识库，答案也可以非常准。

唐剑称，现在业界将大模型和具身智能相结合，比较主流的一种路径就是「大脑加小脑」的范式——在云端部署一个大模型，相当于机器人的大脑，它主要做场景的理解和任务的拆解（例如物体认知、物品之间的关系、位置，以及它们与机器人的相对位置关系。）

另一种路径，就是做任务的拆解——将一个任务拆成更小的，非常细力度的子任务，来对应具体任务的执行。

小脑可以是运行在机器人身上的智能体，它会将大脑做的任务拆解，进行具体技能的执行，并且处理一些错误：例如抓取物体失败了，小脑要及时感知，再进行重新操作。

唐剑举了一个例子：如果机器人收到的指令是「帮我烤一片面包」，那么大脑拆解子任务，包括拿起面包、放入面包机中，按下按钮，等待、放入盘中等。也就是说，其实机器人本体上有一个技能库，可具体执行各种操作。

唐剑指出，创新中心会在年底正式发布开物平台，它是具身智能体，但它是一个分布式多具身智能体，有点像操作系统，面向下层适配各类硬件。

“这就是一脑多机，要支持各种硬件，不只限于天工或天轶平台。开物平台可以让应用方案集成商和开发商，在非常熟悉特定场景的基础上，用简单的自然语言编程，控制机器人，完成各种操作。”

据介绍，开物平台利用在云端的Brain Agent完成理解、拆解任务，将其对应到各个原技能上。

唐剑解释称，「原技能」通常是一个不带宾语的动词，就像打开、拿起，放下等等。不过目前来看，如果要在居家、工业或物流等不同场景中使用原技，还很难保证原技能的精准度。

“开物平台的最终目标，是希望开发者投入很小的团队，在一两周的时间内，就能让一台机器人下地干活。”

总结来看，开物会用百万级的轨迹数据来训练机器人，让它有强大的泛化能力，操作各种各样不同的物体，适配各种场景。

“我们希望用这种方式快速适配各种场景，而不需要针对某一场景下的某一各特定任务，专门开发一套程序。该平台的目标，是降低90%的开发时间。”

目前，在政府的支持下，创新中心也在和众多机器人公司合作，包括各种各样的机器人和机械臂，覆盖多场景，多任务的数据集。

“互联网的数据不是特别有价值，对于机器人训练，最需要的是轨迹数据。我们在年底会发布30万条有稠密信息的数据，包括末端执行、各个关节、每个时刻的落地位姿，以及各个传感器在每个时刻的读数和视觉信息，到明年年底计划会发布200万条。”

除了上述已经发布或临近发布的产品外，唐剑也介绍了一些最新学术成果和工作：

1、具身指令增强：

他指出，人类指令通常会非常简单，例如“抓起这个玩具熊”。如果在此基础上，做一个简单的扩展，指出相应的物品绝对位置，以及它与机器人相对的位置，把指令扩展以后，能够极大地提升各类操作的成功率。

2、用一个VLA模型，执行多种任务。

唐剑表示，现在其VLA模型能够实现双臂真正协同操作，而不是左臂和右臂「各干各的」，而且只用一个VLA模型就可以cover多种技能。

3、利用模型自动补全用RGB-D摄像头的视觉缺失，从而提升各种任务的成功率。

最后，唐剑表示，在上世纪80年代，随着麦金塔图形界面的电脑出现，进入个人电脑时代；2005年，随着iPhone智能手机让人类代入移动互联网时代，每人拥有一台手机；而未来，一定会是具身智能机器人时代，每家都会有一台具身智能机器人。”

自动驾驶之星和生成式AI与具身智能知识星球，新人优惠券来袭，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

http://mp.weixin.qq.com/s?__biz=MzkzMjY1MDI0OQ==&mid=2247487269&idx=2&sn=cba7ae1bb7cf812599f02c1e212cb828

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！

最新文章

某合资主机厂研发中心裁员

为何机器人难以打通「任督二脉」？

20 多家端到端自动驾驶企业/研究机构方案盘点（2）理想、地平线、元戎启行

20 多家端到端自动驾驶企业/研究机构方案盘点（1）tesla、小鹏汽车、零一汽车

PointLLM：使大型语言模型能够理解点云

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

小鹏AI日的「9点必读」：机器人比车难做10000倍

端到端量产论文精选！

智驾公司中层leader的生存之道

智能座舱：能不能把今天的内卷，变成明天的诗和远方？

介绍一种transformer稀疏神经网络的硬件加速器算法

特朗普上台对中国汽车行业的影响：自动驾驶与芯片行业的双重挑战

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

华为李大锋：数字钥匙的安全与体验-华为数字钥匙方案介绍|2024车身电子技术论坛（11月14日，上海）

这些年我们一起追过的自动驾驶端到端范式！

"35岁程序员"在自动驾驶赛道的悲哀：职业发展的困境与挑战

具身智能的前景如何？是否适合读博？

自动驾驶的明日之星：世界模型带来的革新与挑战

自动驾驶赛道的挑战与机遇：裁员与业务缩减背后的故事

快手 Kuaishou AI 全景解析

小鹏「端到端」及「纯视觉」的法宝，终于一次说清了

【自动驾驶之星社区】上海线下大模型活动圆满落幕 —— 探索自动驾驶的新边界

1024，致敬那些改变世界的代码诗人

自动驾驶量产相关学习资料整理！

【论文日报】LLM合集：HuggingFace开源一站式AutoTrain大模型微调平台

Open3DTrack 面向开放词汇的3D多目标跟踪 !

自动驾驶之星社区一周经典内容整理！

「AI 汽车大战」的三个真相

我们回来啦！自动驾驶之星社区大模型线下活动（10月26号上海）报名开始啦！

传小马智行即将公开申请IPO，赴美上市迈出关键一步

自然资源部审图中心副主任：智能驾驶测绘的安全隐患

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

工作的意义是什么？

首个以人类行为端对端自动驾驶系统HE-DRIVE：基于扩散模型实现OpenScene轨迹规划最新SOTA

魔视智能获新一轮融资，或为IPO做准备

开源SOTA项目Voxel-SLAM：完整、精确且多功能的激光雷达-惯性SLAM系统

如何快速将特斯拉3D感知移植到擎天柱？有可能只需要HeightFormer

高阶智驾平权时代，BEV+Transformer架构或成必杀技？

视频生成和具身智能强强联合！谷歌&卡内基梅隆&斯坦福发布Gen2Act：泛化超棒！

自动驾驶之星社区大模型线下活动报名开始啦！（10月26号上海）我们回来啦！

自动驾驶之星社区一周经典内容整理！

Tesla We Robot发布会总结

全面了解端到端自动驾驶的研发现状、挑战与策略应对（二）

自动驾驶量产经验整理！

百度汽车云3.0 ，为端到端自动驾驶量产落地提速

大模型入门笔记整理记录

地平线通过港交所上市聆讯，即将IPO

全面带你了解端到端大模型的底层逻辑（一）

大模型中LLM训练技巧(干货满满！！)- SFT

【论文日报合集】英伟达开源MaskLLM剪枝技术，显著降低LLM推理成本

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉