具身智能没有现成答案,只能去找最有希望找到答案的人。
文丨张家豪
编辑丨程曼祺
“太难选了,实在挑不出。” 一位密切关注具身智能的早期投资人近期告诉我们,他们在 5-6 个整机公司里犯难,于是转而投资电机等机器人零部件企业。
难以决断,是前沿科技投资和创新的常态。越新的领域,往往越没有明确、清晰的技术与商业路线。
自 2023 年火热至今的通用具身智能和人形机器人正处于这个 “八仙过海” 的时期。
有的公司像特斯拉那样做全人形机器人,有的公司则推出没有腿或没有手的仿人形机器人;有人相信操作价值更大,有人相信运动能力更重要;有人相信端到端模型是机器人的终极方案,有人则认为,就像人脑分大脑、小脑,分层模型组合更可行……
当具身智能没有现成答案时,钱和资源只能去找最有希望找到答案的人。
刚在本月初获得高瓴创投、蚂蚁集团、米哈游超 2 亿元 Pre-A 轮融资的星海图,可能就汇聚了一群能力互补的年轻创业者,他们正在探索通往通用具身智能的路。
星海图的四位联创中,两位是任教于清华的青年学者:赵行和许华哲。
赵行是 MIT 计算机视觉博士,后在 Waymo 担任研究员。2020 年回国加入清华交叉信息学院。许华哲在伯克利获得博士学位,后在斯坦福博士后,是清华 “Embodied AI(具身智能)” 实验室负责人。
许华哲长于具身智能的操作,赵行则研究视觉感知和导航技术,二人的专长分别对应目前具身智能的两个核心模块——机器人的智能操作能力,和机器人完成任务所需的环境感知能力乃至物理规律理解能力。
理想汽车目前的自动驾驶方案是端到端 +VLM(视觉语言大模型),其中 VLM 正是理想和赵行实验室的合作成果。
星海图股东之一的百度风投,也投资了智元机器人和有鹿机器人。百度风投刘水说:星海图的特点是 “全栈技术能力强”。
一位接触过星海图但并未出手的投资人也说 “这个团队里有两张 AI 好牌”,即赵行和许华哲。
两位研发背景的联创之外,星海图 CEO 高继扬和联创兼机器人整机产品负责人李天威则有业界经验和工程能力。
2021 年,在 Waymo 与赵行共事过的南加大博士高继扬回国加入智能驾驶头部供应商 Momenta,两年里升到技术总监,带领一个 100 多人的技术团队,研发高速 NOA 系统,经历了智能驾驶从研发到商用落地的过程。
目前在星海图负责机器人本体研发的李天威硕士毕业于伦敦大学学院,他是高继扬在 Momenta 的同事,负责 SLAM(定位与建图)研发工作。
除了有希望找到答案的人员组合,关键还有多想找到答案。2023 年中,当高继扬邀请赵行一起创业时,赵行曾问他:做什么会让他觉得 “即使失败也不遗憾”,高继扬说,他真正想做的是智能机器人,“这是这个时代最大的机会”。
自去年底开始正式运营后,星海图用两个多月时间做出了机械臂,半年左右时间做出了机器人本体。
星海图仿人形机器人 R1
但星海图更强调 “脑”,他们在多个场合反复讲 “一脑多形”。
赵行说:他看到的机器人终局是,未来会出现一个像寒武纪那样的机器人物种大爆发——各种形态的机器人会在我们的社会中完成各种任务,但都由一个通用的 “大脑” 来控制。
他认为,要做出通用机器人,最重要的不是物理形态,而是能适应各种形态的、相对通用的智能。这就像哺乳动物形态各异,但都有基础的感知、判断、运动能力,部分还具有会使用工具等相对高级的智能。
星海图正尝试探索目前尚无团队做到的事:开发出相对通用的 “具身大模型”。
他们有一些独特的技术和商业判断:比如在现阶段选择了没有灵巧手和双腿的仿人形机器人 R1,专门开发了同构的遥操硬件,以探索遥操的商用价值和降低数据采集成本;除了具身操作模型,星海图还做了大部分公司暂未尝试的空间智能引擎,以帮助机器人获得高质量的数据。
技术能力和判断,是科技创业成功的前提,但不必然导向成功。
赵行与许华哲都没有选择当 CEO,而是以首席科学家的身份加入具身创业潮。他们说,具身智能太难了,要 “一个好汉三个帮”。
以下是我们和赵行、许华哲的对话:
具身智能太难,“一个好汉三个帮”
《晚点》:有投资人告诉我们,星海图的几个联创,每个人单独出来也能融到钱,为什么决定一起创业?
赵行:能融到钱不意味着能做好,具身智能这件事太难了。我们最开始就觉得要 “一个好汉三个帮”,彼此互补。
《晚点》:你们如何互补?
赵行:我这边更多负责感知和移动导航,华哲负责操作,天威负责整机,本体、中间件、软硬件系统。继扬作为 CEO 全盘都要负责。
我们的算法分空间智能和操作智能,空间智能是操作智能的基础,提供对于物理世界的理解,我做空间智能更多,实现的能力是感知和导航。
《晚点》:能组成这个阵容,是按图索骥,还是彼此相识已久,都有创业想法?
赵行:我和继扬在 Waymo 就是同事,他很早就开始看国内的机会,后来加入了 Momenta。2023 年年中,继扬邀请我创业,我问了他两个问题,一是做哪件事情,就算成也不会觉得遗憾;二是,如果这个公司做不好,怎么办?
关于第一个问题,他认为这个时代最有价值的事就是具身智能;关于第二个问题,我们都认可这个团队,重要的是,团队能持续一起做有价值的事。
许华哲:创业一直在我的规划里。去年五月末,我和赵行一起去非洲参加学术会议,刚好聊到了他们的创业计划。我想过现在创业会不会太早,以及要不要自己做。后来我觉得,创业只有非常小的窗口期,有一个高执行力、高效和野心勃勃的 CEO,我也不一定非要追求自己当一号位。
《晚点》:雷军多年前看过一家明星自动驾驶公司但没投,因为他觉得三位联创虽然都很厉害,但股权比较平均,关键时刻可能很难有人拍板。你们也汇聚了很多牛人,怎么避免谁都不服谁?
赵行:我们就是继扬来拍板。继扬比较均衡,对工程、技术、商业都了解。
《晚点》:北航机器人研究所的王田苗认为,研究者或学者创业,关键的一点是看能不能全职。两位目前都在清华大学有教职,如何在创业和研究之间分配精力?
赵行:首先,产业转化是我们重要的工作内容,我们也只做了星海图这一家公司。
另一方面,做具身智能本身也需要持续接触前沿技术。我反而会担心,只在公司闷头干事,干了一年后发现这个世界发生了变化。
就像空间智能这件事,我们去年下半年开始讨论,上半年决定做,就是在学术发展过程中看到了这样的机会。科研和创业是互相激发的过程。
《晚点》:为什么认为 2023 年就是具身智能的创业窗口?不看好这个方向的投资人告诉我们,他对 “5-10 年后才发生的事没兴趣”。
赵行:大模型、ChatGPT 的火爆,让大家对具身智能有了更多信心,各界都在投入更多资源;更多顶尖人才也都在做这个方向:软件的、硬件的、运营的。从这些角度看技术供给,我觉得更乐观了。
《晚点》:自动驾驶,当年也是所有厉害的人都往那个方向涌,但十年过去,无人驾驶仍未大规模商业化。
赵行:自动驾驶有一个巨大的坑是安全性。一个人开车平均 10 万公里出一次事故,但自动驾驶做不到,所以大家退而求其次去做辅助驾驶。
而具身智能不存在要求巨高的单一场景,需求非常分散,所以特别适合创业公司。
如果有一个单一的巨大机会,巨头一定会冲进来自己做。大厂已经是一万亿了,它要的是变成十万亿的机会,具身智能现在还不是一个十万亿的机会。
“卡点在脑不在形”
《晚点》:星海图一直强调一脑多形,你们认为脑重要,但现在也有不少具身智能创业公司是先做手、脚、关节。
赵行:我们觉得具身的终局是一脑多形。未来会出现一个像寒武纪那样的机器人物种大爆发:各种各样的机器人会在我们的社会中完成各种各样的任务,但都是一个通用的 “大脑” 来控制各种本体。
怎么到达这个终局?我们的路径是 “智能定义本体”。具身的两条技术线:智能和硬件本体,现在真正的卡点不在造出本体形态,而是怎么把 AI 和智能做好,具身智能的卡点 “在脑不在形”。
做好智能,最大的方向是要真正做出具身智能大模型。现在还没有人真的实现,这也是星海图努力的方向。
《晚点》:我们可以分开来谈,先说本体部分。如果卡点不在 “形”,为什么你们没有做最完整的人形,而是只做了仿人形:你们的机器人没有双腿,也没有灵巧手。
星海图全尺寸双臂仿人形机器人 R1
赵行:这就是因为我们是以智能边界来定义本体。完整的人形其实我们可以做出来,但目前 AI 算法能比较好控制的是全向底盘的移动,以及双臂夹爪的操作。
许华哲:有没有腿也是商业取舍,如果你希望它过雪山、过草地,那肯定要有腿,但如果只是在工厂工作,轮式就够了。
从落地角度看,手和腿还是预研性质。我在清华实验室也做灵巧手,但现有算法水平还不能很好地操作灵巧手。
《晚点》:其实去年上半年,星海图最初的考虑是做无人物流小车,后来又演变成现在的仿人形机器人?这是不是在蹭热点?
赵行:我们早期就明确的一件事是:在中国创业要软硬结合,更能发挥中国供应链的优势。最开始想到做机器人配送,一是我和继扬、天威之前都做过自动驾驶,适合我们做,二是它的价值比较清晰,有具体落地点。
许华哲:这个变化是个自然的过程。比如我加入以后,就在想要不要在无人车上加上两个臂,能自己把东西拿起来,放到车里,配送到站后再自己取出来。
但在做了小车 + 双臂的形态后,我们又会发现,类似人的头肩结构很重要。因为如果没有头肩,在胸口放摄像头,双臂操作物体时,摄像头很容易被挡住。我们就又做了头肩结构,把摄像头放到了头上,这就有了类似上帝视角的俯视视角,能看到更多环境。
我们把各种奇形怪状的东西都试了一遍,最后发现确实上半身人形、下半身轮式更好。我们不是为了人形而搞人形。虽然答案可能和很多其他公司一样,但解题过程不一样。
《晚点》:在你们强调的 “脑” 的部分,你们现在同时做了与机器人移动、操作有关的具身基础模型 EFM 和空间智能引擎 RSR,其实大部分公司都没做后者。为什么二者需要同时做,它们怎么配合?
许华哲:具身基础模型 EFM 是一个通用的端侧模型,解决的是操作,这个模型可以吃各种各样的数据,数据有什么它就能做什么;经过训练能展现出一定的泛化性,现在它使用数据的效率也越来越高了,可以用 50 条数据,针对一个任务达到 90% 以上的成功率。
赵行:空间智能是操作智能的基础,让机器人理解物理世界,有感知和导航能力,目前 RSR 是一整个数据生产引擎,是一系列模型的配合,类似于一个可操作的数字孪生,我们现在能做到对刚性物体的操作。
下一代我们希望把它做成一个一体化的模型,有一定的推理和生成能力,比如看到物体的前表面能推测后表面,这样就能推测对柔性物体施加力后的形变,也能做到操作柔性物体。
《晚点》:斯坦福教授李飞飞的创业公司也想探索 “空间智能”,Meta 首席科学家 Yann LeCun 一直希望开发 “世界模型”。空间智能、世界模型,这些是什么关系?
赵行:我们能看到的以空间智能为主要方向的,除了我们就是李飞飞的公司了。空间智能其实就是用视觉来做三维世界的理解,并且去重现它、复现它、生成它。
我们明年会发的一体化的、对世界有理解的下一代空间智能模型,也可以叫三维世界模型。
《晚点》:LeCun 的一个观点是,目前 LLM(大语言模型)范式对来自视觉或物理世界的数据重视不够,仅通过文本训练,永远不会达到接近人类水平的智能和 AGI。而我们今年夏天和月之暗面杨植麟交流时,他认为现阶段,多模态对智能的提升没有基础大语言模型那么高。
赵行:这取决于怎么理解 AGI。推理和逻辑能力是 AGI 的重要表现,但不意味着操作能力就不是 AGI。
大语言模型是想把整个世界的逻辑搞清楚,而从视觉出发,则是要把世界的物理规律搞清楚,目标是复刻自然界的生物。语言大模型和具身智能,起点和终点都不一样。
视觉对智能至关重要。如果没有视觉,我们就无法理解要交互的对象,无法理解这个东西用来干什么。比如我要操作一个咖啡机,我要知道它的用途,现在有没有水,有没有放咖啡豆,它们之间是什么关系?其中有一系列推理。我们很难只通过语言就让机器理解事物间的联系,视觉嫁接了语言、知识和最后的执行。
《晚点》:你们现在做的是具身基础模型 + 空间智能引擎的组合,而你们想追求的是 “具身大模型”?以终为始来看,未来的具身大模型会是一个统一的模型吗?还是一个分层次的不同模型的组合?
许华哲:具身智能模型会是一个模型,还是分开的多个模型,现在还有争论。我个人倾向是端到端的一个模型,星海图不会现在就做端到端的落地,但也不可能技术不成熟就一直不落地,所以现在我们还是大语言模型、具身基础模型再加提供环境感知能力的空间智能模型的结合。但我自己相信在更远的未来一定是端到端。
《晚点》:怎么从具身模型的现在达到你们看到的未来?
赵行:市面上的具身智能 demo 大多都是基于关键点的操作和 SLAM 的导航。我们是基于大语言模型的通用知识,加上三维感知,辅助端到端操作模型。往后,这些模型会逐渐整合,最终变成一个真正的一段式端到端模型。
遥操拉动业务,业务拉动数据
《晚点》:数据是训练具身智能最关键的一环,星海图的特点之一就是重视用遥操方式获得真实数据,而也有公司更侧重从仿真获得数据,比如银河通用首席科学家王鹤曾告诉我们:特斯拉做遥操可行,创业公司这么做成本太高,就连 Google 之前也裁撤了一部分遥操团队。
许华哲:我认同遥操成本很高,但不认同只有大公司能做这件事。
首先,遥操能帮助获得高质量数据,一个机器人最好的老师是机器人自己,或者说是一个手把手教机器人的人类,这样的数据一定是学习效率最高的。
我们希望把主动的遥操数据采集变成被动的,即通过遥操提供劳动力转移的价值,让 A 地的工人可以干用工成本更高的 B 地的活。
主动遥操是,一个人天天拧螺丝只是为了采数据,你要付钱获得数据;但如果他每天拧螺丝时也产生劳动价值,那么工厂主就会愿意付钱,这就分担了遥操采集数据的成本。
《晚点》:同样是做遥操,特斯拉是让人戴着 VR 设备来遥操,你们是自研了一套遥操硬件。为什么有这个必要?
许华哲:主要的遥操方法有从视频里映射、让人戴着 VR 设备遥操,或让人穿戴与机器人同构的设备来遥操。我们选的是同构,好处是,遥操设备能到达的空间,机器人一定也能到,因为关节、自由度是一一对应的;同构对操作人员也很容易上手,熟悉后操作会很快。
视频的好处是成本低,但精度不行。VR 好处是做遥操技术入门比较快,特斯拉也是一套 VR 设备, VR 只要检测到你肢体末端的移动就行;但坏处是自由度和机器人不一样,人手能够到的地方机器人不一定能够到,VR 还要解算中间关节的移动,需要一秒甚至更长的时间。
《晚点》:既然同构遥操有诸多好处,为什么现在好像是业界的少数选择?
许华哲:造这套系统比较难,同构遥操要求你两边造出的东西结构完全相同,目前商业公司里绝大部分还是靠 VR 在做。
研究界比较著名的同构遥操的例子是斯坦福的 Mobile ALOHA,他们做了双臂遥操硬件,我们扩充到了整个本体。
《晚点》:遥操是帮你们的操作智能采集数据,那么如何获得发展空间智能引擎的数据?现在的采集成本有多高?
赵行:我们现在能做到用手机、相机等消费设备复现真实的物理环境。以前收集这些数据要用测绘设备,比如 Google 街景就要专门搞采集车,顶着各种传感器去扫描环境。
用手机或相机拍,精度比不上激光雷达,但我们也能达到亚厘米级别的重建精度,能满足机器人对世界的感知需求。就像人一样,你不知道面前的桌子具体离你多远,但你大概有个概念。
《晚点》:你们准备怎么一步步推进这些技术想法?
赵行:我们会先从偏刚性物体的操作开始,复杂度稍微低一些,配合遥操可以拓展到更多更复杂的场景,比如无序分拣。这两条线是并行,遥操可以做更难的事情,纯智能做简单一些的事。
遥操也能帮我们获得一些智能边界上的数据,自动驾驶叫 corner case(个别案例)。遥操拉动业务,业务拉动数据,最后希望是闭环的。
许华哲:我们原来这个墙上贴了一个 “In scaling law,We trust”,我们比较相信数据和规模的力量,依托于完善的数据体系,我们能看到智能的涌现,它学了 100 件事,到 101 件事就会自动产生相应的能力。
《晚点》:你们觉得目前这个领域,你们有什么虽然站在少数派一边、但可能是正确的想法?
许华哲:过去非共识的东西,慢慢可能也会变成共识。去年投资人、甚至学界还是觉得具身智能创业必须得有腿。22 年我回国的时候,具身智能这个词还被批判,觉得是伪造出来的概念。到 23 年大家也开始认可这个概念。许多正确的认知被验证以后,大家会迅速地跟上。
纯靠认知领先行业是很难的。我能想到的只有伊利亚·苏茨克维(Ilya Sutskever)和 OpenAI 算是做到了这一点,他们看到了 Scaling Law,开始大家都不信,直到他们做出来了。
《晚点》:如果纯靠认知很难领先,星海图这样的前沿科技创业公司还要做到什么?
许华哲:认知领先半个身位,然后靠数据、商业闭环形成壁垒。
比如我们已经有了商业化的客户,本体从拍板动工到产品量产出货只用了不到半年。我们还在跟合作伙伴一起把真正的具身智能做出来。
赵行:认知的持续领先,以及对于落地的坚定信念。
题图来源:《爱,死亡和机器人》
· FIN ·