首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

清华团队破解具身智能Scaling Law，GPT时刻在即！宁德时代联创终于出手

科技 2024-11-11 13:06 北京

新智元报道

编辑：编辑部 HYZ

【新智元导读】半年两次大融资后，这家具身智能黑马再次获得融资！作为柏睿资本首次投资的具身智能企业，千寻智能不仅拥有出身自伯克利系联创，在技术、硬件、商业化上，也让人极有信心。

最近，我们意外发现，具身智能领域的明星初创公司千寻智能，悄悄完成了工商变更。

根据工商信息显示，本轮融资由柏睿资本独家投资。至此，千寻智能已经在半年多时间里获得了三次大额融资，一跃成为具身智能领域明星公司之一。

值得一提的是，柏睿资本是宁德时代联合创始人，副董事长李平创立的产业投资基金。

全国具身智能领域多家明星，为何首次下场便独独选中了千寻智能？

从下面这些demo中，便可窥见一斑。

仔细看，桌面上撒满了五颜六色形状各异的糖豆。如何将这些不同颜色和大小的物体进行分类，可不是件容易的事。

只见，在极其强大的识别和精准操作能力的加持下，千寻智能的机器人用灵巧的手指轻松地将糖豆捏起，并准确地放入指定的碗里。

（实拍原速）

不仅如此，它还可以一手拿起桌上透明的玻璃杯，一手从满满一筐鸡蛋中抓出一个并准确无误地放进杯中。

（实拍原速）

甚至，它还能接过手中的文件并进行装订，然后再交还给人类。

在这个过程中，AI基于视觉大模型的任务理解与规划，实现了人机交互及协同作业。

（实拍原速）

具身智能行业，到底在卷什么

其实，如今的具身智能领域可谓是百花齐放，各种酷炫的演示demo层出不穷。但对于不懂的外行人来说，只能看个热闹，很难理解背后真正的技术边界是怎么样的。

同一个动作，是提前编程好的，还是机器人自主完成的？机器人只能在特定的某个位置、某个光照做一件事，还是能够真正泛化到各个条件、各个场景？

看似相差不多的demo下，背后的技术能力实则相差甚远。

不过，对于未来的技术走向，业界的认知正在逐渐清晰——最核心的还是大脑的能力。

随着时间的发展，可能再过一两年，竞争就会回到这个本质，因为唯有大脑，才能决定具身智能能在什么场景落地。

目前，大语言模型赛道已经接近后期，投资人开始关注回报的问题，但相比之下，机器人赛道可以说才刚刚开始。尤其涉及到软硬结合，以及整套系统的复杂度，赛道周期显然会更长。

在这样的背景下，柏睿资本的此次下场，显然是经过了深思熟虑。

宁德时代联创首次出手

自创立之初，柏睿资本就专注于人工智能、具身智能领域的发展，且一直非常看好这一技术将带来的一系列变革。

具体到千寻智能，柏睿资本看重的正是其团队在AI、硬件、商业化三个方面的综合优势。

首先，针对高阳在算法和模型方面的持续创新和产出能力，柏睿资本抱有极大的信心；其次，千寻智能的创始团队在硬件领域有着扎实的背景和积累；第三则是多达上百个场景、数万台机器人的商业化落地经验。

作为柏睿资本投资的首家具身智能企业，千寻智能将借助柏睿资本和背后的产投资源，快速切入市场化落地并进行具身智能泛化性作业验证，成为国内首家实现具身智能商业化的公司。

把水壶里的水倒进玻璃杯，并让水位达到指定的刻度（实拍原速）

纵观当下机器人领域的现状，各种技术的理论验证基本都已完成，但工程化却还在起步阶段。

怎样一条途径是最优方案，率先做到在工程上可行？

从Physical Intelligence、Skild AI等优秀的国外先行者身上，我们可以隐约窥见一条逼近真理的技术路径。

端到端就是下一个前沿

最近，成立仅8个月的初创Physical Intelligence（Pi）发布了一款通用机器人基础模型π₀。

这个在8个机器人平台上，完成训练的3B模型，能够执行各种灵巧的任务，包括洗衣服、收纳整理......

与LLM不同的是，π₀跨越了视觉、语言、动作（VLA），并通过训练机器人的具身经验中，获得物理智能。

它基于3B VLM完成的预训练，随后又根据灵巧任务（洗衣服、组装盒子、桌面任务）进行了微调。

VLM的优势在于能够集成互联网规模的语义知识和视觉理解，有助于动作预测

Pi联创之一，也是UC伯克利副教授Sergey Levine看到，如今的机器人是一种狭隘的专家系统。比如，工业机器人通过编程，在装配线上同个地点进行重复的工作。

即便是这样简单的行为，也需要耗费大量的人工编程，更不用提在复杂环境（家庭等）中的应用了。

有了大模型，就很容易让机器人做到这点。然而这一切实现的前提是——数据。

就像人类可以凭借经验快速学习新技能一样，模型也仅需少量数据，就能适应新的任务。

这便是π₀的核心思想。

另一家由CMU大牛Deepak Pathak（博士出身是UC伯克利）创立的Skild AI，也遵循了同样的技术路线。

他们打造出了一款能够泛化的机器人基础模型「Skild Brain」，背后用到的训练数据是竞争对手的1000倍，可以适用到任何机器人本体和任务中。

从以上伯克利系大牛们所做的研究来看，端到端架构已成为具身智能的主要技术路线。

无独有偶，国内的千寻智能也在技术路线上与这两家美国的具身智能顶尖初创，不谋而合。

在读博士、博士后期间，千寻智能团队的首席科学家高阳，还曾与Sergey Levine和Pieter Abbeel教授展开深入合作。

尤其是，他们的模型可以在训练过程中，同时利用监督微调、强化学习、模拟学习等技术，并将Sim2Real数据作为补充。

结果就是，刚成立半年多的千寻智能，就已经能实现业内Top的灵巧手操作了。

（实拍原速）

伯克利系称霸具身智能

毫不夸张地说，UC伯克利已被公认为是最近这波具身智能浪潮的主要发源地。而Sergey、Pieter这些教授，是当之无愧的机器人学习领域最近十年的领头人。

同时，出身伯克利系的高徒们，如今已经在各个相关领域散作满天星，不断推高业界前沿的技术水平。

比如，千寻智能联合创始人高阳在攻读计算机视觉博士学位期间，便是师从Trevor Darrell教授，和Deepak Pathak同组。

最近，高阳带领团队发现了具身智能领域的「圣杯」——Data Scaling Laws，堪称机器人的ChatGPT时刻。

而且，在CoRL 2024上，这项研究荣获X-Embodiment workshop最佳论文奖！

这一方法让机器人实现了真正的零样本泛化，也就意味着无需任何微调，就能泛化到全新场景中，彻底改变了开发通用机器人的方式。

论文地址：https://arxiv.org/abs/2410.18647

就连谷歌DeepMind大牛Ted Xiao也对这项研究赞赏有加，称其对机器人大模型时代具有里程碑意义。

这位具身智能领域大咖，有着怎样的学术背景？

2014年，高阳获得了清华计算机科学本科学位，师从国内ML领域享有盛誉的著名学者朱军教授。

在大二的时候，也正是深度学习（2012年）爆发之际，高阳做的了很多关于传统ML的研究。

凭借出色的成绩，他成为了计算机系的第二位大神。

到了大三，高阳拿到了去斯坦福做交换的暑期学习资格，导师是David L. Dill教授。

本科毕业前，得益于老师的推荐信，以及自身各方面优异表现，高阳最终收获了美国多所顶尖高校的offer。

面对这些同样优秀的学府，他决定亲赴美国实地考察，做出最适合自己的选择。

在走访过程中，UC伯克利给他留下了深刻的印象。作为四大名校之一，这所学校具备了浓厚的学术氛围。

再加上，自身专攻机器学习领域的原因，UC伯克利最适合不过了。

作为一名机器学习领域的学生，他对UC伯克利格外青睐，很大程度上还因为引领ML时代技术的Michael Jordan教授的存在。

原本初到伯克利时，高阳计划跟随Michael Jordan开展研究。然而，再参加了几次他的组会，并与其学生交流后，他发现Michael研究方向与自己的与其有所差异。

因为，Michael Jordan的工作更加偏重数学理论，组会多围绕数学公式推导，这与高阳所期待的实践导向研究路径不尽相同。

在探索其他可能性过程中，他意外接触到了Trevor Darrell教授的研究组。

Trevor专注于计算机视觉领域，其魅力在于直观性——可以清晰看到输入的图片，观察神经网络训练过程，并得到可视化结果。

值得一提的是，当时深度学习的浪潮已经持续了大约2年的时间，业界也普遍认可了这项技术的卓越性。

也是基于这些原因，更加坚定了高阳在这一方向上深耕的原因。

在他的博士生涯初期，跟随Trevor教授做了很多在纯视觉领域的研究。

直到博士二年级下学期开始，高阳的研究兴趣发生了微妙的转变。

这一转变源于，实验室内部一系列关于人类智能起源的深度探讨。

而令他印象深刻的是CV圈里另一位大咖Jitendra Malik观点：他从进化角度提出，人类智能本质与灵巧的双手密不可分。

正是因为拥有了精细的手部动作能力，人类才得以完成更为复杂的任务，反过来推动了大脑的进化，使得智力水平得以适应更复杂的活动需求。

再到猫狗之间对于人类指令理解力的差别，说明了狗的群居特性，使得它们沟通协调力强于猫。

最终，他们在智能本质讨论中，逐渐达成共识：机器视觉的终极发展方向，应该由具身智能体驱动。

自然而然地，高阳开始将研究中心转向了具身智能领域。

他认为，具身智能与视觉、强化学习有着密切的联系，这种联系可以类比人类的认知过程。

即通过视觉感知环境，理解周围状况，继而做出相应的行为。

基于这种认识，高阳开始与Sergey Levine教授展开合作，深入去研究具身智能的形成机制。

得益于前期在计算机视觉领域的积累，在实际研究中，高阳能够很好地将CV技术与RL结合起来，并交出了硕果累累的成绩单。

在机器人研究领域的顶级学术会议CoRL 2024中，团队更是连中了4篇论文。

论文地址：https://arxiv.org/abs/2310.02635

论文地址：https://arxiv.org/abs/2310.08809

论文地址：https://arxiv.org/abs/2401.11439

论文地址：https://arxiv.org/abs/2406.10615

回到北美，如今头部的具身智能创业公司，除了Figure AI之外，创始人都属于伯克利系。

比如，Physical Intelligence的联创Sergey Levine，便是UC伯克利电气工程与计算机科学系的副教授。

Pi的另一位联创Chelsea Finn，也是UC伯克利的博士。

Skild AI的联创Deepak Pathak，同样是在UC伯克利获得的博士学位，师从国际计算机视觉大师Trevor Darrell教授（曾培养了包括贾扬清在内的多位视觉领域知名学者）。

随后，Pathak继续在UC伯克利做博士后研究，导师是机器人学习领域的顶尖学者Pieter Abbeel——扩散模型（Sora、SD背后核心技术）的提出者之一。

爆火AI搜索初创Perplexity AI的创始人Aravind Srinivas，以及前OpenAI联创John Schulman，皆是他的学生。

博士研究期间，Pathak开发了一种向机器人灌输「好奇心」方法。具体做法是，当系统无法预测其行动结果时，系统反而会因未知结果而获得奖励。

这种方法驱使AI去探索更多场景，并收集更多数据。

论文地址：https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf

其实回看2014到2016年这段时间，无论机器狗还是双足机器人，在业内的进展都比较缓慢。

虽然当时的人形机器人已经可以跑酷、跳桩，但其中使用的技术栈其实非常传统，是基于传统的MPC、WPC这类手工控制器去做的。

也就是说，并不是基于机器学习这条路线。

在2017年左右，Pieter Abbeel和三个学生一起创立了Covariant（原名Embodied Intelligence），可以说是体现了具身智能的缩影。

在当年，大语言模型并没有出现，因此即使这个公司早于时代，也依然像今天的非端到端自动驾驶一样，技术栈并没有特别大的进步。

而随后大模型的出现，才终于让具身智能的推理能力、多模态感知融合、自主学习和知识迁移能力等得到了显著提升，翻开了全新的篇章。

如今，具身智能技术已经走向了深度融合和迭代优化的新阶段。拥有技术领先性和应用场景积累的企业，将迎来大展拳脚的机会。

而千寻智能，恰恰有着清晰的端到端技术路线，有顶尖人才、有应用场景。

具身智能这盘大棋，接下来就看千寻智能如何交卷了。

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652537850&idx=1&sn=7b4452905f4fd17760ac76a1baaeb8c5

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你「LLM+外部数据」的正确使用姿势

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉