对生成式AI的想象力,正在从电子屏幕中的数字世界迈向物理世界。而贾奎所做的,便是教生成式AI在仿真模拟平台中学会物理,能搞懂物理世界的运行规律和千万种可能性,从而让具身智能硬件直接与物理世界进行智能交互。他是一家通用具身智能技术研发公司“跨维智能”的创始人,同时也是香港中文大学(深圳)的教授。翻看他的过往履历,可以说是相当丰富:曾先后在中科院深圳先进技术研究院、香港中文大学、伊利诺伊大学香槟分校先进数字科学研究中心、澳门大学及华南理工大学任教,从事人工智能、生成式三维建模与学习、三维感知大模型等领域的研究。贾奎带领着团队成为国内最早开始研究AI三维应用和物理智能的一批人,用全仿真数据就能完成模型训练和机器人抓取99.9%以上成功率,这在业内是首家。目前,跨维智能的具身智能解决方案已经成功落地多个行业场景,在美的、中国中车、五菱等企业生产场景中进行应用。公司今年营收可达数千万元人民币,下一年有望实现过亿。不久前,机器人前瞻在跨维智能位于深圳南山软件产业基地的办公室见到了贾奎。他看起来做事总是雷厉风行、充满干劲,搞科研、教学和创业排满了日程。凭借着热爱和多年积累的技术优势,贾奎带领着跨维智能在具身智能赛道崭露头角,为机器人的产业化应用提供了全新思路。▲跨维智能创始人、香港中文大学(深圳)终身教授 贾奎
01.
2010年,AI、计算机视觉和自然语言处理从非深度学习向深度学习转变,二维图像层面识别理解问题也逐渐得到了解决。二维图像层面的识别理解,就像一个人认知层面的智能,比如看到一幅图像能知道图像里面是什么内容。而当2015年之后,AI的应用渗透到AR、VR、元宇宙和机器人等方面,AI本身和深度学习的范式开始发生改变。刚好趁着这个时机,2016年,贾奎回国来到华南理工大学任教,选择用新型 AI 作为攻克三维感知的研究方向。 2018 年起,贾奎在华南理工大学 “几何感知与智能” 实验室中,尝试研发能够处理信号形式与物理世界关联的深度学习算法,并且以自研的Sim2Real技术为核心,通过物理引擎去合成3D 仿真数据。当时,国内还没有企业涉及这一领域,实验室成为国内最早研究AI与三维空间应用问题的团队,这也是如今的跨维智能的雏形。2020年,团队已经完成了一些从底层到应用的技术积累,贾奎也看到了生成式AI在三维感知层面的商业化潜在机会,开始思考技术产业化的价值和落地方向。要落地在哪里呢?贾奎介绍,一般有三个方向:一是AR、VR、元宇宙,二是无人驾驶,三是机器人。最终,贾奎选择了在智能制造的场景里,将搞懂了物理世界的AI应用在机器人身上进行产业落地。“智能制造是刚需,因为它存在着大量痛点。在这之前,工业领域里基本都是找到一个行业痛点,就采用项目研发的方式来解决问题,但使用AI范式解决通用性问题是更重要的,”贾奎说,“我们希望机器人可以有‘大脑’、‘眼睛’,不管是面对汽车制造、3C制造还是化工行业、家电行业等,都能在产线上柔性、灵活地进行生产。”相较于传统的单点项目研发式,搞懂了物理世界的AI能够让机器人的泛化能力得到极大提升,不拘于特定条件和场景,这能够带来研发成本、产品硬件成本、落地部署成本等大幅度降低。从高校老师到创业者,贾奎坦言,因为长期在“象牙塔”中,可能会存在不了解行业、不知道社会真正需要什么的情况。“都是一段拿着锤子找钉子的过程。”目前,跨维智能已经建立起一个能将生成AI从文本、图像视频扩展到三维物理世界的实力强劲的团队,研发人员占比达70%以上。吴迪是资深传感器专家,负责相机等硬件研发,曾任腾讯高级算法工程师,研发机器视觉产品;作为华为高级算法工程师负责华为首款双摄手机三维重建算法,并曾在霍尼韦尔等企业担任高级工程师。贾奎还邀请了原三星首席工程师、曾主导了多款机械臂、移动机器人和复合机器人的研发及量产的金毅博士加入团队担任CTO,负责加强机器人本体控制的协调性和灵活性。成立至今,跨维智能已经完成了四轮融资,已获得来自松禾资本、真格基金、联创资本、联想创投等知名机构投资。现在,下一轮融资正在快速推动中。02.
数据匮乏,是横亘在生成式AI从二维跨到三维的一道高墙。“以机器人为例,机器人需要结合现实物理环境相关的数据、采用多种信号形式进行处理,而二维的互联网上不存在三维物理世界的机器人数据,无法通过互联网方式对这些数据进行采集和传播。”贾奎说。这也是跨维智能在将生成式AI和物理世界相结合的过程中,与传统AI路径最大的不同之处所在——采用基于物理规律的生成式AI合成的数据去训练大模型,再将大模型连接上机械臂、机器人等不同的具身智能硬件,让其学会智能化操作。“AI的智能来自于所提供的足够多的数据,而对具身智能来说,用真实数据采集的方式是无法实现落地级应用的,”贾奎说,“唯一做到的是无人驾驶,因为道路上本来就有大量的车辆在运行。但是对机器人来说,目前远没有达到这个数量级,所以需要一个更低成本、高效、快速的方法。”眼下,业内多数基于3D视觉的机械臂等产品,控制系统的算法训练采用的就是真实数据。但是不同场景采集的数据难以实现通用,繁琐的数据采集、清洗、标注、增强等处理过程,一环又一环地导致数据成本的增加。贾奎介绍,具身智能机器人需要三类数据:一是机器人身上不同类型的传感器数据,如视觉传感器、力矩传感器和触觉传感器等;二是机器人自身状态数据,如在执行动作的过程中关节、角速度等自身状态数据;三是驱动机器人进行各种动作时,动作本身的数据。前两类数据是模型的输入,最后一类是模型的输出。这三类数据,会通过sim2real和物理引擎进行放大,例如要让机器人学习咖啡拉花这个动作,就可以将轨迹动作嵌入虚拟物理世界,然后变换不同的环境、咖啡杯、咖啡机等各种物理条件,成千上万倍地放大数据,从而高效地让机器人学会咖啡拉花。最关键的还是,在训练效果上,合成数据能够更优于真实数据。由于本身就是基于物理规律合成,合成数据天生自带绝对精确的标注,这就意味着,AI学习起来效率非常高。另外,合成数据的“全面性”是真实数据难以比拟的。不需要使用任何一张真实照片,跨维智能就可以完成机械臂等复杂场景作业的3D视觉模型训练,在多个商业场景中毫米、亚毫米的操作精度要求下,达到99.9%以上的任务成功率。03.
跨维智能自研的DexVerse™ 具身智能引擎,能解决3D数字资产生产、数字资产生成-GenAI、合成数据生成等问题。在一些工业制造或商业服务场景中,无需研发人员的参与,只需要输入一个操作对象,引擎就能够利用大语言模型自动拆解所涉及到的机器人技能及子技能,进而自动化地生成仿真所需对象、场景等数字资产让模型进行训练。▲引擎正在对“用积木搭建一个小鹿”这一任务进行拆解
▲引擎自动化生成仿真对象后,进行模型训练
▲模型训练完毕后,导入一个双臂机器人中进行实操
再加上空间与具身智能传感器——DexSense系列,能够在多种不同角度对图像进行捕捉,在不同的光线条件下都能稳定地成像,能够解决视觉行业一直以来的半透明物品的成像难点,并且最快可以实现每秒30帧频率,接近人眼感知世界的方式。跨维智能把这样的“大脑”和“眼睛”相结合,应用于机器人身上,已经落地了汽车零配件、金属加工、工业物流、家电、光伏等三十多个行业,在美的、中国中车、五菱等多家企业生产场景中进行应用,能够赋能泛制造领域的无序分拣、柔性装配等环节。例如,在汽车扁平件的上料环节,冲压件视觉特征点少且表面平整反光,跨维智能3D视觉套件,采用模型预训练方式现场进行模板匹配,可以应对产品表面反光、环境光等各种干扰,快速成像配合PickWiz 工业软件进行模板匹配,五分钟完成调参,大幅减少换产成本。▲机器人正在进行汽车扁平件上下料工作
在商业服务领域中,其也实现了在无人充电、卡车换电、按摩机器人等众多场景的落地。▲跨维智能在无人充电场景的应用
除此之外,跨维智能也正在通过赋能人形机器人等其他硬件本体,在一些偏向于家庭环境的场景中进行探索。例如,训练一个人形机器人如何学会自主煮泡面:
04.
贾奎相信,具身智能是一个比无人驾驶更大的赛道,同时也是更长周期、具有相当强生命力的赛道。“具身智能现在之所以能够被‘炒作’,是因为大家有诉求,并且觉得从认知层面的AGI到物理层面的AGI有希望落地。”具身智能虽然也会存在着波峰波谷,但是相较于无人驾驶明确的落地场景——路面,具身智能机器人的落地场景则广泛得多,从工厂、办公楼、超市到家庭等,有着无限的机会。这也对创业企业在技术和商业落地上的平衡方面提出了更高的要求。当下,跨维智能正在把具身智能“大脑”快速拓展到工业外的商业场景,并且将目光投向人形机器人身上。贾奎透露,公司预计很快会推出自己的人形机器人产品,人形机器人由金毅博士带队研发。“与工业机器人不同,人形机器人是一个全新的行业,在现在这个时间点,许多公司还不是很成熟,我们想要自己打造一个软硬结合、更好的人形机器人平台。”他说。人形机器人会为整个行业带来范式革命,贾奎也有信心,已经跑通了一些具身智能应用场景的跨维智能,会在这条路上走得更快、更好。
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)