空间智能,视觉智能的下一个前沿

科技   2025-01-09 10:16   广东  
加入高工移动机器人行业群,加微信:13692257554,出示名片,仅限移动机器人及智能制造产业链相关企业

“市面上现有的AI大模型虽然头脑逐渐发达,却无法与物理世界产生交互。”肇观电子创始人冯歆鹏告诉高工移动机器人,要真正实现交互,还有大量的问题没有被解决,当前AI只能解决1%不到的问题,还有99%的问题亟待空间智能解决。


空间智能:让机器理解世界


“人类智能可以简要归纳为两大智能,‘语言智能’和‘空间智能’。虽然语言智能备受关注,但空间智能将对 AI 产生巨大影响。AI教母李飞飞曾在演讲中提到:世界是3D 的,空间智能是视觉智能的发展方向。

她认为,人工智能正处于一个激动人心的阶段,而空间智能技术使机器能够与人,以及真实或想象中的三维世界进行互动。

英伟达高级计算机科学家 Jim Fan 也称,空间智能,是计算机视觉和实体智能体的下一个前沿。

2024年4月份,李飞飞被曝创业——投身纯视觉的“空间智能”。

直到2024年12月,其初创公司 World Labs 终于官宣了空间智能模型:仅用一张简单的图片就能生成一个3D世界

值得注意的是,里面所有场景都能在浏览器中实时渲染,还能实现可控的相机效果、可调节的模拟景深。


这让很多人看到了空间智能的希望——能显著提升游戏、教育等行业的效率和体验。然而,空间智能的未来远不止此。

空间智能到底是什么?

按照 World Labs 联合创始人贾斯汀的说法,空间智能是指机器在三维空间和时间中感知、推理和行动的能力。也就是让机器理解物体和事件在三维空间和时间中的位置,以及世界中的交互如何影响这些三维位置,从而完成感知、推理、生成、交互等任务,真正将机器从大型机或数据中心中解放出来,让它进入现实世界,并理解这个丰富多彩的三维、四维世界。

简单来说,就是让机器能像人类一样,能够理解世界,拥有复杂的视觉感知推理能力。

这很难,仅靠纯视觉+AI 真的能完成吗?

肇观电子:成为端侧英伟达


肇观电子创始人冯歆鹏给出了答案:要让智能设备看得懂世界,首先得看得见世界和看得清楚世界。

对于智能设备来说,世界反馈的信息是爆炸式的,要理解一张图片或者一段视频,背后的算力需求极其庞大,因此芯片异常重要。

作为前AMD芯片研发总监,冯歆鹏主导和参与设计了50余款数千万量级的顶尖CPU和GPU芯片。他清楚传统的CPU、GPU芯片面对海量的像素信息无法高效满足实时处理需求,因此,选择了研发 VPU 芯片,即视觉处理器。

它区别于传统芯片,可以实时处理端侧数据、聚焦光子到比特的问题,从大量信息中提取有价值的少量信息,专门解决像素爆炸的痛点。

让智能设备通过“光电转换的Sensor+VPU” 的硅基系统看世界,就像人通过“视网膜+大脑的视神经皮层” 的碳基系统看世界一样,智能设备也能理解物理世界中的关键信息。

“AI 其实是模拟人的代码。人的大脑分为两部分思维方式,一部分是想象,即从少量信息生成多量信息这个过程,在AI里对应GPU;另一部分是从大量信息中抽取少量信息,这部分对应VPU。也就是说,VPU+GPU共同构成AI。”

冯歆鹏接着说道,目前做GPU的企业像英伟达已经跑出了近4万亿美金的市值,而视觉作为智能的基础,重要性更高,可以说,解决视觉问题就是解决一半的人工智能问题。

将来VPU市场一定会诞生万亿美元的公司,这是一条值得耕耘百年甚至更久的赛道。”冯歆鹏表示,肇观电子的目标,是成为端侧的英伟达”。

五大技术助力空间智能实现


肇观电子成立于2016年,专注于人工智能计算机视觉处理芯片设计和终端应用,是空间智能的核心供应商。

“市面上现有的AI大模型虽然头脑逐渐发达,却无法与物理世界产生交互。”冯歆鹏告诉高工移动机器人,要真正实现交互,还有大量的问题没有被解决,当前 AI 只能解决1%不到的问题,还有99%的问题亟待空间智能解决。

在不断助力空间智能实现的路上,肇观电子已有所成就。

针对像素处理的效率问题、算力带来的能源问题、低延时的必要性以及VPU和GPU的互补性等,肇观电子坚持给每一代产品应用五大底层技术——成像、3D、AI、VSLAM加速以及SoC,帮助智能设备感知真实世界。

  • 成像


芯片自带ISP图像处理,可以解决强光、弱光和逆光等各种特殊光照条件下的成像问题,HDR与极暗光照成像效果业界领先;并且精调80多种sensor,适配性强。

  • 3D


3D几何计算引擎设计领先,利用空间和时间相关性信息计算输出高精度深度图,反过来推算出自身在空间环境中的位置,和其他物体进行互动。

  • AI


支持包括Transformer在内的各类神经网络模型,支持INT8并同时支持 FP16 ,硬件引擎利用率业界领先。

  • VSLAM


VSLAM-lib可实现视觉实时三维重建加速,和定位及构图硬件加速,使得设备能够在三维空间中精准定位和空间建模

  • SoC


采用SoC单芯片方案,高度集成上述多种能力,单颗芯片集成了30个小芯片,具备性能高、功耗低、成本低、系统复杂度低的特点。并且接口丰富,软件完全自主可控,支持客户灵活开发。

基于这五大底层技术,肇观电子目前已成功发布具备先进视觉处理能力的V系列、D系列、N系列芯片及模组,广泛应用于辅助驾驶、工业和机器人等领域。

在泛机器人领域,肇观电子的产品广泛应用于工业机器人、服务机器人、割草机器人、无人机以及人形机器人,是多家移动机器人头部企业的合作商。

其代表产品费曼系列相机,基于自主研发的NE-D163A 主控SoC人工智能视觉芯片,籍由NE-D163A 强大的ISP、DSP、CNN 和 Depth 处理能力,能够提供主动双目立体视觉感知能力,在室内外各种场景,均能生成高帧率和高精度的深度图,同时支持端侧实时智能AI算法的部署。

下图为费曼相机的真实成像,冯歆鹏介绍道,跟Intel RealSense 相比,费曼相机生成的深度图噪点更少,而且拥有AI加持。

相同条件下费曼相机与 Intel RealSense 生成图像对比

目前,费曼系列相机已经被广泛使用在AGV/AMR、机械臂、各类移动机器人、无人机、工业检测等生产的各个场景,累计出货5万套以上并快速增长。

最后


虽然目前离李飞飞所言的空间智能还有一定距离,但其基本技术——纯视觉的落地应用已有广泛布局

像特斯拉就是纯视觉坚定的支持者;近年来大兴的人形机器人因着数据收集及学习的需要,应用的技术也大多是纯视觉;多家移动机器人及汽车厂商也应用了纯视觉技术。

高工机器人产业研究所(GGII)数据显示,2023年中国机器视觉市场规模185.12亿元(该数据未包含自动化集成设备规模),同比增长8.49%。

相信未来技术成熟之时,空间智能定能如冯歆鹏预测那般,成长为万亿美元市场。

-END-



激光雷达龙头强势加码机器人,禾赛的新赛局开启!

重磅!鸿海联手英伟达,进军人形机器人

人形机器人1年吸金超155亿!

收购百亿市值机器人企业,三星重回人形赛局

高工移动机器人
「高工移动机器人」关注移动机器人在工厂、仓储、物流、医疗、安防等各类场景的应用,深度挖掘该领域的行业前沿、人物故事、市场走向,提供技术、产品、市场、资本对接分享等服务。我们期待与您一同探索行业变革,打开一个多维的移动机器人世界。
 最新文章