「开悟」世界模型,商汤绝影在智驾云端战场的制胜武器

汽车   2024-12-27 17:41   上海  

AI大模型正在推动自动驾驶行业进行一场前所未有的变革。2022年,商汤绝影提出了行业首个感知决策一体化的自动驾驶通用模型UniAD,并荣获2023年国际计算机视觉与模式识别会议(CVPR)最佳论文,从2024北京车展开始,商汤绝影等多家公司陆续发布端到端智驾方案,智驾正在迈向端到端时代。

随着越来越多的车企与智驾公司进入端到端智驾的赛道,大家发现,自动驾驶的研发范式正在从规则驱动转变为数据驱动,端到端智驾模型对于高质量数据的需求呈指数级的增长。

商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚表示:「智驾高端局的竞争不止是车端模型的比拼,端到端的决战,战场在云端。」因此,在2024「绝影实力AI DAY」上,商汤绝影全新升级并发布行业标杆级别的世界模型——「开悟」世界模型,以此打造全新的数据基础设施。

以世界模型为基础,

合成数据是智驾未来的油田

世界模型(World Models)是AI系统理解和预测外部世界的一种模型,也就是说,它不仅能够理解世界的现状,还能预测其未来的动态变化。随着生成式AI的发展,尤其是多模态大型语言模型和视频生成模型的快速发展而受到广泛关注,在图灵奖得主杨立昆(Yann LeCun)看来,世界模型是实现通用人工智能(AGI)的关键工具之一。

在自动驾驶领域,世界模型也被视为解决当前大部分车企数据问题的核心技术。虽然特斯拉建立了以“百万辆级量产车+超10万petaFLOPS算力”的AI基础设施为核心的数据回流体系,但其他车企受限于高阶智驾的量产规模、算力资源,难以在短时间复制特斯拉的模式,高质量驾驶数据的获取难度大、效率低、成本高。

单靠车企(尤其是中小型车企)难以独立解决数据量不足、数据开发成本高、数采链路效率低、困难场景构建难等问题。因此,有必要探索一套数据、工具、服务的共享机制和平台,做大数据量、摊薄数据采集开发成本、提升数据流转效率、找到困难场景的构建方式。

结合实车采集的真实数据和模型生成数据的合成数据能够有效加速自动驾驶系统的开发和验证。据咨询公司Gartner 预计,到2030年,合成数据在人工智能模型应用中将完全超越真实数据。

商汤绝影也在探索这条新的道路,通过实车采集和仿真生成「双轮驱动」的数据闭环,构建量产智驾产品体系和世界模型深度融合的「车云一体」智驾新范式。

因此,商汤绝影全新升级并发布了「开悟」世界模型。

基于多模态大模型打造的「开悟」世界模型,能够理解真实世界的物理规则、交通规则,生成的智驾视频数据也更加逼真。在真实的基础上,「开悟」生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11个摄像头同步可控(以下简称“11V”),是行业首个同时完成上述指标的智驾世界模型。

以绝影量产智驾方案和「开悟」世界模型为核心,实车采集的真实数据和云端生成的仿真数据在「车云一体」的新范式下进行闭环流转,使得端到端智驾系统的训练更加全面、高效,大幅缩短了研发周期,降低了成本,让用户能够更快享受到智能驾驶带来的便捷与安全。

真实、准确、可控、泛化万千,「开悟」是当之无愧的行业标杆

世界模型最基础也是最核心的能力是生成高质量视频数据,高质量数据的关键在于「真实」。基于多模态大模型打造的「开悟」世界模型,通过神经网络隐式习得不同光照渲染;通过增加驾驶域海量数据隐式习得交通规则、车辆运动规律,让生成的视频数据更加逼真。

以「真实」为基础的「开悟」世界模型能够最大程度消除生成数据和真实数据的差异。在很多「开悟」的生成视频案例中,晴朗天气下,汽车、路灯都是有影子的,右转车辆会主动让行优先级更高的直行车辆。

不仅如此,「开悟」生成的场景视频在时长、分辨率\帧率和多摄像头同步可控等领域的指标和能力都是国际领先水平。

保持视频的时空一致性是世界模型完成这几个指标的难点之一。目前行业基本都是生成1V或6V视角的视频,而「开悟」选择直接挑战目前的「最高难度」,生成11V(包括鱼眼和针孔相机)多视角时空一致的视频。

现在的行业共识是,同时生成的视角画面越多,要保持时空一致性就更难,还要克服鱼眼视角的畸变,商汤绝影的「开悟」世界模型能够做到11V,这样带来的价值是行泊全集的场景需求都能够灵活满足,兼容适配非常强,其他模型没做到11V的,以1V或者6V想要直接向上兼容更多V的场景,就非常困难。

150秒这个时长对于世界模型的生成能力也是非常大的挑战。目前,行业其他世界模型的生成时长都在20秒以内,全球知名的自动驾驶公司Wayve旗下的GAIA-1也就达到60秒(单V条件下)。这是因为随着时间和生成视角增加,要保证生成数据的时空一致性的难度是指数级增加,显存限制也是一大阻力。

「开悟」突破了多V情况下长时视频生成的技术瓶颈和显存限制,能够生成更加复杂场景。例如,现在1-2分钟的红灯等待并不罕见,行动不便的老年人过马路也需要比较长的时间,如果世界模型生成数据的市场还停留在1分钟以内,就无法复现或者生成相关的corner case和长尾场景。商汤绝影填补了这一空白。

而1080P的分辨率保证了生成视频细粒度的一致性,能够兼容不同算法、感知硬件的需求;10FPS则是端到端闭环仿真的必要条件。

根据公开数据,「开悟」生成效果的各项指标均达到业内最佳水平,优于包括GAIA-1、DriveDreamer在内的国内外主流自动驾驶世界模型。

此外,从2023年开始,在全球知名的自动驾驶仿真模拟任务竞赛Waymo Sim Agents的比拼中,「开悟」连续两年获得第一名,是当之无愧的行业标杆。

更重要的是,通过多模态大模型,「开悟」世界模型可以实现元素级别的精细控制,以支持多样化的自动驾驶场景及Corner case的可控生成。目前商汤绝影基于1024类场景,能泛化出更多的平行世界,打造了千万级的生成场景库,预计2025年对行业开放。

未来,依托「开悟」世界模型,车企将具备将不同传感器、车型数据迁移与归一的能力,满足不同车型、项目的数据训练和验证需求;还可以进行定制的泛化生成,和真实数据进行联合训练,真正解决端到端模型场景覆盖不广泛的问题。同时「开悟」世界模型可以用于构建虚拟世界的仿真测试库,构建自动驾驶车辆的闭环仿真和虚拟测试,显著降低实车测试的成本。

以绝影量产智驾方案和「开悟」世界模型为核心,实车采集的真实数据和云端生成的仿真数据在「车云一体」的新范式下进行闭环流转,使得端到端智驾系统的训练更加全面、高效,大幅缩短了研发周期,降低了成本,让用户能够更快享受到智能驾驶带来的便捷与安全。

绝影智能SenseAuto
商汤绝影是加速智能汽车驶入AGI时代的战略合作伙伴,致力于为每一个人提供灵活自适应、深度个性化、安全可信赖、有人文关怀的未来出行方式。
 最新文章