10月18日,以“科技 智驭未来”为主题的2024奇瑞全球创新大会在芜湖开幕,千余位海内外院士、专家、全球合作伙伴及用户齐聚,共同见证奇瑞在新能源、智能驾驶领域的最新技术成果。商汤绝影受邀参与大会,并且展示了绝影领先的AI智能化产品。
商汤科技联合创始人、首席科学家,商汤绝影CEO王晓刚受邀出席大会及智能化AI论坛,并发表题为《开启智能驾驶的ChatGPT时刻,引领智能汽车驶向未来》的主题分享。
以下为王晓刚演讲全文:
很荣幸参加本次AI高峰论坛,AI给我们带来了非常大的想象空间,期待着有一天我们的智能汽车迎来它自己的ChatGPT 时刻。同时,这个新时代也给我们AI 企业,以及我们和主机厂的合作模式带来了新的挑战和机遇,作为AI企业,要能够充分发挥基础设施、大数据的优势,并实现二者的有效连接,与主机厂一起建立更加深度的、全方面的战略合作,我们也希望和大卓一起开启新的合作范式。
首先,我们看到通用人工智能大模型给各行各业带来了三个比较深刻的变化。一是人机交互体验方式的改变,比如今年5月份OpenAI发布了GPT-4o原生、流式的多模态大模型,语音、视频同时输入到大模型,便可直接输出响应文字的结果,其多模态信息的融合则极大的提升了人机交互的体验。
第二是生产效率大幅提升,最典型的代表就是端到端自动驾驶去取代传统的基于规则的自动驾驶系统,上千的算法工程师编写规则的工作可被大模型数据驱动取代。
第三个方面就是 AI 智能体实现人和世界之间的连接。在移动互联网时代,重点在于通讯,但今天随着智能体的出现,我们人的指令能够被自动识别,通过大模型调用各种软硬件完成任务,实现物理和数字世界的连接。
接下来我也是从这几方面带来我们的分享。
端到端自动驾驶跟以往基于规则的自动驾驶系统相比,产生了一个深刻的变化。以前我们靠手写规则去解决一个又一个的core case,感知网络也是通过人来定义系统之间的接口界面。而今天我们端到端自动驾驶则是通过海量的数据驱动,大批量解决各种各样的case,所以大大节省了资源的投入,以及极大地提升了对复杂场景的理解能力和泛化的能力。一方面,我们可以通过视觉信号直接导出驾驶决策,就像人一样,通过神经反射去决定我们的驾驶行为。另一方面,面对复杂场景,我们的多模态大模型,通过慢思考思维链与端到端自动驾驶相结合,从而带来通用性更强、更实用、能够适用更复杂的场景的自动驾驶。
但这对数据、对模型、对算力都有非常高的要求。比如说行业里面的标杆特斯拉,就是用 10 万块 GPU 组成自己的超算集群,用超强的基础设施的能力去训练几千亿参数的大模型,帮助提升自动驾驶的FSD能力。同时,特斯拉有数百万台量产车,不断从终端获取大量的数据,这三个要素构成了它在端到端自动驾驶领域的极强壁垒。
目前来看,其他的主机厂从算力规模上可能要比特斯拉少两个数量级,还要建立数据闭环体系。但大模型的投入尤其是在基础设施方面的投入,是一个持续增加的过程,单靠单一的主机厂去完成这样的工作实际上是比较困难的,而且市场给到我们的时间窗口非常短,这也是促使我们需要采用新的合作的模式。
这就是我们商汤绝影所提出的,在大模型时代,作为一个 AI 企业,需要和像奇瑞这样的主机厂有共生、共创、共享、共荣的新合作模式,我们的目标也是把商汤的基础设施、大数据给到主机厂,一起迭代产品和用户的体验。
也就是说,今天我们的合作已经不再是传统的黑盒式标准化的产品交付,而是要求我们输出研发平台、数据管线和技术的基础设施,双方有一个更加透明、更加信任的关系。这个机制包括一套管线和平台的建立,助力形成自动驾驶一个又一个的核心竞争壁垒。
商汤绝影有端到端自动驾驶、智能座舱以及AI云,我们希望能够成为通用人工智能时代车厂的战略合作伙伴,激发 AI 的创造力,让汽车向超级智能体进化。
给大家做一个回顾,我们从2019年开始在上海临港建立 AI 智算中心,那时候我们才有700 P的算力,短短几年过去,到今年年底,我们整个可运营的算力会达到25000 P,实现了万卡算力集群。这不仅是因为我们对算力的需求是不断增长的,更是商汤在基础设施的投入不断增加,我们的 AI智算中心就投入了50亿元人民币,在大模型和基础设施的投入上超过了100亿,这给我们的市场发展提供了比较好的基础。
在模型层面,我们从2019年开始建设320亿参数的视觉大模型,也是当时最强的视觉大模型,同期谷歌的视觉大模型是 200亿参数。今年4月,我们发布的日日新大模型的性能超过了GPT。2022 年,我们发布了端到端自动驾驶的方案,今年7 月份在世界人工智能大会上,我们推出流式多模态“日日新5o”,用在智能车舱场景改变人机交互体验。
在端到端自动驾驶领域,我们可以追溯到 2017 年,当时我们跟本田合作自动驾驶,我们的目标是就只依赖于摄像头,没有高清地图,没有激光雷达,通过视频直接输出自动驾驶车的轨迹,这是当时的一个想法。但是在那个时间点,无论是网络结构,还是云端的算力和终端的芯片,都没有办法支撑我们实现这样的目标。
到了2022年,经过五年的研发,我们发布了UniAD,目前已经实现了汽车的部署。未来到明年年底以及26年,我们希望能够达到可交付量产的状态。
从规则式、两段式到一段式的端到端。目前,两段式的端到端本质上还是有两个小模型的串联,到了一段式的端到端,通过视频就可直接预测轨迹,能够最大限度的发挥海量的百万台级车的数据回流带来的价值。到那个时间点我们才能够真正达到自动驾驶的ChatGPT时刻。
我们看到今天各种支持自动驾驶的算力芯片在不断的涌现,未来车端的大模型和云端的大模型会有很好的协同,而且这个模型一旦是跑在车端的话,它可以是Always on,可以对车内外的场景通过大模型的总结去形成它的记忆,这是真正理解人类的助手和机器人。
另外,这些大模型的芯片也就形成了舱驾融合AI的基础,一个芯片就可支持各种各样的应用。今天我们很多大模型还运行在云端,有 2 到 3 秒的延迟。如果能够做到在终端的话,在这种芯片里面能够做到60 毫秒的首包延迟,也就是在高速行驶的车里面,大模型根据车内外场景的交互,能够带来一个非常好的体验。
在这个基础上,我们推出了AI智能体,开发了基于AI智能体的操作系统,带来一系列新的应用场景,识人、识物、识别车外的场景等等。比如在行驶过程中,根据车外的地标推荐信息,自动生成城市3D视频等,然后实现更多的人机交互。
另外,我们还有随心操控。输出一个任务,比如说今天我想去餐厅喝啤酒看欧洲杯,它可以自动的去小红书里面去寻找各种评价,再到大众点评给你自动订餐等。现在它能支持国内外几百种APP的信息搜索及页面分析,模仿各种人的点击的操作功能。未来,我们可以不再用手交互了,通过意图就能够去实现我们跟世界的连接。
所以这要求我们的大数据,包括我们量产的真实数据、仿真数据,以及基础底座的支撑,最终助力产品的迭代。我们也推出了世界模型,可以做到 11 个摄像头生成超过一分钟时长的模拟仿真视频,用来训练端到端自动驾驶。
最后,我们期待跟奇瑞有更深度、更开放的合作,共建研发体系,利用我们的基础的设施完成数据闭环、模型的迭代和创新,形成一个可持续、可发展的这样一个合作模式。
谢谢大家。