写在前面的话!
UniAD: 端到端网络可以这样设计!
UniAD 网络对整个自动驾驶端到端范式在学术届和业界有着很大的推动
作用!我们先站在UniAD的节点上回顾一下以前的网络设计。
图片来源: OpenDriveLab: 《端到端自动驾驶:前沿与挑战》
UniAD 网络结构
当Tesla 宣称他采用的是端到端的范式时,其实很多团队是不知道他们如何设计的,或者说大家都持有怀疑的状态。当UniAD 出现时,大家慢慢的觉得端到端有可能可以这样设计,当然还得益于UniAD 开源社区做的不错。
说了这么多大家都知道的,来点一些贴近量产的东西吧。在我来看,端到端的落地难度还说很大,除了技术本身的难度,有一个最大的难度就是组织架构的问题。目前大多数的组织架构都是,感知,定位建图,规控三大组织架构。而当端到端范式来的时候,这样的组织架构好像不太适合了,那么就会有一个阵痛期,毕竟有人的地方就有江湖,而有江湖的地方就有利益冲突!再说到两阶段和一阶段端到端之争,在这里我更看好先推动两阶段端到端的落地。优点有几点:1: 整个技术上和现在的技术很多都是可以复用的 2: 两阶段端到端的技术更像是规控模型的NN(网络)化, 这样也可以后续的一阶段做好铺垫。3: 整个变革没有这么快,也许更加可控一些!不然大家都很慌(端到端来了,我们是不是没有活干了!)。
那一定有人会问了两段式端到端到底是什么玩的。在这里我就抛砖引玉一下吧!首先QcNet 这种网络结构就比较适合。
当然仅仅公开的QcNet的网络结构也是不够的,在实际的量产应用中我们可能需要把Occupancy和红绿灯模块的输入也加入到QcNet的网络里面。这就是一个开放的探索过程了。关于QcNet 的详细解读可以见: 端到端自动驾驶中重要的QCNet网络解读!大家都一直在诟病模仿学习给带来的上限问题,在这里给大家推荐一篇感觉还不错的文章-Hydra-MDP。
当然在HyDra-MDP 这个框架里面我们能够改动的东西还说有很多的!
VLM大模型: 让端到端范式更上一层楼!
在这里我们不得不提到两家公司,一家是理想,一家Wayve(注意不是Waymo 哈). 我们先来大致看一下理想的技术路线。整体来看VLM大模型系统2 和端到端系统1 是一个相互辅助的东西。
理想汽车自动驾驶方案 | DriveVLM:自动驾驶与大型视觉语言模型的融合方法
那我们不得有一个疑问了?下一步理想会不会把系统1给拿掉,只有系统2, 或者说有没有谁直接用VLM一个模型来打天下的。那必须是有的, 让我们来看一下。
更多详细的内容见:https://wayve.ai/thinking/lingo-2-driving-with-language/。如果说Wayve 这种VLAM范式的缺点,那就是还没有量产上车。
哈哈,怎么样,看着是不是很酷,如果让我选择,我可能还不太会选择这样的范式,因为这种可能只有土豪玩家,或者说没有太多量产交付包袱的团队可能才玩的起。近期Waymo 也提出了他们的多模态端到端大模型,还是会把中间的结果给输出来!当然这种网络结构太大了,目前来看也不太容易落地!(不过VLM模型本身,我个人觉得随着端侧压缩技术的发展,在板端大规模应用是没有问题的!)
还有一个类似的文章!OminDrive, 用感知的结果来辅助提升大模型对环境感知的理解能力!这样的话,至少以前BEV 感知的积累是可以VLM大模型上面发挥出不错的作用的。目前来看应该是有机会把他给部署到车端的!
写在后面的话:
端到端自动驾驶范式有可能把自动驾驶技术的门槛给拉高了,或者说推动了自动驾驶淘汰赛中的加剧,我们也看到有不少的公司因为这个范式,而进行了组织架构的调整!希望大家在这场淘汰赛中,都能够积极拥抱到新技术!
安利一下我们的自动驾驶之星知识星球,上文讲到内容,我们都在自动驾驶之星知识星球里面有更详细的解读,欢迎大家关注我们!
自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧