作者 | 易思琳
编辑 | 李雨晨
“真正的智驾大模型应该像条野狗,即它不能囿于家养的环境和数据,而是在真正意义上的开放域海量数据之上产生的。”
ChatGPT的爆发,让大家看到了大模型的无限可能性。这个热浪席卷到了各行各业,智能驾驶行业也不例外。
大模型就像是雷神之锤,如果没有适合它的钉子,就难以发挥被期许的价值。而大模型能否和智能驾驶进行联动,如果可以,它又能为智能驾驶给予多大的想象空间,这些依然是目前需要讨论的问题。
这也有了清华大学邓志东教授的这番有意思的比喻。
近期,由辰韬资本主办、中信证券协办的“未来以来 创见未见”第二届智能驾驶商业化落地与产业发展趋势主题研讨会在北京举行。
在“AI大模型如何赋能智能驾驶”主题论坛中,清华大学人工智能研究院视觉智能研究中心主任邓志东教授、北京极佳视界科技有限公司CEO黄冠博士、北京恺望数据科技有限公司CEO于旭、苏州智加科技有限公司首席科学家崔迪潇博士参与了讨论。
主持人:当下基本上所有的论坛都言必提大模型。大模型跟智能驾驶产业是否能结合、如何结合,是本场活动需重要讨论的话题。首先有请各位嘉宾先讲讲自己对AI大模型的理解。
我更多会站在应用的角度去看大模型,比如它是否能做一些普通模型做不了的事情,以及它是否能做得更好、更快、更便宜。如果要将大模型赋能到自动驾驶的研发中,核心要看的是在整个技术研发迭代过程中,大模型是否能让自动驾驶研发效率提高,研发成本降低,还能让性能持续稳步地提升。
综上,我们理解的自动驾驶大模型是,能够解决通用性和泛化性,把视觉、语言和多模态引进来,通过物理世界的预测解决自监督的物理世界压缩的问题。
邓志东:什么是智驾大模型?首先要有人类的语言智能与人类思维贯穿;其次能综合利用视觉与多模态的语义,同时还要有常识,还必须有驾驶的专业知识。
这其中比较关键的是视觉语义,尤其是对驾驶场景与目标、语义地图、决策规划进行时空关系的世界建模。常识的利用部分,可以直接使用文本大型语言模型,比如现成的ChatGPT,准确说是利用GPT-4的API,用这个API调用,可以把一般性的交通知识、交通法规,包括驾驶行为相关的一系列常识,都放进去。
但是光有常识还是不够的,因为它可能没有那么精细、专业,本身在预训练时也没有喂养更多的场景数据。我们还需要利用驾驶知识、驾驶技巧、驾驶经验这类专业知识,这就需要发展智驾GPT之类的定制化垂域GPT。
这些我们现在正在探索着基于视觉和文本在做,但是因为文本是符号系统,所以我们需要把符号系统和真实物理世界的时空连续系统进行语义对接。对接起来之后视觉的所有语义都可以用ChatGPT的文本语言智能进行贯穿。
对接很重要,因为我们现在要做的就是视觉语义与文本语义的对接或对齐。对接可以通过自监督的方法,在潜空间里进行,现在看来是能够成功的。
对接之后就联系起来了,视觉的语义及其关系都用文本语言智能贯穿,就可以引入常识和专业知识,真正实现知识驱动。视觉语义与文本语义的对接或叫grounding,现在可以利用视觉-文本预训练模型实现。总之,跨模态或者多模态的通用人工智能非常重要。
弱人工智能时代过去了,相信以后会发生很多变化。比如不需要再去为单一任务做大量标签,因为弄完之后还解决不了问题,做到95%的准确率都难,增加一个训练集之外的类别或换一个任务或场景,马上就会出现问题。
利用完全监督学习的弱人工智能方法是不可取的,很难产业落地。以后也会出现专业分工或供应链,比如可以直接提供各种预训练模型,包括图像、视频、点云的预训练骨干模型,也有多模态或语言的,甚至将各种预训练模型集成到专业硬件里面做到车载,用户仅需用提示词微调一下或直接作为功能模块就可使用,达到比自己研发更好的性能。
这个阶段我相信很快就会到来。
以后编程的方式也可能会发生变化,不用再去对场景的每个细节都去做算法编程,去查漏补缺但还是有边缘事件没有Cover到。以后就让它自己在实践交互中进行学习,因为它有视觉、懂语义,有常识,也有专业知识。
可以这么比喻,就像一个新手刚从驾校出来,也不需要再做文本方面的知识培训了,所要做的事情就是实践,多开车,多上路,实践多了就变成老司机了。
主持人:如果这样的话,是不是意味着在智驾大模型里面不需要标注了?
邓志东:标签要用工业化生产的方式,人工标注就是数据飞轮的一个启动或需要人工去做其他的专业标注。不是现在家家需要标签,小作坊式的,可能是做预训练骨干模型的公司去提规模化标签需求或做规模化生产,包括利用大模型这样的东西,混合人工与机器,部分有问题的标签还需要人工去审核清洗等。
黄冠:ChatGPT也需要标注。
邓志东:另外,对通用人工智能,要用开放域数据。这个数据不需要你去专门采集做闭集标签,互联网上有很多驾驶视频,利用众包或通过其他供应商,也可以给你提供全世界各种各样真实的视频驾驶巨量数据,这个我们叫开放域数据。
它的类别不再是固定的数量,比如1000种物体类别;视觉-文本对也可能不规整,噪声或污染也可能比较严重,也需要进行人工加机器的清洗、对齐等。
但可以做到万亿token以上的巨量,智驾大模型依然什么都可以检测、分割与识别出来,而且还是零样本使用或不需要用户进行再训练。现在各家车企做的大模型或小模型,可以看成是一只家养的狗,而真正的智驾大模型应该是野生的狗。
在我们的认知里,野狗总比家养的狗生存能力要强很多,因为它们生存在“野外”,接触到的环境远比家狗接触到的要恶劣、复杂。
相应地,真正的智驾大模型,不应该是在闭域数据集里进行预训练,而是在真正意义上的开放域海量数据里产生。
于旭:大模型需要有一个质量涌现的过程,这个背后需要巨大量产车在外面跑,现在这个时间阶段上,大家都在量产上争分夺秒。这里面看到了很多新机会,像在数据的加工生产上,标注作为一个刚需,以前是加工,现在是面对的场景有很多,包括像刚才邓老师提到的开源,用大模型分割一切,这套做法我们刚好把它应用在了现在的主机厂服务里面,最后质量的把控还是要靠人来做。
主持人:请问一下极佳的黄总,做智驾大模型刚开始需要很多的数据,极佳如何解决数据冷启动的问题?
黄冠:智驾大模型可能不是一个只靠驾驶数据训出来的模型,那样永远没有认知,没有多模态能力。所以我们认为它冷启动,确实要把语言模型和多模态模型引入进来,只有这样,才能向着智驾大模型这样一个方向走。
语言模型已经见过海量数据,有非常强的认知能力;而多模态的模型,也见过了大量的图像视频3D数据。
把语言模型、多模态模型引进之后的第二步,则是数据要在场景下去做适配、对齐,或者是通过自驾的数据自监督做自驾场景的压缩。在这个场景下需要大量的数据,但是如何才能让整个行业去共享乘用车数据,需要国家层面、行业层面以及企业层面都要多做一些合作和深入探讨。
主持人:接下来有个问题问一下智加科技的崔总,您是做无人驾驶重卡场景的,关于量产车的数据采集,如何确保低成本高质量、并且符合法规要求的数据收集以及传输?
崔迪潇:这可能跟大模型本身不太相关,这是在我们走向大规模量产或者走向更大海量数据过程中就需要解决的问题,低成本高质量必须同时满足,因为高成本高质量、低成本低质量数据获取是不需要努力的。
自动驾驶的数据获取跟系统的架构有关系,下面讨论的所有观点不包括端到端自动驾驶,因为端到端自动驾驶的数据应该怎么获取,我个人没有非常一线的工作经历,我很难妄下结论,怕被打脸。
针对现在模块化的智驾系统,最好的方式把它的数据系统做得灵巧可伸缩,核心是所有的数据采集触发的时间点和时长、采集的数据帧率和分辨率、数据维度和压缩比、回传策略等都是和特定的任务相关的,也就是被采集数据所在的具体模块和数据采集要优化的目标。
我们有一套包含500多个标签的场景分析体系,根据系统的表现决定回传的采样频率。
为了降低回传成本,数据压缩也需要考虑,比如直接把图像压缩到70%,再解出来,能不能得到跟Raw Data一样的效果,如果不能,再对应地调整。
在检测端的数据是要回传单帧还是多帧?时序任务,应该在当前时间点往前往后各回传多少帧?如果是安全性相关的任务,那它在整个数据回传的过程中优先级应该怎么设置?
相关问题我们在开发过程中都会结合场景和系统性能做很多定制化的设计。
设计过程确实比较繁琐,但这些工作必须做。我们系统有在线实时的指标回传功能,每隔几分钟到一个小时就能看到量产车上关键指标的变化,这些指标的变化也会再次影响线上系统的数据采集配置。
主持人:感谢大家,咱们现在聊聊趋势。接下来请大家分别讲讲个人对于自驾大模型或者智能驾驶行业还有就包括机器人、具身智能这些新鲜事物未来发展的图景。比如说未来三年大家可以感知到的AI大模型,智能驾驶的可能性等等,聊聊自己的判断。
于旭:大模型让我们看到算法的门槛变低了,这个时候就像过去的移动互联网一样,当时有很多的APP,现在在算法新的时代里面,又有非常多的AI应用。我们在创造更好的大模型,这个技术手段也希望能应用到更多的商业场景中,使得AI应用有不断的提升。它给我们带来了很多希望,我还是非常看好这一技术的。
黄冠:长话短说,我们非常看好这个趋势,我们觉得大模型可能对从驾驶到具身智能到通用机器人,都会带来很不一样的东西,就会从数字世界的AGI走向物理世界的AGI。
崔迪潇:当前自动驾驶行业,大模型已经在发挥一些作用,比如感知端、驾驶决策端,我们都看到了大量很好的技术演示和应用。至于规控端会不会做大模型,我个人持保留意见,因为目前在控制上,我们依然需要对车辆做精确建模。
虽然看到很多演进趋势,令人振奋,但必须要提醒一个事实,即大模型依然没有脱离深度学习框架,不可避免地会存在统计性和概率性问题,大规模应用中一定有它处理不了的场景。
对于所有做L4的同事和同行来说,必须要保持警醒,大模型可以加速L4到来,但它不能解决所有L4的问题。在L4的系统架构设计中,我们要在一个更强大的数据驱动的智驾大模型的基础上,继续坚持做安全冗余,因为L4是一个既要求泛化性,又要求可靠性和一致性的系统,这两点不一定靠大模型就能解决掉。这是我的一个额外观点。
主持人:教授做个总结。
邓志东:未来自动驾驶的研发范式会发生很大的改变,主要有四个方面:
第一,从完全监督的学习方式变成零样本学习,类似分割一切;
第二,从原来基于闭源的众包数据集变成利用开放域的巨量数据;
第三,从原来的单任务变成多任务,最后变成一个与任务无关的通用模型,比如原来的视觉语义模型只能做分割,但不能做检测、分类或者不能做跟踪,后面就会变成所有都能做;
第四,会从原来的弱人工智能变成研发与使用通用人工智能,从对每个细节的算法编程,变成一个能够主动融入真实物理世界、亲自实践、亲自与物理环境进行交互学习的机器“人”。
独家|何利扬加入赛力斯汽车,任AITO问界事业群轮值总裁
何小鹏最大的野心,装在自动驾驶里