智驾新宠VLM大模型,到底是什么?

汽车   2025-01-06 19:14   上海  

前不久,小米SU7澎湃OS推送了最新的OTA,小米智能驾驶正式接入了VLM;广州车展上,极氪发布浩瀚智驾2.0也使用了WLM;理想汽车更是早就应用了端到端+VLM双架构。这VLM到底是什么技术?会是新的智驾浪潮吗?

VLM,全称是Vision Language Model就是可以识别图像或者文本中的内容,并且生成信息指令的AI模型。

大家肯定听说过ChatGPT,就是你通过文字来问它问题,它能自动生成答案给你,这其实就是一种语言模型,而如果输入的不是文字,而是图像或者视频,这就是VLM视觉语言模型了。形象点解释,它就像我们小学考试中的“看图说话”一样。

那让车辆去“看图说话”,能有什么作用呢?

大家想想,在开启领航辅助时,你的车辆能识别潮汐车道吗?能识别收费站ETC通道吗?能理解交警的手势吗?如果不能,VLM现阶段最大的用处,就是弥补端到端智驾方案暂时未训练过、而无法理解的上述场景。

在如今已经深度应用VLM的理想汽车上,VLM带来哪些实际体验提升?小米SU7的VLM目前有哪些应用?VLM会在未来成为必然的趋势吗?更多详细技术介绍,一起来看本期视频!


如果你也和我们一样,对汽车行业的变革式发展满怀憧憬,欢迎大家到B站关注《童济仁汽车情报所》,我们会在每周五与探讨一个你可能感兴趣的新话题。大家有任何意见与建议,也欢迎留言与我们交流。





入驻媒体平台


商务联系人:Maggie
Tel:135-6413-6455
E-Mail:maggie@neuesmedia.com
版权声明:本文为《童济仁汽车评论》独家稿件欢迎任何形式的转载,但须注明出处为《童济仁汽车评论》和撰写作者。如有任何侵权行为,侵权者将承担相应法律责任。

童济仁汽车评论
专注于市场、行业、技术和影响力,多年来始终坚持权威报道和不断创新。
 最新文章