独家对话商汤绝影:AGI敲开的自动驾驶大变革之门

汽车   汽车   2024-05-17 14:19   上海  

全文共13150字,阅读大约需要10分钟

5月14日,OpenAI发布了全能版多模态AI模型GPT-4o,将通用人工智能AGI推上了一个新高潮。

AGI端到端与多模态的算法模型,让自动驾驶与智能座舱的技术迭代日新月异,智能汽车成了一种具身智能。

对此,亿欧汽车独家对话了商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚,探讨新一轮科技革命带来冲击与改变。

本文首发于亿欧汽车

作者丨杨永平


“激发AGI创造力,引领智能汽车驶向未来”,这是商汤绝影的slogan。


这家依托国内AI巨头商汤科技而诞生的汽车新型Tier1,因其推出的基于AGI的一系列智能汽车解决方案,备受业界关注。


刚刚落幕不久的2024北京国际车展,在以大流量企业家与明星汽车产品为焦点的行业秀场,因全新技术产品话题而带来的行业热度,却略显寂寥。设在展览中心户外展区的商汤绝影展台,在车展媒体日时已人来人往,其系列原生态大模型及相关产品矩阵也悉数首次展出。


包括了面向量产的端到端自动驾驶解决方案UniAD(Unified Autonomous Driving),以及多模态场景大脑为核心的AI大模型座舱产品矩阵等。


其中有一部分群体对这家科技公司及其产品,显得尤为感兴趣。一部分是同行,还有一部分是车企。


AGI加持后的智能驾驶与智能座舱,成为了智能汽车产品创新的一体两面,也是各大车企的竞争焦点。而通用人工智能AGI,是贯穿商汤绝影的技术故事线。



近期,亿欧汽车独家对话了商汤绝影的掌门人王晓刚——商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁;一同参与对话的还有商汤绝影智能汽车事业群智能座舱副总裁许亮,其重点介绍了智能座舱产品与技术理念。


围绕AGI究竟如何赋能智能汽车,以及商汤绝影的自动驾驶、智能座舱技术路线具体是如何形成的,亿欧汽车与王晓刚、许亮展开了对话。


以下为万字独家对话实录,在不改变原意的基础上有删改:



 “商汤绝影第一个提出
一体式端到端自动驾驶通用模型”


亿欧汽车:这届北京国际车展已阔别四年,站在今天这个时间节点上,您看完主机厂和其他供应商展台后,整体上有什么样的感受,以及有哪些洞察?


王晓刚:整个行业还是处在一个高速发展的阶段,热度非常高。


所以你看主机厂现在的宣传,都是这些老总披挂上阵,直播带货。对于新技术,我们现在又处在通用人工智能、大模型发展的关键时期。大家都说上半场是电动化,下半场是智能化,智能化阶段通用人工智能是带来最大的一个变化,所以大家的关注度非常高。


这两天,我们很多客户、生态合作伙伴都到我们的展台,我们一直在这接待。有的客户是来个三四次,领导来了看完,马上再叫他其他的部门再过来谈,大家对新技术的热情是非常高的。


另外,市场的竞争也确实是非常激烈,大家都想在智能化方面保持在第一梯队。这些是一个全方位的要求,对于我们也是比较好的机会。


亿欧汽车:回到量产智驾层面,咱们的高速领航NOA是什么时候推出的?当时采用的是什么样的方案?现在咱们的城区NOA处于什么样的水平?跟上个阶段技术对比以及跟同行们对比,大概是什么样的?


王晓刚:我们是2022年底推出的高速NOA,是5R、11V。


我们现在用的是端到端的新方案,首先技术路线是领先的。我们之前有一些方案里还用到了激光雷达,那今天都是纯视觉的方案,所以整体的成本也会降低。


我们也可以看到新方案能够去处理各种复杂的场景,没有车道线的这些乡村小路也能去跑,做一些车的避让、人的避让、施工区域的避让等等,有一些复杂的(路况)它都能够进行处理。


亿欧汽车:业界对AGI在车里的应用比较感兴趣,目前在智驾层面的应用处于什么阶段?


王晓刚:智驾现在就从高速走向更复杂的城区,而且是推端到端的自动驾驶方案。那我们商汤绝影是业内第一个提出端到端自动驾驶方案的。


在2022年那时候,甚至特斯拉还没有公布它的方案时,那我们就在业内发布了端到端的方案。


亿欧汽车:您提到的自动驾驶端到端和特斯拉后来推出的端到端,是同一层面的技术路径?


王晓刚:是的,而且我们当时2022年提出端到端的方案,在2023年CVPR(国际计算机视觉与模式识别会议)获得了最佳优秀论文,1万篇里选1篇,所以还是有非常好的行业影响力的。


到了2023年9月份的时候,特斯拉就宣布它的量产方案也用端到端。在那之前,当时业内很多人对端到端这件事情是比较怀疑的,但是今天已经逐渐形成了行业共识——(自动驾驶)往端到端的方向去走。


但今天大部分人说的“端到端”跟我们做的“端到端”还有点不一样。


传统的自动驾驶系统是靠规则写出来的,只有感知层那一部分是靠神经网络。后面融合、定位、规控、决策这些都是靠规则写。那么实际自动驾驶的世界,很多情况很复杂,很多事情是用规则写不清楚的,很多Corner Case解决不了。


有一些公司做的“端到端”是分两段,前面的感知层用一个网络,后面的规控、决策再用一个网络,然后把规则替掉。但是它的“输入”还是感知的一个“输出”,感知的输出信息量已经被大大简化了。


在复杂的路况场景里,可能一开始感知层面就已经做错了。


我们今天看到的感知里,包括我们提到的Occupancy(占用网络),这些是都人造出来的东西,自然世界里并没有,它是为了满足自动驾驶系统而设计的一个需求,由人定义了这么一类物体,它也不一定是最合理的。


我们的UniAD端到端方案,输入的是视频、图像,输出的是规控轨迹,略过了中间的规则算法等过程,技术门槛更高。



亿欧汽车:那这过程里算法用的是CNN卷积神经网络,还是通过Transformer?


王晓刚:用Transformer,所以难度会更高。


虽然我们中间也放一些检测信号,这些都是辅助的,主要的视觉特征还会传过来,所以它的天花板就会更高,那整个网络会更加复杂。原来两段式的端到端,第一段跟原来是一样的,第二段是用一个比较小的网络,因为你做决策和规控,那时候的信息量已经比较少了,所以它实现起来就简单。但我们要实现端到端就会更难,所以天花板会更高。


亿欧汽车:咱们实现它的基础底层逻辑它是什么,是以某种深度学习的方式呈现?


王晓刚:它是深度学习,我们是用神经网络去做的。所以我们去打破了各个阶段的一些分工,未来人工智能的进化本来就是朝着这个方向进化。


10年前商汤成立的时候,我们是第一个让人脸识别视觉技术超过肉眼识别的,当时就用了神经网络做。


在那个时间,感知视觉这部分被人为的分成好多小块,然后再把这些小块串在一起;后来我们就用一个神经网络把这些东西全都做掉,结果性能就大幅提升了。现在从视觉又往后去拓展,把后面的规控部分也都做掉。所以,它是一个未来发展的趋势。


亿欧汽车:那么端到端还有什么优势?


王晓刚:端到端还有一个优点,可以学习不同驾驶员的(驾驶)风格,比如偏激进式的,还是保守型,它也能够学到。 


亿欧汽车:系统会根据驾驶员的驾驶风格和行为去采取激进式还是保守的驾驶模式?


王晓刚:你可以选择不同的这些风格。另外,我们现在推出来的DriveAGI是一个多模态模型,它的输入不光是这些各种传感器的信号,还有人的语言指令让它怎么去开。


因为现在本来就众口难调,驾驶风格上有的是换道、超车比较激进;有的时候不想换道、超车,那就待在左车道,想自己放松一下,驾驶起来不要太紧张。那么这时候,可以通过语言的指令去控制车的驾驶情况。再比如我要跟前面这辆车,它去换道的时候,你也去可以跟随它。


亿欧汽车:也就是说,通过舱内的语音系统是可以调度智驾的?


王晓刚:对,DriveAGI的输入里就不光有这些感知的信号,还有自然语言的输入。


亿欧汽车:它有类似什么失效率吗?比如准确率可以到几个9?比如系统误判了,误理解了驾驶人的意图,会不会造成一些风险?


王晓刚:最早都是一些指令性的,比如你误识别的时候,它肯定不会造成一些交通事故,因为它是有安全底线的保障。那只不过是对你的一些意图,在保证安全的前提下去实现。


亿欧汽车:这个创新算是行业里独一份的吗?


王晓刚:DriveAGI是基于多模态大模型打造的,这也是行业里最先提出来的。


亿欧汽车:这次车展开幕的时候,咱们也在讲“驾-舱-云三位一体的全栈AGI架构”,这里面关键词很多,这个框架跟原有方案相比,创新和突破是怎么体现的?


王晓刚:“驾-舱-云”指的是我们自己的业务模式。


所谓“云”,指的是AI云基础设施,对标的像特斯拉,它有10万块GPU来支撑他的智能化发展。国内的主机厂在这方面差的是比较多的,有的是有几百块、一千块,量级差很多。


我们商汤现在有的是45000块GPU,是一个从2018年到现在长期积累的重要基础设施。今天,你不太可能让主机厂在短时间内去建这样的算力基础设施,我们把这样的一个重要的基础设施也开放给我们的主机厂,赋能给他们。


“驾驶”层面,我们主要推的是端到端自动驾驶;“座舱”指的是多模态场景大脑,这些是我们的一个业务模式。


当然也会涉及到驾驶与座舱的结合,除了要给驾驶使用以外,它还可以把一些大模型能力给放进去,我们就可以得到智驾跟智舱、人机共驾的好体验。


但这都是基础,座舱的模型、驾驶的模型都是从云产生的。对于绝影,我们对自身的定位也是加速智能汽车驶入AGI时代的核心技术伙伴。


亿欧汽车:我们提到了AGI通用人工智能,我理解的“通用性”指两个方面,一个是应用领域通用,另外一个是任务通用。智能汽车里的AGI要不就是舱驾场景的通用性,另外是在任务上的通用性,咱们是怎么样的?


王晓刚:我们端到端的自动驾驶体现的是场景的通用性,覆盖更多的场景,那座舱里更多体现的是任务。比如座舱里有10个任务,原来每个任务都已经单独开发完了,那要加第11个任务的时候,还要再单独地去开发三个月或者是更长的时间。


那今天我们是一个多模态大模型,可以不断部署新的任务,它就能够去处理很多开放式的这种问题,这是通用人工智能,就像人一样。


举个例子,以前的人工智能擅长的是,类似下围棋AlphaGo很厉害,但是把围棋棋盘的大小变一变,它就要重新开始学,原来数据的积累就不能用了。但人不一样,把棋盘变一变让我再下,我还是可以应对。


亿欧汽车:比如我们以舱和驾这两域来讲,它要实现融合AGI肯定需要充足的算力保障,那咱们在车端的算力支持是大概什么样的方案?


王晓刚:比如现在我们的UniAD在大概200T的算力上是可以跑起来的,像现在座舱的模型,那么就要看模型的大小。


原来的模型比较大,但是随着现在的技术越来越好,我们可以把模型压得更小,原来是几百亿、1000亿的参数,今天是不到20亿的参数就可以实现原来几百亿参数的功能。


亿欧汽车:这是从大的模型里把座舱的这一块模型切出来了吗?


王晓刚:其实是这样。比如多模态的模型,最早需要一个几百亿参数的模型,但是现在随着大模型的能力变得很强,能够产生很多高质量的数据,数据生产的管线质量越高,那么可以用这些数据再去训练一个20亿参数的模型。


我们做过一个比较,比如现在开源大家经常用的70亿参数,LLaMA2是70亿参数的模型,那今天我们是用一个18亿参数的模型,它各项的指标还是大幅超越原来LLaMA2 70亿参数的模型。所以几十T的算力,也能够去支撑。


接下来我们可以看到车端有1000T算力的芯片,比如其中有200T的算力给到自动驾驶,你还有更多的算力可以放更多的一些模型,而且也可以放一些大的模型。


亿欧汽车:它冗余后200T之外的那些算力可以用在别的场景里。


王晓刚:对,它的模型能力会越来变强。


许亮:因为本身车厂如果投了1000T算力,他肯定希望用足。


亿欧汽车:但现在有些车端算力并没有用足,算力都是堆在那不知道用来干嘛。


王晓刚:所以这是为什么很多车企来找我们,因为本身能够提供大模型的公司就比较少,而且我们能够提供一系列的大模型,从几千亿参数到几十亿参数的模型,基于模型还开发了很多应用。


许亮:做自动驾驶如果发现算力有冗余,有些车厂用了这个技术方案,有些算力有冗余的时候,它就会把座舱内对于儿童的检测、对驾驶员检测等这些算法,全部都放上去跑,车企会觉得算力有富余,两个放在一起对自动驾驶的输入更准,产品逻辑可以融合。


所以车企们愿意充分利用算力做更多的事,现在的瓶颈是很多都算力不够,所以硬件也在发展。 


亿欧汽车:随着车里的应用增加,自动驾驶算力需求会不会从200T到越来越大,到400T、500T,甚至占满了1000T算力支持,挤压了原有其他应用的算力需求,这个算力的演进是怎么样的?


王晓刚:通常假如应用场景是固定的情况下,对算力的需求一定是越来越小了,让网络变得越来越小。那另外,如果要去不断拓展场景的情况下,那模型它就会变大。


如果只是一个UniAD端到端的自动驾驶是200T,但把多模态加进去,让自动驾驶能有人指定的输入,它能够给你输出用文字去解释各种驾驶行为,包括它还要能去识别一些复杂的路牌,(高速路上这些路牌上写很多复杂的东西),那么这些它都能够去理解的话,这样算力的要求就会增大。


亿欧汽车:之后会有AGI其他的应用场景吗?


王晓刚:现在整个人工智能的发展是非常快。AGI已经变成了一个智能体操作系统,能够去调动各种软硬件的资源,调动生态。


实际上它成了流量入口的一个核心,而且现在能够去不断的生成一些文字材料、生成图像,现在还能够生成视频,还能写剧本。比如有一些场景,我听了一首歌,看了一个电视剧,那么我在这车里还要去延伸剧里这些人物之后,再去给我创作更多的内容,将来这些都是AGI可以做的。


亿欧汽车:在AI原生应用部分,一方面是车企需要商汤绝影来提供定制化的解决方案,同时商汤绝影自己也需要一些标准化的产品迭代,那我们在整个标准化产品设计的出发点是基于什么?怎么去洞察终端用户的潜在需求?


王晓刚:我们自己本身要跟车厂有一个密切的合作,所以将来合作的模式不像是以前简单的供应商,那现在变成了更加密切的合作伙伴。


现在有些时候我们给客户提供车舱内的一些功能,其中关于终端消费者的反馈,车厂也会把反馈给到我们,告诉我们基于这些东西怎么去改进你的产品。这种情况下对我们自己的产品力要求也会更加提升,需要你设计的这些东西能够更加贴近终端消费者。



 “多模态场景大脑:
传统域控与大模型域控的‘落域’融合”

亿欧汽车:刚刚采访前有听到咱们介绍一个比较有意思产品,支持在车里生成商汤数字人形象。


许亮:对,我们有两类数字人,一类是我们跟车厂在合作量产的过程中,有平台的数字人,比如在我们车上能够看到大概十几种。第二类是车厂会有自己的IP,我举个例子:比如我们和合众汽车,它的品牌形象叫哪吒,我们就搞一个哪吒的数字人。所以我们同时支持商汤平台数字人和定制的数字人,都可以做。


亿欧汽车:座舱层面现在有些已经量产上车的语言大模型,可以实现人机交互回答一些百科类问题,还有一些可以文生图,在您看来这种车端应用诞生的价值是什么?


许亮:首先你刚才讲的很多车厂量产已经上车的应用,大多数都是我们干的。比如小米汽车那个方案是我们提供模型。


这个过程中会发现一个最重要的事,我们以前对于车的第一属性认为它是一个交通工具,从A点到B点。大城市的最大问题是堵车太严重,如果你一直处于堵车的状态下就会焦虑,总希望能够有一些额外能激发兴趣甚至交流的东西。所以我们围绕这个场景做了一些事,比如闲聊类的,驾驶员会觉得时间过得特别快。


第二个是如果舱内有儿童,堵车可能让家长更焦虑,有一些娱乐、还有一些教育属性的产品给到他,他会觉得很好。


第三个在开车的过程中,驾乘人员的疑问是需要有答案的。


以前是车厂我有什么技术,我就提供给你,车主是没有选择的。我们现在反过来从消费者思维去考虑,我更需要什么样的东西?所以当我们为儿童设计这些产品的时候,儿童就会很喜欢。


讲个实际案例,我们把这些功能上线了以后,车厂邀请了他们终端客户的50组家庭带孩子到现场体验我们的产品。小孩们玩了两个多小时,最后和爸爸妈妈说要这个车,比所有的车都好。


他们说的“好”,可能是上面有他感兴趣的内容,而不是说交通工具属性。因为交通工具属性大家都有,他会认为在里面可以画画、跟他对诗,唐诗宋词都可以学到。这带给孩子的价值需求,会发现被满足了。


还有最大的一个点,我认为接下来一定所有车都会上。闲聊很多时候不在于准确度到底有多高,更多是在旅行中有没有一个陪伴。


我在开车过程中发现旁边有个建筑,这是什么建筑?交互系统跟我说故宫。能不能讲一下故宫的历史?它会给你讲完。在开车这个过程中,我能享受到很多生态的服务,享受到百科的服务,享受到我的需求被满足,这一定是超越了原来冷冰冰机器的概念。


我相信这个技术一定会被大多数人接受,你看小米发布了所谓的多模态大模型以后,很多人都喜欢,这也只是我们功能的一种(体现),更多的东西都会在路上。


亿欧汽车:前两天我试乘了一家新势力品牌的新车型,体验了他们车机里的AIGC文生图、语音生图功能,从用户体验上来讲确实更具趣味性,除此之外生成式AI在车里还有什么别的能力和应用价值?


许亮:对于生成式AI(Generative AI),是一项技术,这个技术如何应用于某个场景,在图这个点上,其实在座舱内开车的人不一定会大量去用,更多的是乘客。


所以我们把重心放在了儿童(乘客)上,开发了“旅伴”和“神笔”。


旅伴里会有大量的AI赋能的故事,比如跟小朋友共同去创作,还有成语、诗词歌赋,唐诗宋词的各种对话,我说上句,你说下一句。


甚至做填空题,(比如)“指鹿为”后面一个字是什么,就可以让小朋友去学习。这些所有内容都是用AI去做的,在这个过程里会发现有大量的机会。


第二个像画画类的,我们叫神笔,(小朋友)秒变小画家。儿童可能没有画画基础,但可以去学。给你一分钟或者两分钟的短视频,(比如)“什么叫张大千的风格”,然后会有很多模板;“我要生成一个张大千风格的马、乡村”,这些所有东西儿童可以自己去创作,他们就知道张大千、梵高等等画家,原来是这么回事。


这个过程中,我们会觉得比较有趣,它的娱乐属性满足了;第二种是教育属性;第三个培养小朋友绘画的兴趣。


这就是说生成AI怎么用要看你的场景。开车从目的地出发到终点站,像北京交通早高峰,假设孩子上学路程中半个小时就可以学很多东西,路上家长也能释放自己的精力。


想象以前都有的痛点是,孩子问爸爸,“这是啥?那是啥?我需要这个,我需要那个”,你被孩子不停地打断。


现在给你一个教育或娱乐属性的东西,而且又很有趣、可以对话。这中间最大的一个机会是,家长比较放心的是它的教育水平特别强。如果给孩子一首古诗,他可以做问答的,问“诗的作者是谁?”(比如说)是李白。孩子就会问“李白是谁?”它给你解答,这就代替了很多家长教育的过程,这对于车厂尤其是家庭用车都是很有价值的。


亿欧汽车:刚刚您把产品的应用场景描述的非常具体和形象,但它(车内的生成式AI应用功能)和移动智能设备是什么关系?


许亮:这是一个好问题。现在最大的一个痛点是在移动智能端,原来在想手机上成熟的应用,是不是直接放到车上就行了,但发现不是。因为手机和平板的屏幕会比较小,这是第一个问题。第二个是车上的很多算力芯片和手机不一样,需要有大量优化。


同样的一个模型,像我们的多模态大模型支持了小米小爱的量产,它上面的芯片是我们做的跑在手机上。那我们跟车合作,(客户)又说要用其他的芯片,我们发现面临的工程化能力都不一样。


这是第一个面对的开发环境不一样。第二个,每个车厂的关注点不一样。


以前很多手机上的APP只要推到安卓端,推到iPhone端,所有都一样,没有差异性。但如果我是某品牌车企,我会发现同样是刚提到的教育属性的东西,我不需要你这种通用的应用。


可能更关注小朋友的某一类属性,比如要加强画画、要加强体育等,中间就有大量的定制部分。每个车企都希望自己的(产品)是独一无二的,不希望大家都是雷同的。所以我想在产品的差异化上,车厂有独立诉求,那是传统APP公司没有办法去符合市场的要求,而这是我们的价值。


亿欧汽车:既然针对终端用户的需求做了这样的产品设定,那能够提供这里场景服务的主机厂,是不是为此要配一个专门的设备硬件在车端?


许亮:不需要。


我们的定制化体现在哪里?我举个例子,类似神笔这样的产品,我们从平台化的能力来讲已经开发了80%,不管是它的软件架构还是APP的成熟度以及内容。这些东西车企看到了它就想要,这时候他们跟你谈项目落地的时候,就会加很多功能化的属性,提出独特的需求。最后面20%的工作量,是我们在与车企合作过程中帮它落地的。同样的一个产品落在不同车上是不一样的,但是它的底座能力是一致的。


我们打过一个比方:如果我们能够把这些原材料原子化的能力,做成一个平台属性进行赋能的时候,你会发现它的多样性。同样是牛肉的,这个是铁板牛肉,那个是红烧牛肉,每个餐厅的诉求都不一样,能不能提供定制化是车厂重要的能力点。


车厂会更关心那些愿意跟它做定制、愿意在专属人群上面去打磨场景、愿意把它做得更好的公司合作。这是为什么商汤绝影在国内还有日本、欧洲等,大概30多个车企建立了合作伙伴关系。是因为我们除了平台化的能力之外,更重要的是在整个项目过程中我们提供的服务、定制化能力让他们满意。


亿欧汽车:刚在我们更多是围绕乘客端智能座舱产品设计的讨论,那针对主驾座舱方面是如何引入AI大模型技术的?


许亮:主驾我们现在就干了一件事,因为要考虑用户场景、需求。


第一个万变不离其宗,一定要保持安全。驾驶员的安全决定了全车人的安全,所以我们对于主驾最早开发的所有产品,比如DMS驾驶员监测系统,就是用深度学习的视觉技术,去判断驾驶员在驾驶过程中眼睛有没有闭,有没有疲劳驾驶、分心驾驶。比如开车一边打电话、一边在玩手机,或者开车过程有抽烟、有喝水等分心行为,我们把这些所有场景叫驾驶员感知系统,用感知技术来降低事故率。在过去5年内,该产品在国内很多车厂都落地了。最新法规也已经出来了,欧洲的叫E-NCAP法规,中国的叫C-NCAP,这些东西都上线了。


第二类是驾驶员在开车过程中,因为不能完全把手从方向盘上挪开,所以不能去频繁操作屏幕,这个是痛点。以前我们为了解决这些痛点,上一代的语音助手可以打开空调、打开车窗等这些单一的指令,但它最大的问题是不能够跟周边的场景做很多深层次的交互。


我们之前举了一个案例,基于规则(算法)的最大痛点是什么?驾驶员会非常的累。“帮我打开空调到30多度,有点热”,“把我打开到28度,有点热”,“帮我打开到26度……”。你干这个事得讲三遍,才能够达到目的。但我们现在的技术,实现起来是无感的,系统会识别很多微表情、动作,它不会影响驾驶体验。比如驾驶在开车过程中突然觉得很热,抹了一下汗的动作,空调会自动降低;或者你打了一个哆嗦,它就把空调温度上升了。所以像类似案例,我们认为会有很多机会。 


亿欧汽车:前段时间小米SU7发布后,用户说驾驶中可以识别前车车型。如绝影的技术实现,比如车辆可以识别周边环境中建筑物、识别大山大川,这更是另外一个层面的价值提供。现在各种GPT上车实际上实现的是一些比较初级的人机对话功能,那行业里会不会也是朝着绝影的座舱交互方向去演进和发展?


许亮:我们从架构层面去解决更合理。首先因为AI的发展,在通用人工智能上有了大模型技术Transformer这样的架构,在车上怎么用车厂有两个技术路线。


第一个技术路线是什么都不接,只接入API,直接连云端的所有服务,需要干啥在云端全部都处理完告诉结果。这种对它(车企)的传统软件架构影响很少,所以有很多人会说,那这样的东西就可以快速上车了。目前也有一些车厂在用,这对于它的落地速度以及投入的工程量是很少的。


但是现在很多车厂在干第二件事。大模型拿出来了,我们上面有很多开发、很多场景的融合以后,车厂希望能跟他传统的域控有融合。比如我问它“我很冷”,语音指令发出以后,车厂干的逻辑,第一件事是它要判断原来的车控能不能解决这个指令。它如果告诉你很冷,现在的空调是28度,它觉得没有办法响应你,因为系统不知道给你调成24度还是23度,还是调高一点。那么它就会把这个问题丢给大模型,大模型就来兜底。(舱内传感器)会看你现在的穿着、室外温度是多少,现在24度你觉得冷,我会建议你调整到28度。


所以在软件架构上它就会有所谓的一个“落域”。落到传统的域,传统车厂已经做完了,落到大模型的域,这就是我们要干的事。你会发现可能是个车厂都会推进GPT,它都是第二套架构。车厂说我在传统的这些域控上,我要有融合,原来能解决的继续做,不能解决的我让大模型帮我赋能。所以,我们和很多车厂在第二个层面上合作的更多。


亿欧汽车:目前有没有大模型域控这样的叫法?


许亮:大模型域控是这样的,有两个维度去理解。


第一个是硬件层面,因为现在大模型的很多运用,除了自动驾驶是单独的场景,座舱内丰富性也很多。座舱内,现在是没有一个芯片能够把大模型完全放在端上的,所以市场有诉求,现在的痛点是大模型场景我们都可以有,但是因为要传图片、语音到云端,延时性会有5秒、7秒这样的一个延迟,用户会觉得体验不太好。


所以车企就有一个刚性诉求,能不能把延迟降到1-2秒,我问你答的体验就很好。为了做这件事情,所有的车厂发现现有的车机上的芯片没有一个能解决问题,所以就想先放一放,因为算力没有足够的冗余。那么在车端搞一个新的域控,放一个大模型的芯片,把模型加上去,这就叫大模型域控,这是硬件概念。现有架构不能解决,那我就在硬件架构上去提供一个高算力的芯片布在端上。


第二个是刚才我们讲的软件层面,它跟传统的域控做深度的融合,要做“落域”。一个指令、交互来了以后,软件做判断,一个指令往上走就落到传统域;往下走,就落到大模型上。系统会发现最后落到大模型上的任务越来越重,因为人的语言是不一样的,“我说我冷”是温度要提高,“我说温度加高”也是温度提高;我说“外面现在太阳下山了,温度是不是可以调高一点”,很多语言导向结果是一致的,但是人的表达方式各不相同,所以大模型承担的任务就会越来越重。传统基于规则的算法是模糊的,一定要这几个字对上才能响应。所以大家会觉得大模型的任务越来越重,就产生了一个新的概念,在软件上我认为叫大模型域控,因为能兜底,能帮你解决掉很多你不知道的问题。


所以是软件、硬件层面上都在做,那这两个结合体,我们认为就叫大模型域控。


亿欧汽车:那可以理解为商汤绝影基本上是走这样的技术理念?


许亮:我们都是往这个方向去走的。举个案例,我们在域控里,直接说车窗打开或者车窗打开一点,传统车厂都能解决,我们只需要去设定它的BCM(车身控制器)控制力度,是全开还是开20%、30%。但是如果你跟它说你觉得热,车窗有可能稍稍会打开;但你说车内通风不好,它就会打开,但是后面的指令肯定是基于大模型去做的,前面的BCM没有办法去解决这个问题。


亿欧汽车:我们怎么去平衡研发资源?


许亮:有三点。


第一个是我们在做这件事情的时候,从工程角度和研发角度我们要做平台化。如果我把一个工作80%到90%都平台化了,定制就少了,就类似于刚才的例子,所有的牛肉我都切成固定的大小,最后你要牛排是2毫米还是3毫米,最后一刀就解决了。不是说在牛身上去动脑筋,这就是平台化的能力。


第二个是开发过程中有大量的测试,还有软件集成,这过程中我们有一套完整的开发流程去监控,可以让效率很高,我们形成自己的know-how。


第三个是视觉技术有一个重要的点是数据,我们做的项目越多能力就越强,这是我们在业务推进过程中所感受到的点。平台化的能力会把我们的研发效率提升,而在解决定制化的过程中,如何以最快的速度、最短的时间、最少的迭代轮次能够让产品量产上车,这中间体现出来的就是效率问题。


亿欧汽车:现在商汤绝影的智舱和智驾的研发团队,是分开的还是有部分融合?


王晓刚:我们的产品设计,还有一些底层基础设施软件是在一起的。因为本身舱驾融合,要同时去提升整体效率。


亿欧汽车:近期有没有可以对外讲的新定点的项目或者合作品牌?


许亮:是这样,我们智能座舱现在国内30多个车厂都合作了,其中有大量的客户都已经在开发了。像国内我们比较重要的大客户有比亚迪、广汽、长安,包括蔚来、奇瑞等,这些都是我们比较重要的合作伙伴。


我们的现状是,因为我们的智能座舱创新能力过去几年做的比较好,最重要的是工程化做的也很好,所以两翼结合,我们在过去几年内交付的项目数量,以及我们已经在接近有200万辆车上实现量产,这个数字在行业里都是排第一的。我们创新的能力和工程化能力,以及我们落地的速度都是行业第一的。所以现在讲的(一些)细分市场,我们是行业里的金字招牌。客户最后选择我们是因为他有各种各样的平台车型,不同的硬件要求,不同的架构、芯片选择,他会发现在我们这里都能找到解决方案。客户就觉得我们是端到端的一站式解决方案,更愿意跟我们合作。而且每隔几个月我们就推出新品,他就有更大的合作动力。


像我们典型的案例,在广汽上已经量产的舱内AI Camera,是我们跟广汽首发的;跟奇瑞,在舱内去检测有没有儿童的功能是首发的;还有像NIO上全舱感知也是我们首发的;还有健康功能也是跟很多客户首发的。


我们技术0到1是最快的,车厂跟我们合作也保证他自己首发的地位,所以这过程中还是把我们的服务以及对客户的响应都做到极致。相对来说,目前合作基础还是比较好的。



 “市场这么大,大家总能找到
适合自己的蛋糕”

亿欧汽车:聊几个关于市场竞争的问题,现在玩家众多,商汤绝影的产品很创新,但创新只是一方面,还有成本、客户等各种竞争因素存在。我们在面对未来竞争,有没有一些总体思路和指导思想来面对这样比较复杂的市场?


许亮:我们过去产业化打的比较多,这方面的思索有几个维度:


第一个是AI上车的时间周期相对比较短,未来还有很大的发展空间。随着装机率的上升到未来标配,是蓝海机会。


第二个是随着车厂在产品规划、技术架构升级的过程中,我们的落地技术会越来越多,这是本身的需求端。


第三个是从技术端,汽车行业最大的挑战是创新+产业化,两者中没有一个弱项才能够在行业内胜出。因为所有的车厂都要求有很好的工程化服务,有效率、有响应,甚至遇到困难的时候,你能够在现场跟他们一起去攻克。所以我们会和我们的客户一起去成长,在全域所有车型的开发、新项目的落地、创新的研发,我们一起携手去做。


比如比亚迪、蔚来、广汽,这都是我们重要的合作伙伴,也是我们的大客户,我们一起成长。我们会把所有产品的创新成果第一时间告诉他们,他们就会马上去调整产品架构,说下一代我这个芯片 8155不行了,我要上8295 能加多少功能?可能他们车都没有做规划,我们就开始动了,我们把研发前置,这个中间会带来大量机会,就是我们是共同成长,而不是说我产品完全成熟了,他也不知道自己的需求。这是一个产品和技术双向融合、双向奔赴的过程。


 此外,我们对于合作伙伴需求的响应非常快,处理的效率非常高。像我们在广汽研发中心、在比亚迪研发中心,也建立了我们的工程中心,这个团队是非常专属的,我们在当地会了解合作方所有的软件集成测试的过程,只要有一些 bug 会马上第一时间响应。那这个过程你会发现双方的架构和团队融合程度越来越高,就变成一个团队了。


还有一个重要的环节,从全球化的角度来看,我们在国内量产了很多项目,现在日本和欧美在学我们,这也是我们非常骄傲的事。中国的技术创新,因为落地速度快,中国市场的接受度更高,大家更愿意去尝试这些黑科技,让AI技术在全球范围里有独特的标杆作用。我们两年前在欧洲就成立了工程中心,在那边开始招团队。所以这跟以前的模式完全不一样,我们变成一个技术输出方。


我想总结一句话是:市场这么大,大家总能找到适合自己的蛋糕。我们找到了我们最合适的大客户,找到了我们的全球化的布局,找到了我们在创新和工程化方面的平衡点,我们就发现自己的优势还是非常大。


最后一个核心、也是绝影最大的优势:我们有算力。现在大量的AI创新是要靠算力的。所以车企要找到一个结合点,又懂车、又有大量算力、又愿意提供专属服务的,绝影是为数不多能满足所有这些要求的,这也是合作伙伴信任我们的原因。


亿欧汽车:绝影在公司经营这一块有什么目标吗?营收或者盈利方面。


王晓刚:首先汽车板块还是目前商汤要重点投入的板块,所以在这个阶段,还是希望我们绝影依托商汤技术能力,能把我们业务实现一个快速的增长。


亿欧汽车:最后一个问题是关于具身智能的,晓刚总对这样的新兴技术趋势持怎么样的看法?以及怎么看它和智能汽车之间的关系?


王晓刚:去年5月份的时候,我们是世界上第一个做的通才智能体,把大模型用到具身智能上面,《我的世界》(Minecraft)是一个游戏,它里面有262个开放式的任务,OpenAI、DeepMind过去几年一直在攻这个课题,几年积累下来只解锁了其中的78个任务,但我们模型出来以后解锁了全部的262个任务,所以在行业里我们已经是最具创新性。


所以今天商汤就跟其他的很多大模型的公司是不一样的,我们是走在行业的前面。并不是说OpenAI出了一个ChatGPT,我们就去对标。而我们是做的引领,所以大模型能去解决开放式任务就非常的重要。


今天的座舱也好,还有驾驶也好,面临的是许多开放式的任务。那么将来到机器人,因为机器人和汽车的很多技术是共用的,感知、决策、控制。


人工智能的发展在终端智能上就三个阶段:第一个阶段是在手机上,智能手机的出现;第二个阶段是我们的智能汽车,所以为什么看到一些互联网公司去造车了,因为今天在智能汽车板块,人工智能创新性是最强的。第三阶段,就是机器人。看小米,基本上它也涵盖了这个布局,它从手机到汽车,而且也做机器人。





阅读





- END -

本文由亿欧汽车出品
 欢迎添加小编,沟通转载事宜

亿欧汽车
专注汽车出行领域科创报道与投资价值研究
 最新文章