交流会干货总结|智能座舱大模型现在在做什么

文摘   2024-08-29 19:03   广东  

👆点击 智能座舱研究社 > 点击右上角“···” > 设为星标🌟




在昨晚,智能座舱研究社开展了一场“智能座舱的大模型现在在做什么”的线上交流会,主要围绕大模型在业务中的应用进行深入探讨,分享各自在大模型业务中的经验和看法。


整场交流会长达2个小时,快结束时在线率依然在90%左右。如果错过昨晚的交流会也没关系,接下来,智能座舱研究社将在每个月举行分享会,欢迎大家关注「智能座舱研究社」公众号。



大模型探索与应用分享


讨论了当前大模型的开发情况,嘉宾分享了他在模型方面的探索和想法。他们从去年开始陆续上线了1.0的基础能力,主要依赖模型技术能力,没有进行太多适配动作。


1.0的大模型基础能力:主要包括了闲聊、百科、知识库(用车手册)、文生图、搜索等基础功能。


大模型2.0相比于1.0的进阶能力更多地是在探索多模态输入、端云结合、多agent、千车千面以及将生态引入模型中。生态接入例如,接入新闻、短视频、POI等信息,进行旅行规划等。端云结合可以增强传统语音,涉及到语义、复杂意图、智能测控测试等方面。千车千面基于大模型能力,打造个性化交互,如旅行规划、游戏类新闻推荐等。情感上,目前主要是结合数字人以及声音复刻,已有厂家开始尝试,如声音复刻、形象复刻等。


关键词含义


多模态输入:包括车内物品的识别和以及健康状态监测,如通过纯视觉技术去识别心率。


端云结合:在语音增强中,基于端云结合,对语义的理解能力、对复杂的用户意图的识别能力以及智能测控测试对传统语音识别技术进行增强


千车千面:即基于现在的大模型能力,以及所有对话的记忆应用模型去做画像打造一个性化的交互。比如我喜欢游戏类的新闻,那它会主推最近很火的黑神话游戏新闻。




3.0阶段目前主要还是在做能力的进一步探索,比如模拟触屏和情感2.0的研发。


Mobile Agent :这是一种模拟触屏动作的技术,如在高德地图上点外卖。通过图像界面模拟实现生态接入的方法,这种方法不需要通过传统的接口形式,而是直接模拟用户操作,从而实现对各种应用的控制。目前这些技术还处于行业的预研阶段,意味着它们尚未广泛应用,但具有很大的发展潜力。


情感2.0可能涉及到更高级的情绪识别技术和健康识别。

  



端侧大模型的应用与优势


讨论了车相关的一些问题,包括车相关的资源是否会给到供应商,以及如何整合这些资源。同时,提到了关于mobile技术的问题,目前还没有产品应用,只是提出了技术。此外,还讨论了端侧大模型的优势,原因主要有五点:


隐私安全:端侧部署可以更好地保护用户的隐私,尤其是对于图像和视频这类敏感数据,用户可能不希望上传到云端。

实时性:端侧模型不需要通过网络传输数据到云端处理,因此可以提供更快的响应时间。

可靠性端侧模型不依赖于网络连接,即使在没有网络或网络信号弱的环境中(如地下停车场、隧道或野外)也能正常工作。

个性化:利用端侧的个人数据,可以为每个用户训练和调整个性化的大模型,从而提供更加定制化的服务。

成本效益:随着端侧芯片的 AI 处理能力不断提升,利用这些芯片的算力可以减少对云端服务的依赖,从而节省服务费和流量费用。




端侧大模型应用带来的变化与挑战


主要讨论了大模型带来的变化,包括开发范式和技术架构的变化。大模型的应用中,硬件变成了MPU,推理框架在硬件上,模型在上面是应用。产品设计方面,交互方式从图形用户界面变为自然语言交互,产品形态也发生了变化。对于产品经理来说,需要了解模型能力和边界,以及如何清晰准确地描述用户需求。大模型的价值在于重构业务流程和人机交互,但目前尚需探索和迭代。


大模型带来什么变化


开发范式变化:


从单任务 AI 模型转变为能够支持多任务的大模型;从简单的规则任务到通过大模型实现复杂逻辑任务的能力;从单模态任务(如仅语音或仅图像识别)向多模态任务发展。传统架构中,硬件之上是操作系统(OS),再上层是应用。在大模型应用中,硬件之上是推理框架,再上层是模型,应用调用模型进行工作。


产品设计变化:


一方面是交互方式变化,从图形用户界面(GUI)的交互转变为自然语言处理(NLP)的交互,更加注重在交互过程中准确预测和响应用户需求;另一方面是产品形态变化,从信息流形态和个性化推荐的传统 APP 交互,转变为可能不需要那么多 APP 页面和交互的新形态。


在大模型时代,产品经理主要面临着两个变化:


技术实现上:产品经理不仅要考虑技术实现,还需要深入了解大模型的能力及其局限。这要求产品经理对模型的性能、适用场景和潜在的边界有清晰的认识。


从定义功能到定义问题上:传统的产品设计着重于定义产品的功能特性。在大模型时代,产品经理需要转变为定义问题,即明确用户需求和问题,使其能够被大模型理解和处理。


座舱大模型应该是基于大模型能力之上,对业务流程和人机交互的重构。如果仅仅是利用大模型的生成能力去单点实现生成文本,图片视频等功能,那顶多可以当作娱乐、或者生产力工具,所产生的价值和必要性不大,必须将之嵌入到现有的业务流程中,进行分拆、打散再重构,这需要很多探索和迭代。


大模型的挑战


端侧大模型的落地其实还面临着一系列的硬件方面的挑战。当前的芯片平台提供的算力有限,无法满足大模型对计算资源的高需求。算力、显存和带宽的限制影响了大模型在端侧的部署和运行效率。端侧大模型的爆发,还需要依赖下一代芯片平台的提升,去优化推理部署,需要通过量化、剪枝、压缩等技术手段提高模型的推理速度。



智能座舱的四大模型与应用


主要介绍了四大模型:


语音大模型:端侧可能不需要实现完整的大模型,以避免资源浪费。采用较小的模型来优化传统语音识别功能,提高泛化能力和情感化交互。


主动服务:实现端到端能力,需要整合感知、决策和执行。通过开发多模态决策模型,利用环境、车辆和用户个人信息进行复杂规划和决策,提供个性化服务如智能驾驶模式、一键导航等。


视觉大模型(VOM):传统视觉任务可能需要多个模型来实现,效率不高。通过视觉大模型可以简化实现,提高效率,尤其是在座舱监控任务如物体和儿童检测中。


UI模型:这块是座舱领域未来的探索方向,需要提供更自然、直观的用户界面交互。通过探索图像处理和视觉变换器技术,以理解和生成用户界面元素,提供更丰富的交互体验。UI大模型主要用于理解屏幕上的用户界面元素,总结出屏幕上的内容以及可以进行的操作。通过UI大模型,可以实现语音操作,如点按钮等。



大模型与座舱融合的难点


幻觉问题是目前最不好解决的问题之一,座舱体系中存在识别准确度问题,需要通过独立模块和分发模型来提高准确性。


同时,智能座舱内的应用与语音的融合程度不高,需要提供各种数据和接口。新势力车企在原有开发基础上预留了一些接口,可以直接释放给语音。合资车企可能需要有另一个角色来嵌入系统,获取座舱底层数据逻辑和交互逻辑。建议在实际场景中构建对应的推荐,如储物、天气、路况和车辆状态等。



有价值的提问合集


智能汽车座舱的战略站位


随着汽车智能化程度的提高,用户在座舱中的无聊时光会越来越多,如何让这些时间得到有效利用成为了一个重要问题。大模型可以作为一种解决方案,帮助用户在行车过程中解决各种问题。智能汽车不再仅仅是交通工具,而是从A点到B点时空中的一个体验,需要考虑整个旅程中用户的情绪变化和需求。


智能座舱的价值与挑战


为什么要做大模型,用大模型解决座舱体验问题。座舱中用户会产生很多与车子无关的需求,如娱乐功能等。随着自动驾驶技术的进步,车上的所有人都可以体验丰富的智能生态。然而,手机也在同步进化,人们可能会在车上玩手机。因此,需要思考什么样的场景是非车机不可的,这种场景才是真正有价值的。大模型可以理解成两部分:一是意图的理解,包括测控和其他任务;二是在无聊时提供解决方案。座舱比手机更智能,因此大模型在解决无聊问题方面具有优势。


智能座舱的展望


智能座舱的智能化交付是用户体感上的智能化体验。座舱内的智能化交互具有丰富的传感器和多模态的交互方式,如声音、视频、座椅传感等。与手机相比,座舱拥有更多的传感器和数据获取能力,能够实现更多智能化功能。目前,手机公司正在尝试将智能座舱与手机融合,以抢占用户时间。然而,短期内大模型在硬件算力上的依赖限制了其在座舱内的颠覆式创新体验,但在局部特定场景下的体验改善是可探索的。


智能化体验与大模型应用


大模型能够为一定程度的智能化创造基础,提高用户体验。在未来,随着算力大幅提升,大模型可能会形成新的主要交互方式,颠覆现有的交互方式。此外,大模型的应用空间不仅限于语音交互,还包括自驾领域和性能优化等领域。短期内,语音体验的泛化和仓内效率优化可能更具现实价值。



推荐阅读:


AI赋能智能座舱,大模型上车了



【智能座舱研究社】 

智能座舱一站式学习和交流平台



智能座舱研究社
最好的智能座舱学习平台