揭秘多模态|更懂世界、更懂人类,多模态究竟有多强大?

汽车   2024-08-16 17:57   上海  


什么是模态?


随着越来越多的大模型上车,创新的汽车智能化产品和服务不断涌现。当你发现一个好用或者好玩的功能,想要分享给朋友时,可以用文字写出来,可以给对方发语音,也可以拍照分享,当然拍一个功能完整演示的视频也属于常规操作。


无论是文本、语音、图像还是视频,都是我们表达和传递信息、同时也是感知信息的方式,而每一种信息的来源或者形式,可以称之为「模态」(Modality)。前述的「一个有意思的功能」是信息,表现形式或者说媒介是多种多样的,也就是说,同一个信息,模态可以是多元的。


人类通过视觉、听觉、触觉、嗅觉等感官来接收和理解外部的信息,也可以通过前述的文字、语音、图像、视频等模态来表达、传递和交流信息。不过只是将模态划分到这些媒介并不足够细,更广义上来说,两种不同的语言,比如中文和英文,也是两种不同的模态。


世界上万事万物都有不同的表现形式,形形色色的模态让我们生活的环境丰富多彩,人类认识、理解乃至改造环境,离不开多种模态信息的交互。


为什么大模型需要多模态?


在人工智能的发展过程中,此前大多数模型主要是基于单一模态的数据进行学习、训练和推理的。

以文本为例,文字发展了数千年,似乎已经能精确的表达任意事物,让人感觉仅凭文字就可以产生智能。很多模型的能力之一就是通过全面理解文本,提取关键信息,生成符合原意的内容摘要,输入的是文本,输出的同样还是文本。单一文本训练的模型确实能够在这一特定领域表现出现,提高工作效率。此外,通过文本和语音转换的模型,最终的产品还可以让模型输出的文字变成语音,只不过这种模态的转化可能需要多个模型或者工具的配合才能完成。


同样的,图像、语音、视频等单一模态训练也同样能在特定的专业领域表现亮眼、取得很多成就,包括围棋领域的AlphaGo、蛋白质结构预测的AlphaFold,但这些单一模态模型仍旧存在一些局限性。


首先,单一模态的数据所传递的信息往往不够全面、完整,难以充分反映真实世界的复杂性和多样性。例如,一段文本可能没有描述清楚一个场景的所有细节,而仅仅依靠一张图像也无法展现出一个物体的功能和作用。


其次,单一模态的模型往往是孤立和封闭的,不能有效与其他模态的数据和模型进行交互和融合。例如,一个只依靠文本生成的模型可能无法根据图像的内容来生成合适的描述。


相较而言,人类认知和理解世界是通过多种模态的信息交互来形成感知和认知,然后大脑再加以综合和理解,把这些感知和认知转化为知识、思维、情感、创造力等高级的心智功能。


比如,我们要了解一辆车,不会只是依靠单纯文字的描述,还会找各种外观和内饰图片、找视频来看,甚至还要亲自试乘试驾,触摸车辆,驾驶车辆,收集各种模态的信息来形成对于这辆车的认知和理解。



更重要的,人工智能需要和“人”进行交互,而“人”传递信息的模态是比大多数事物都要丰富和多元的,有一个心理学家提出过一个公式:“人”的信息传递=7%言语+38%语音+55%表情。通俗来讲,人类信息的准确传播和接受,除了语言本身,还要注意语音语调,需要借助双方的表情、姿态、动作等肢体语言,这样我们才能全面理解其他人想表现的信息。


人工智能想要提升全面理解世界和理解“人”的能力,向通用人工智能(AGI)演进,从而真正在工作和生活中帮助人类,AI就必须能够支持并实现多种模态的感知、理解和交互,多模态能力是AI向AGI进化的核心推动力。


多模态大模型,打开AGI大门的钥匙


商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚在今年的WAIC大会上表示,商汤原生多模态大模型让世间万物都可被感知、被理解、被交互。


王晓刚提及的多模态大模型,就是可以处理和整合多种模态的数据和信息的模型,提高了模型的全面感知和综合能力,使其能够更贴近真实世界,应对更多复杂的任务和场景。


此前,多模态更多的指对于 3V 模态的支持,即Verbal(文本)、Vocal(语音)和Visual(视觉),很多经典的人工智能任务都是基于这三大类模态之间的相互转化,根据图像生成文本的「图像描述任务」,类似小学生的看图作文,也有反过来根据文本描述生成图像的「图像生成任务」。此外,微信的语音转文字也可以看成是一种简单的多模态任务。这样的多模态模型也被称为是「跨模态模型」。


王晓刚表示,过去许多模型处理不同模态信息是先把语音等输入转化为文字,文字和图像结合进行分析,输出反馈也是先生成文字,根据文字再生成语音输出,会有大量信息丢失和很高的延迟。


等到OpenAI的GPT-4V发布,核心技术是基于大语言模型实现视觉语言任务的「模态对齐」,让不同模态之间顺畅地串联、桥接、转化,就像一部音乐剧,音乐、舞美、布景都要相互配合、协同,才能达到最好的舞台呈现效果。商汤「日日新5.0」的多模态模型也是采用和GPT-4V类似的技术方案,有一些人将其称为「联合模态模型」。


在今年7月WAIC大会上发布的由「日日新5.5」体系支持的全新商汤多模态大模型是更为领先的技术方案。文字、语音、视频等模态一同输入,多模态大模型统一处理后输出相应模态的信息,相较于过去的方案,多模态融合的技术难度是几何倍数的提升。


这一方案与GPT-4o都是「原生融合」的多模态,利用原生自然存在的多模态交错数据来构建图文交错原生多模态基座,使不同模态数据映射到同一个状态空间,从而实现多模信息共享与多源知识协同。这种原生融合的多模态大模型也被叫做「混合模态模型」。


此前GPT-4o的发布为消费者展示了「原生融合」多模态实时交互的方式,让更多人领略多模态感知和交互的魅力,也开始帮助释放多模态大模型的商业落地想象空间。


相较于手机,智能汽车才是更适合承载多模态大模型的落地场景。因为智能汽车内外的各种摄像头是常开的,用户可以实时跟汽车通过多模态的方式进行交互。同时,智能汽车的保有量不断增加,能够产生丰富的终端用户反馈和数据信息,让模型不断迭代成长。


这些因素综合展现了一个令人激动的未来智能汽车发展方向:从智能汽车正在进化为超级智能体,多模态大模型则是这一进程的核心驱动力。


和OpenAI等公司相比,商汤绝影是智能汽车的核心供应商,在智能驾驶和智能座舱领域具备丰富的量产经验,将以多模态大模型为核心加速「以人为本」的智能汽车交互革新。


未来,随着商汤「原生融合」多模态大模型的上车,让车内外的每个细节都得到重视,让每个人的需求都能得到响应,让有关于“人”的信息不会被忽视,甚至它还突破了空间的限制,实现舱内用户与更广阔的物理和数字世界的联接,助推智能汽车向超级智能体进化。












绝影智能SenseAuto
商汤绝影是加速智能汽车驶入AGI时代的战略合作伙伴,致力于为每一个人提供灵活自适应、深度个性化、安全可信赖、有人文关怀的未来出行方式。
 最新文章