在AI大模型火热的当下,随着技术的持续迭代和发展,大模型正在从单一模态向多模态演进,多模态大模型有希望成为未来人机交互的超级入口。
知名IT研究与顾问咨询公司Gartner 预测,建立在多模态大模型上的生成式AI应用,将从2023年的1%,激增至2027年的40%,未来的市场充满了想象空间。
参考Gartner技术成熟度曲线的定义,一个技术的生命周期会经历五个关键阶段:技术创新期、期望膨胀期、泡沫破裂谷底期、稳步爬升复苏期、以及最后的生产成熟期。
当前来看,多模态大模型是处于技术创新期,不过该阶段的技术也意味着技术的快速迭代与突破,从传统多模态模型到原生多模态大模型,AGI离我们越来越近。
丨多模态迭代进行时
目前,多模态大模型逐渐成为大模型技术进一步发展的关键路径,然而市面上的多模态大模型的技术路径和实现方式都有所差异。
在多模态发展的早期,各个模态之间本质是独立的,利用系统提供的各种模态数据的输入和输出的接口能力,通过应用层的逻辑融合来实现多模态的场景体验,典型的类似于一些多媒体应用和语音做一些场景结合。
随着OpenAI的GPT-4V和商汤科技「日日新5.0」的多模态大模型发布,AI公司开始在技术框架层将语言模型、视觉模型、声音模型等进行融合,这些模型首先独立训练,然后将各个模型在跨模态数据上继续训练以及在不同任务数据上进行微调,最终实现的是多模态的对齐,最后,通过显式或者隐式的管道模式进行连接实现场景。
这种多模态的实现方式是在大语言模型的基础之上来构建的视觉语言任务的对齐与融合。商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,许多类似的多模态模型处理不同模态信息是先把语音等输入转化为文字,也可以通过图像识别提取内容,然后由一个强大的底层的大语言模型进行分析和回答,输出反馈也是先生成文字,根据用户需要,最终输出文字,或者调用其他模型来将文字转化为图片、语音等模态进行输出。
在今年7月WAIC大会上发布的由「日日新5.5」体系支持的全新商汤多模态大模型是更为领先的技术方案。文字、语音、视频等模态一同输入,多模态大模型统一处理后输出相应模态的信息。这一方案与Gemini、GPT-4o都是「原生融合」的多模态。
商汤的原生多模态大模型的技术架构
具体来看,原生多模态就是指从训练阶段开始,模型就利用大量不同模态的数据进行预训练,技术上实现紧密的耦合,不仅可以在输入和输出端实现多模态,而且还具备强大的多模态推理能力以及跨模态迁移能力。通常,这一类型才被认为是真正的多模态模型。
它和之前的多模态模型最核心的区别在于模型训练过程中,是否同时处理所有模态的数据,还是分别针对不同目标进行优化,是不同模态之间的相互串联、桥接与转化。前者是实现人工通用智能(AGI)的自然途径,因为人类就是这样一个多模态理解并交互的智能体,AI智能体最终发展的方向也应该是如此。
丨世界需要原生多模态大模型
大模型的发展从单一模态到多模态已经是不可阻挡的趋势,人工智能(AI)想要提升全面理解世界和理解「人」的能力,向通用人工智能(AGI)演进,从而真正在工作和生活中帮助人类,AI就必须能够支持并实现多种模态的感知、理解和交互,多模态能力是AI向AGI进化的核心推动力。
那么,都是「多模态」,从传统的组合多模态迭代到原生多模态是否有必要?毕竟相较于过去的组合多模态方案,原生多模态大模型的技术难度是几何倍数的提升,同时还会带来更庞大的算力资源需求。
答案当然是肯定的,面对这些困难,包括OpenAI、商汤科技在内的公司都在朝着原生多模态大模型的方向努力,大家都做难而正确的事情。
首先传统的多模态发展到现在这个阶段,缺陷已经开始逐渐暴露,不同模态在不同模型之间串联、转化的时候,会有大量的信息丢失,导致信息感知和识别可能存在误差。同时不同模型之间的协作必然存在长时间的延迟响应,用户体验并不是特别好,对于逐渐从技术走向用户的多模态大模型来说,这是必须要解决的问题。
除此之外,这一多模态实现方式高度依赖「图文成对」数据的对比学习,然而互联网原生「图文成对」数据有限,仅剩约为45%的数据尚未被利用。
更重要的是,传统的多模态模型是通过大语言模型将调用其他模型或服务,来完成多模态的输入或者输出,例如通过调用OCR(Optical Character Recognition,光学字符识别) 功能提取图片中的文本信息或者利用 ASR(Automatic Speech Recognition,自动语音识别) 模型把语音转换成文本,进而作为语言大模型的输入。这使得传统的多模态模型在具备视觉和听觉能力,然而这一阶段通常不包含多模态推理,模型性能的上限受到制约,很难成长为真正的通用人工智能。
而原生多模态大模型弥补了传统多模态模型的这些不足。作为一个「端到端」大模型,原生多模态是直接将图像、文字、语音甚至视频等多种编码集成到一个模型中,无论是输入还是输出都大大减少信息的损失,将有效提高完成任务的准确率。
在数据层面,以商汤为例,我们构建了行业领先的原生多模态交错数据集,并且首创多模态信息压缩学习,首次支持互联网尺度原生交错数据端到端预训练算法,打造了能够利用更为丰富且多样数据的原生多模态大模型。
基于以上两种能力,「日日新」最新的多模态大模型让不同模态数据映射到同一个状态空间,实现多模信息共享,多源知识协同,真正让原生多模态模型有「听说读看」各种感知能力,吸收更广泛的世界知识,增强对世界的理解,进而逐步展现多模态大模型的逻辑能力和推理能力,带来全新的人机交互体验,解决更多开放性任务,为通用人工智能时代的到来铺平道路。
当然目前的原生多模态大模型还不是终极形态,依赖模态编码器来提取原始信息的特征,各模态独立的编码器提取嵌入向量后再进行多模态混合学习,形成原生的多模态模型,,在一定程度上还是会损失信息,我们称之为「原生浅融合」。
未来,我们将会对各模态构建一个能统一做编码的词元提取器(tokenizer),以实现不同模态数据类似自然语言的统一表示和学习,从多模态跨越到「无」模态,也就是说多模态大模型直接从原始模态数据学习通用知识,让原生多模态走向统一深度融合。
丨智能汽车需要原生多模态
强大的大模型技术能力固然重要,但要真正实现有效的实际应用,还需要深入理解不同业务领域和行业的核心需求,原生多模态大模型同样如此。
GPT-4o和商汤「日日新5o」已经能够感知外部环境、人的情绪以及其他非语音信号,多模态实时交互的方式,让普通消费者领略多模态感知和交互的魅力,也开始帮助它释放商业落地的想象空间。它是一种非常自然且新颖的交互方式,也能成为一个全新的直接接触用户的超级入口。
目前来看,智能汽车是原生多模态大模型这个超级入口的最佳落地场景。依靠智能汽车内外各种常开的摄像头,用户可以实时跟汽车通过多模态的方式进行交互。同时,智能汽车的保有量不断增加,能够产生丰富的终端用户反馈和数据信息,让模型不断迭代成长。
另一方面,智能座舱目前陷入了「冰箱彩电大沙发」的内卷当中,原生多模态大模型带来的自然、舒心的交互体验或许能够为车企突围这一轮内卷开辟出一条全新的路径。
基于流式视频数据画面的理解,商汤绝影正在打造的多模态座舱大脑,能够综合多种模态的信号理解复杂场景,以及结合用户偏好和记忆数据做意图推理,推动智能汽车的人机交互从「以车为中心」向「以人为中心」转型。
具体来说,通过应用场景和用户需求驱动,以原生多模态大模型为基础的座舱大脑将能够让智能汽车高效准确地全景感知和深度理解用户需求和周围环境,并以此为核心打通不同应用,全局调用车上开放的软硬件服务,将离散的单点功能聚合在一起,从而为用户提供更多深度个性化的主动关怀和服务,让智能汽车成为你的新助手、新伙伴乃至新的家庭成员。
如今,已经有车企与商汤绝影合作,加速原生多模态大模型深度融入智能汽车,一同携手开启智慧出行的新时代。