(重磅深度)交互型多模态大模型有望带来应用的爆发起点

科技   2024-11-14 16:12   广东  

特别声明

特别声明《证券期货投资者适当性管理办法》、《证券经营机构投资者适当性管理实施指引(试行)》于2017年7月1日起正式实施。通过新媒体形式制作的本公众号推送信息仅面向西部证券的专业投资者。若您并非西部证券的专业投资者。请取消关注本公众号,不再订阅、接收或使用本公众号中的任何推送信息。因本公众号受限于访问权限的设置,若给您造成不便,烦请谅解!感谢您给予的理解与配合。


             核心结论             


· 交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是OpenAI的GPT-4o。

特点如下:1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。2)快速响应:能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断。现在GPT-4o能在短至232毫秒、平均320毫秒的时间内响应音频输入,而过去GPT-3.5平均延时为2.8秒、GPT-4为5.4秒。3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感。4)记忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。

· 交互型多模态大模型成本将降至几何?

大模型降本趋势显著。8月,OpenAI发布更强且更具性价比的GPT-4o新版本,相比5月版本价格下降超40%至$4/100万 tokens。按照这个趋势,我们预计以GPT-4o为代表的交互型多模态大模型的成本将继续快速下降,每百万tokens的推理成本或将在两年内降至美分量级。

· 交互型多模态大模型进展如何?

OpenAI与谷歌双巨头抢滩,分别发布GPT-4o和AI智能体项目Project Astra,Meta也于2024年5月发布具有原生多模态特性的Chameleon-34B。国内的大模型多处于语音交互阶段,商汤领衔发布流式多模态交互大模型“日日新5o”,智谱面向C端开放“视频通话”功能。

· 为什么交互型多模态大模型有望带来应用的爆发?

1)人类生活在一个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。2)应用是连接人类意图与信息及技术实现的媒介,其本质是交互。我们认为从PC互联网时代,到移动互联网时代,再到现在的AI时代,应用发展的核心就是人机交互的不断进化与深化。所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具有重大价值,交互型多模态大模型的出现有望推动人机交互变革——向更为简单的自然语言交互形式发展。

· 交互型多模态大模型会带来怎样的应用?

我们将交互型多模态大模型的应用分为:1)数字智能,大模型提供软件形式的服务,主要应用场景包括教育、编程、医疗健康、游戏、情感陪伴等。2)具身智能,需要硬件支持来实现三维空间内的运动行为,如人形机器人、智能家居、智能座舱等。
交互型多模态大模型商业模式展望:1)聊天助手APP。2)作为基础模型接入各类应用。3)与终端OS深度融合成为AI时代的“超级入口”。

             相关标的             


1)交互型多模态大模型:商汤-W、云从科技-UW;
2)数字智能应用:金山办公、科大讯飞、虹软科技、美图公司;
3)具身智能应用:海康威视、大华股份;
4)算力:寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。

             风险提示             


AI技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化


一、什么是交互型多模态大模型?

交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等各种模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是OpenAI的GPT-4o。GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。

交互型多模态大模型的核心在于其极强的多模态理解与生成能力,即能够融合各种类型的信息进行统一的语义、情景分析和上下文关联,从而更好地理解用户意图、实现接近人类的复杂情境理解和反应,然后生成自然流畅、富有情感的语音输出,使机器的反馈听起来像人类,增强交互的真实感。这类模型可以同时分析处理语音、手势、面部表情等多种输入方式,甚至它能感受到用户的呼吸节奏;而输出时,它能模仿人类的情感状态如喜悦、悲伤或愤怒等,然后通过调整语调、节奏和音量来表达相应的情绪,使交互过程更加人性化,且可以做到随时打断。

1.1 交互型多模态大模型应具备什么特点?

我们总结交互型多模态大模型特点如下:原生多模态、快速响应、情感表达、记忆。

1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。

在GPT-4o之前,ChatGPT会将其它模态转为单一模态处理,例如要实现语音对话功能,需三个独立模型来完成三个步骤:语音转文本 → GPT3.5/GPT-4 → 文本转语音,即首先一个简单模型将音频转录为文本,然后大模型GPT-3.5 或 GPT-4 接收文本并输出文本,最后再由另一个简单模型将该文本转换回音频。但这种方法意味着信息顺势,即这三个模型中最关键的大模型在处理时会丢失大量信息,大模型无法直接观察用户的语气、停顿、音调、背景音等等,而这些在纯文本环境中难以被准确捕捉和表达的信息对理解对话意图和情绪状态至关重要,尤其是在需要高度情境感知和互动的场景中。

原生多模态的GPT-4o则将图像、文字、语音甚至视频等多种编码集成到一个模型中。在训练过程中,这些不同模态的数据被统一输入给模型内部学习。当不同模态的信息相关且指向同一类事物时,它们的内部表征是非常相似的。在生成阶段,模型可以更加灵活地利用统一的表征进行不同模态的生成。

谷歌的Gemini也是原生多模态模型。根据Gemini论文,Gemini一开始就在不同模态上进行预训练,并利用额外的多模态数据进行微调以提升有效性,包括图像、图表、截图、PDF和视频等,并能产生文本和图像输出,所以Gemini 可以泛化并无缝理解分析不同模态信息组合起来的输入,并输出多张图像与文本交织的结果。例如,Gemini Ultra接收到用户输入的示例和问题,示例内容是当给定蓝色和黄色两种颜色毛线团时,可以织成蓝猫和黄耳朵的蓝狗。随后,Gemini被要求利用两种新颜色的毛线团——粉色和绿色,生成富有创意的建议。最后,Gemini回答可以制作一个果核为粉色的牛油果,或制作一只耳朵为粉色的绿兔子,并附上了非常贴合回答的图片。

Meta于2024年5月发布的Chameleon-34B也具有原生多模态特性,它将所有模态——图像、文本和代码等表示为离散的token,并采用统一的基于transformer的架构针对约10万亿个tokens对应的混合模态数据从头开始进行端到端训练。因此,Chameleon能够对任意混合模态文档进行推理以及生成。Chameleon的核心在于其完全token-based的架构,图像和文本都被表示为一组离散的tokens,这种设计允许模型使用统一的transformer架构来处理图像和文本序列,而不需要单独的图像或文本编码器。

2)快速响应:大模型能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断。

GPT-4o响应速度直升一个数量级,能在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致,且可以随时打断,而过去的GPT-3.5平均延时为2.8秒、GPT-4为5.4秒。

GPT-4o低延时以及随时打断特性跟端到端训练直接关联。GPT-4在进行语音识别时,需要等待用户说完一句话才能完成整句识别;识别完成后,将整句话输入到后续的大模型中生成回复;再之后才能调用语音合成模型来转换成语音。而现在GPT-o将这些功能集成到一个模型中,各部分之间的依赖性降低,因为模型内部表征已经融合在一起,所以可以更快地开始生成语音输出,而不必等待前面的所有信息都处理完毕。

简单来说,端到端大模型一般采用流式输入的方式,即在接收到部分信息时就开始处理;同时,随着对话继续进行,模型将不断地吸收新的信息,对回复进行实时调整。这种设计让大模型具备了边听边说的能力,即在用户讲话的过程中就开始准备回应,一旦用户暂停,模型可以立即给出反馈。这种机制极大地减少了响应延迟,使交互变得更加自然流畅,同时也支持用户在任何时候打断模型,因为模型总是保持着对当前对话状态的最新理解。

3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感,是增强用户粘性的关键。

GPT-4o不仅能很好地理解用户情绪,还能反馈以非常饱满的情绪,它会惊讶,会笑,会随着用户的情绪激动起来,语气中充满了细节。在发布会上,当测试者要求GPT-4o用“最戏剧性”的方式去讲故事的时候,它表现得很像话剧演员,能给故事各个情节配上合适的情绪;而在用户要求以歌声结束这个故事时,GPT-4o甚至会叹气。

在探讨大模型发展及影响时,我们往往倾向于聚焦技术层面的突破、性能的提升,然而AI除了提供实用的知识价值之外,还能够为用户带来另一种更为微妙但却至关重要的价值——情感价值。用户与技术之间的关系不仅仅只有单纯的信息层面的连接,还有情感层面的连接。对于许多用户来说,他们期望的不仅仅是高效的数据处理和信息检索,更在于技术能够以一种更加人性化的方式与之互动。

交互型多模态大模型在此方面展现出巨大的潜力,它能够通过细微的个性化调整,让用户体验到被理解和关怀的感觉,从而在用户心中建立起更强的情感纽带,我们认为这对增强用户粘性具有不可忽视的作用。用户会开始依赖大模型,因为它不仅能够快速收集整理信息,更重要的是它能够在关键时刻给予用户情感上的支持。这种情感上的联结,会让用户对AI产品的满意度和忠诚度显著提高,从而促进AI技术在各类应用中的渗透率提升、以及持续使用和发展。

4)记忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。

谷歌的交互型多模态大模型Project Astra展示了较为强大的记忆功能。在 I/O 2024 大会的演示视频中,Astra 展示了其对周围环境的快速理解和响应能力,如识别并描述物体、读取和解释代码等,当用户带着Astra走了一圈后提问“眼镜在哪”,这个问题之前没有涉及到,但摄像头扫过的时候Astra曾“看”到过眼镜,并且以视觉的形式“记”住了,所以可以快速回答出“眼镜在桌上的苹果旁边”,这个画面是大约一分钟前从摄像头中一闪而过的,但Project Astra可以通过连续编码视频帧并将视频和语音组合成事件时间线来做到这一点,然后缓存信息以供回忆。

1.2 交互型多模态大模型成本将降至几何?

大模型降本趋势显著。OpenAI发布高性价比模型GPT-4o mini,在2年内让大模型成本下降两个数量级。2024年7月19日,OpenAI推出一款新的 AI 大模型GPT-4o mini来替代GPT-3.5 Turbo。GPT-4o mini为GPT-4o的更小参数量简化版本,OpenAI宣布即日起ChatGPT 的免费用户、Plus 用户和 Team 用户都能够使用 GPT-4o mini;而下周企业版客户也将获得使用GPT-4o mini 的权限。

虽然没有公开参数信息,但OpenAI表示GPT-4o mini是目前功能最强大、性价比最高的大模型,性能逼近原版GPT-4,成本相比GPT-3.5 Turbo便宜60%以上,支持50种不同语言。目前,GPT-4o mini 现已作为文本和视觉模型在 Assistants API、Chat Completions API 和 Batch API 中提供,每 100 万个输入tokens价格为 15 美分,每100万个输出tokens价格为60 美分(大约相当于标准书籍的 2500 页)。

OpenAI CEO Sam Altman表示,两年前OpenAI最好的模型还是GPT-3的text-davinci-003版本,与GPT-4o mini相比性能差得多,但却贵100倍——也就是说大模型成本在两年内下降了99%。

从 OpenAI 分享的基准测试结果来看,GPT-4o mini在推理基准测试MMLU、数学推理和编程任务、多模态推理等测试上的表现比较出色,得分优于Gemini Flash、Claude Haiku。值得注意的是,GPT-3.5 Turbo 在这些基准测试中的得分均不如 GPT-4o mini,即GPT-4o mini更具性价比的同时也实现了性能全方位提升。

此外,OpenAI还发布了更强、更具性价比的GPT-4o新版本。在2024年5月发布会,OpenAI曾宣布GPT-4o比 GPT-4 Turbo价格便宜 50%。而仅仅3个月后,2024年8月6日,OpenAI发布GPT-4o新版本,GPT-4o-2024-08-06在ZeroEval基准测试中直接跃居首位。在价格方面,GPT-4o-2024-08-06的输入和输出价格相比前一个版本分别下降50%、33%,输入价格为2.5美元/100万tokens,输出价格为10美元/100万tokens。此外,由下图也可以看出,OpenAI旗舰版大模型的价格在1年多的时间内几乎也下降了一个数量级。

按照这个趋势,我们预计以GPT-4o为代表的交互型多模态大模型的成本将继续快速下降,每百万tokens的推理成本或将在两年内下降2个数量级至美分量级。


二、交互型多模态大模型进展如何?

2.1 海外:OpenAI与谷歌双巨头抢滩

OpenAI在2024年5月14日推出GPT-4o,能够实现跨文本、视觉和音频的多模态交互。如下图所示,GPT-4o 相比 Whisper-v3 显著提高了各种语言的语音识别性能;同时在语音翻译方面取得了新的 SOTA 水平,并且在 MLS 基准测试中优于 Whisper-v3。

根据AIwatch.ai数据,在GPT-4o发布之后,ChatGPT在5月的访问量与4月相比提升了38%。同时,ChatGPT 移动端收入在 GPT-4o 推出后出现了迄今为止最大的飙升。尽管 OpenAI 表示 GPT-4o 将免费提供给用户,但这一承诺尚未扩展到移动版 APP上(OpenAI 表示稍后将会把 GPT-4o 推广到移动设备上)。所以在第一周,移动端用户如果想尝试,需要订阅 ChatGPT Plus。根据 App figures数据,ChatGPT 移动应用程序的净收入在 GPT-4o 发布当天首次增长了 22%,并在接下来的几天继续增长,第二天净收入高达90万美元,几乎是该应用此前日均收入49万美元的两倍(主要计算谷歌商店、苹果商店);2024年5月13日至5月17日间,ChatGPT手机应用的净收入达到了420万美元,这是自ChatGPT发布以来收入增速最快的一周。

2024年5月15日,谷歌在I/O开发者大会上展示了AI 智能体项目 Project Astra。谷歌在 Gemini 的基础上开发了Project Astra原型,它可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中并缓存此信息以进行有效调用,从而更快地处理信息。而谷歌还强化了智能体的发音,为智能体提供了更广泛的语调。

2.2 国内:大模型多处于语音交互阶段,商汤智谱领衔升级视频交互功能

商汤发布国内首个流式交互多模态大模型“日日新 5o”,交互效果逼近GPT-4o。流式交互中数据或信息以连续流动的方式被处理和响应,而不是以离散的、批量的步骤进行,重要特征在于即时性和连续性,需要系统立即处理输入数据并作出响应,而不是等待数据积累到一定量后再处理。

日日新5o在实时交互体验上的优秀表现,建立在日日新5.5基础模型能力之上。日日新5.5采用的是混合端边云协同专家架构,可以最大限度发挥云边端协同,降低推理成本;数据方面,日日新5.5在模型训练上基于超过10TB tokens高质量训练数据,包括大量合成的思维链数据,语言理解和交互能力全面升级。因此,日日新5.5在数学、推理、编程等多个维度较上个版本具有较大的提升,尤其是在数学推理(+31.5%)、英文理解(+53.8%)、指令跟随(+26.8%)等核心指标方面。

日日新5o是国内首个“所见即所得”模型,通过整合声音、文本、图像和视频等跨模态信息,可以实现场景分析、物体信息描述、书籍图文总结等功能。日日新5o可以跟人进行流畅的视频交互——能听、能说、能看、无延时,能通过摄像头+语音实现和用户的实时交互,并获知用户所在的真实场景下的各种状态信息,打破了与AI交互的次元壁。

日日新5o能实现较为自然流畅的交互,但存在一定的延迟;语言风格大方幽默,符合人类的交流习惯日日新5o可以通过手机摄像头与外界交互,实时回答使用者问题。例如,对准桌子上的小狗玩偶时,日日新5o可以认出玩偶的形状,并且识别出帽子上的字符,同时分析小狗的表情;在户外,日日新5o可以识别建筑和其周边环境并对进行特征描述,它还可以准确地判断天气情况,反馈给使用者。日日新5o还可以利用已有的数据信息,对镜头识别的内容进行科普介绍,例如在演示中日日新5o识别出演示者给出的书籍名称,且能对其内容做简介。此外,日日新5o还可以识别演示者绘制的简笔画形状和表情。

智谱宣布清言 app 迎来“视频通话”功能,成为国内首个面向 C 端开放的视频通话功能。智谱宣布于2024年8 月 30 日在清言APP中上线视频通话功能,首批面向清言部分用户开放,同时开放外部申请。清言视频通话功能跨越文本、音频和视频等模态,并具备实时推理的能力。用户打开清言的视频通话窗口,即可与它进行流畅通话,即便频繁打断,它也能迅速反应。且打开摄像头,清言也可以“看”到的外界画面,同时可以听懂用户指令并准确执行。

目前豆包、通义千问、文心一言等国内大模型可以做到和AI“打电话”,但基本是通过语音转文字、大模型生成文字回答、最后文字转语音来实现,所以交互并不流畅,且延时较长;此外,大模型语音回答内容较为机械和模式化,同时无法通过对话打断回答,必须点击按钮,影响互动体验。


三、为什么交互型多模态大模型有望带来应用的爆发?

3.1 视觉是获取外部信息最主要的途径,多模态更符合人类感知的方式

模态是指承载信息的模式或方式,不同类别的信息来源或形式都可以称为一种模态。模态基于人的感官可分为听觉、视觉、嗅觉、味觉、触觉,基于信息传递的媒介可分为图像、语音、视频、文本等,除此之外还有传感器的模态数据,如雷达、红外、GPS、加速度计等各种模态数据。

人类在进化过程中形成了以视觉为主的感知系统,我们获得的外界信息绝大部分来自视觉。从感知偏好来看,人类大脑对视觉信息的处理能力尤为强大,能够迅速捕捉并解析复杂的图像和视频中的细节,所以在自然交流和信息传播中,视觉内容是极其高效和直观的载体。从信息传达角度,图片和视频相比纯文本,往往能承载更丰富、更密集的信息,一个画面能够捕捉并传达多层次的细节和情感,远超于文字所能描述的内容,这些都能极大地增强信息的表达力和理解深度。

在这个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。多模态理解大模型可以让用户使用文本、图像、声音、视频、传感等多种数据类型与终端进行交流,大大拓展了用户同终端的交互形式。多模态生成大模型能够生成各种跨媒体内容,为用户提供更为直观的信息表达,从而实现更加高效丰富的沟通体验,其实这也为更多样性的终端硬件形态如穿戴设备、机器人等提供了更有力的支撑。

此外,我们认为AI融入生活的核心之一在于情感上更接近人类,语音+视频呈现的实时多模态交互效果,是迈向这一目标的重要一步。因为从理解用户的角度来看,首先通过结合语音和视频分析,AI可以更好地理解用户的意图和情绪,例如当用户语调轻快,但其面部表情很凝重时,AI需要综合判断来确定最合适的回应,而这种复杂情境下的理解能力是AI向人性化迈进的重要标志。此外,多模态交互使得AI能够根据用户的独特反应和偏好进行个性化调整,例如AI可以注意到用户在解释问题时常常伴有特定的手势,它可能会学习到这些手势的含义,并在未来类似的情境中快速做出合适的回应。

3.2 应用发展的核心就是人机交互模式的升级

应用是连接人类意图与信息及技术实现的媒介,其本质是交互——用户通过应用表达需求,应用通过寻找信息和调用相应技术来理解和实现用户的意图,形成一个闭环的交互过程。应用作为一个中介,不仅仅是一个静态的工具,而是一个动态的、可以交互的系统,它需要接收、处理用户输入,并与后端技术(如数据库等)进行交互,最终给出用户所需的结果或服务。无论是桌面软件、网页服务还是移动APP ,应用通过直观的界面设计、流畅的操作逻辑、及时的反馈机制,搭建了人与数字世界交互的桥梁。

我们平时通过点击、说话等方式将大脑中的信息指令通过鼠标、键盘、触摸屏等媒介,传递到硬件系统再到软件系统,然后软件系统进行处理。后续处理结果会通过显示器、音箱等反馈给我们,这就是一个完整的人机交互过程。

过往每一次人机交互的重大革新都孕育了行业巨头,并深刻改变了人们的生活方式和商业格局。1940-1960年代,早期的计算机通过穿孔纸向计算机输入指令,有孔为1,无孔为0,经过光电输入机将数据输入计算机。由于需要输入二进制的机器语言,计算机在这个阶段只被少数专家应用于专业领域。

20世纪60年代中期,命令行界面(CLI)作为穿孔纸带的友好替代方案出现在计算机上,通过输入被称为命令行的文本行与计算机程序交互。

20世纪80年代初,苹果公司推出的Lisa和Macintosh电脑首次普及了图形用户界面,随后微软在1985年发布了第一个版本的Windows操作系统。图形用户界面的出现极大地简化了用户与计算机之间的交互,不再需要复杂的命令行输入,而是通过直观的图标、菜单和鼠标点击来操作。这一革新不仅让个人电脑变得更加用户友好,也催生了微软这样的科技巨头,Windows操作系统成为了PC时代的标准配置,彻底改变了软件开发和用户界面设计的范式。

2007年,苹果公司推出了第一代iPhone,凭借其革命性的触摸屏和多点触控技术,重新定义了手机,也开创了移动互联网时代,带动了App经济的爆发,使得智能手机成为了21世纪最重要的个人计算设备之一。

比尔·盖茨2023年曾发表标题为《AI即将彻底改变人们使用计算机的方式——并颠覆软件行业》的文章,并称“AI Agent不仅会改变每个人与计算机的交互方式,还将颠覆软件行业,引领我们从键入命令到点击图标以来计算机领域最大的革命”。他认为:AI Agent将成为下一个平台。未来用户只需用日常语言告诉设备想要做什么,基于获取的信息和对用户生活的丰富了解,软件能够做出个性化的回应。在不久的将来,任何网民都能拥有一个远超今天技术水平的人工智能助手。

我们认为从PC互联网时代,到移动互联网时代,再到现在的AI时代,应用发展的核心就是人机交互的不断进化与深化。人机交互的核心点之一为信息传递,从外设主导到触控技术,再到自然语言处理,人机交互的发展一直在努力简化信息传递过程,使其更加直观、自然和无缝。每一次技术迭代都致力于减少用户与技术之间的隔阂,让信息的交换更加高效和人性化。

· 在PC互联网时代,主要依赖键盘和鼠标等外设进行操作。图形用户界面(GUI)的出现,简化信息传递过程,用户可以通过点击图标、拖放文件、使用下拉菜单等方式进行操作,无需记住复杂的命令序列。这一转变极大地降低了学习门槛,使得信息传递过程更加直观和用户友好。但用户仍需要学习并遵循特定的应用界面布局、菜单结构和操作规则来实现需求。
· 随着移动互联网时代的到来,多点触控技术成为主流。用户可以直接在屏幕上通过触摸、滑动、捏合等手势来操作,这一方式更接近于人类在现实生活中的交互习惯。触控技术使得信息传递无需通过额外的物理设备,减少了中间环节,用户可以直接与内容互动,信息传递过程变得更加快速、高效和自然。例如,智能手机和平板电脑上的多点触控操作,让用户可以轻松放大图片、翻页阅读、播放音乐等,无需复杂的按键组合,信息传递的效率和设备易用性大大提高。然而,尽管触摸屏简化了一些操作步骤,但用户仍然需要理解和记忆各种应用程序的操作逻辑。
· AI时代,交互型多模态大模型的出现有望推动人机交互向更为简单的自然语言交互形式发展,具体为以语音交互为主的包含语音、手势、触感和空间计算等在内的全模态交互。大模型积累了海量的“陈述性知识”,并且在规模、复杂性处理、上下文理解、多任务学习、生成能力、知识整合和自我监督学习等方面,比早期的AI能力有显著提升,从而增强了推理“程序性知识”的能力,让大模型在处理复杂问题、提供智能服务方面具有显著优势。

终端本身就融合了多种感知通道,录音机、摄像头等传感器作为重要输入源提供多维数据,且不同于传统的关键词匹配,大模型结合上下文进行分析,这意味着它可以在连续的对话中保持话题连贯、把握整体脉络,这让大模型对用户意图拥有较强的理解能力。同时,大模型在回答时能从知识库中提炼出有价值的信息,并能够根据用户的具体需求和上下文背景,提供定制化的答案或建议;且当大模型与应用深度结合之后,它根据用户的指令或需求,自动调用相应的应用程序、服务或界面等

未来AI有望推动人机交互走向更简单的模式,彼时用户不再需要遵循特定的格式或命令,而是直接用自然语言与设备沟通。不再受限于固定的界面规则的交互将变得更加自然和人性化。

所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具有重大价值,商汤CEO徐立认为“行业要变化,交互模式一定是先行的”,交互的升级是加速大模型超级时刻到来以及超级应用出现的核心。钉钉总裁叶军认为,在AI时代,产品的交互界面正在从GUI走向LUI(Language User Interface,自然语言用户界面),并向多模态交互演进。过往的应用设计理念都是希望人去学习软件或机器设备的交互界面。AI时代,设计理念走向了一个全新的方向,就是让软件系统或设备来理解人。这个变化意味着用户不应该去参加使用培训,甚至也不需要产品说明书,通过多模态(文字,图片,语音,视频,气味等)的交互方式,产品会主动理解使用者的意图和需求。

大模型的终极形态,是让人机交互进化到最原始、最简单的形态,在未来和电脑、手机等直接说话交流或许就是最主要的交互方式。交互模式的简化,会极大降低AI的使用门槛,所以交互型多模态大模型带来的这种更加直观、傻瓜的交互,有望带来大模型应用更大面积的普及。


四、交互型多模态大模型会带来怎样的应用?

我们将AI的应用分为两大类:数字智能和具身智能。数字智能主要通过处理数据和信息来提供服务,即可简单理解为大模型通过手机、电脑等终端以智能助手形式直接与用户互动,提供软件形式的服务。具身智能则与物理环境交互,需要硬件支持来实现三维空间内的运动行为,其中人形机器人是其代表,在应用领域方面,具身智能已经渗透到机器人、智能座舱、智能家居等多个领域。

4.1 交互型多模态大模型在“数字智能”中的应用

4.1.1 教育

规模化和标准化是现代教育的特征——基于社会分工的逻辑,旨在为社会各行各业的发展培养可用之才。与此相对应的,便是分专业的学科式架构、分级分班的规模化教学。AIGC技术应用下,大规模的通用数据与教育各学科的垂类数据并存,通识教育和专业教育所需的内容均可满足。同时,AIGC资源不像教师资源具有时空上的独占性,有望实现大规模的个性化教学。

而在交互方式上,口语面授是主流的、学生习以为常的教学交互方式,而AIGC技术的独特之处也在于多轮自然语言交互能力,有来有回的问答式相比于知识的单向灌输,更接近孔子《论语》的对话体教学,也更接近苏格拉底的启发式对话教学模式。

在判别式AI技术下,学生在口语练习时常常存在对话简单、场景受限、难以多轮交互、个性化不足等问题。AIGC技术应用后,大模型参数的扩大、预训练架构的使用等,使得原本单向播报和简单问答的功能进一步拓展了多轮对话、逻辑推理、上下文理解能力。其次,基于新数据生成而非识别分类的逻辑,AIGC产品可应对的场景和任务范围更加广泛,可以满足用户对细分场景的需求。而交互能力的升级,会让教学时的对话过程更加流畅,从而提高对话效率和质量。

2023年,OpenAI的GPT-4在Khan Academy和Duolingo的应用中,推动了教育领域的创新。Khan Academy推出了Khanmigo AI助手,通过解答开放式问题,增强了学生对编程等课程内容的理解,提升了互动性和个性化水平。

同时,Duolingo在2023年3月推出了“Duolingo Max”,引入了基于GPT-4的Role Play和Explain My Answer功能。Role Play功能通过模拟对话帮助用户练习语言技能,并提供即时反馈。Explain My Answer功能则在用户语法出错时提供详细的解释和指导,辅助学习。这些功能模仿人类导师,提升了学习体验。随着GPT-4o的推出,AI教师的能力有望大幅提高,我们认为GPT-4o的实时互动能力对于教育领域尤其关键,能够适应学生多样化需求,使学习过程更加生动,互动更流畅,教学更具针对性,用户的学习兴趣和学习效率有望提升,对AI的付费有意愿有望增强。

交互型多模态大模型或将进一步释放大模型在家庭教育中的潜力。OpenAI官方公布的视频演示中,GPT-4o通过iPad屏幕分享,实时语音指导,帮助一个学生解答数学题。在GPT-4o的耐心引导下,男孩一步步推导出正确答案,体验堪比一对一的在线辅导。同时,GPT-4o的图像处理能力也在教育领域得到了有效应用。在OpenAI春季发布会演示中,面对实验者提出的线性代数题目"3x+1=4",GPT-4o展现了其引导解题的能力,只提供解题思路而不直接给出答案,帮助测试者独立解决了问题。

交互型多模态大模型还可以作为语言学习与职业技能提升的先进工具,其功能涵盖了多语言翻译、模拟面试等多个方面,随时随地为用户提供辅导。凭借图像识别技术与多种语言储备,交互型多模态大模型可以帮助用户在日常生活中学习外语,高效便捷且增强了语言学习的互动性和趣味性。同时,GPT-4o的同声传译功能打破了语言障碍,促进了全球范围内的沟通与交流。此外,通过模拟面试场景,它帮助用户磨练面试技巧,提高职业竞争力。

2024年5月底,OpenAI宣布了ChatGPT Edu的发布计划,这是一款专为高校设计的ChatGPT版本,旨在协助学校负责任地部署人工智能技术。该版本包含了最新的GPT-4o模型,支持跨文本、音频和视觉的推理,并具备强大的管理控制与数据安全特性。亚利桑那州立大学(ASU)等机构已经在利用ChatGPT Enterprise推进教育创新,如开发AI助教、交通管理系统和新闻制作项目,展现了AI在提升教学、研究及业务运作方面的潜力。ChatGPT Edu的推出将进一步促进教育领域的AI应用,如哥伦比亚大学将AI融入社区战略减少药物过量致死、沃顿商学院用其加深学生学习反思、ASU开发语言学习伙伴等。

大模型、多模态交互、Agent规划和具身智能行动的融合,将解决个性化教学、数据分析、课件生成、作业批改等问题,同时,具身智能机器人能够在物理世界中与学生建立情感联结,起到教学陪伴与激励作用。AIGC技术的外化与硬件化,是技术发展的必经之路。通过软件与硬件的结合,AIGC技术将更好地发挥其在教育领域的优势,为学生提供更加丰富、个性化的学习体验。

4.1.2 编程

AI工具正在被软件开发人员广泛采用。2023 年的一项针对软件开发人员使用 AI 工具的调研( 2023 Developer Survey)表明,77% 的受访者对集成 AI 的开发工具表示支持和非常支持,并且,82.6% 的人表示经常使用 AI 来编写代码,48.9% 的人用于调试和协助,34.4% 的人用于文档编写,23.9% 的人使用 AI 进行代码测试。

AI编程助手正迅速成为全球软件开发的关键力量,国内外企业均在这一领域取得了显著进展。国外起步较早,以微软和OpenAI合作推出的GitHub Copilot为代表,通过深度学习技术,为编程人员提供高效的代码生成与补全服务,确立了其在智能研发工具中的领先地位。国内虽然起步稍晚,但紧随其后,随着2023年大模型技术的突破,国内头部AI企业如阿里巴巴、科大讯飞和百度,纷纷推出了基于自家大模型的编码助手产品,展现了在AI领域的快速创新和应用能力。

GPT-4o在代码优化领域的应用表现卓越,它能读懂电脑屏幕,能够深入分析代码,然后用自然语言实时指导用户进行代码调整,大幅帮助用户提升开发效率和质量。在科技活动VivaTech的现场演示中,OpenAI 的开发者体验负责人 Romain Huet使用GPT-4o加持的ChatGPT Mac版演示了代码阅读、debug和优化等过程。

Huet首先让ChatGPT描述了一段代码的功能,该代码是用于渲染Discover卡片组件的React组件,数据来源于trips.json文件。随后,Huet请求ChatGPT帮助提高页面的响应性。ChatGPT建议使用Tailwind CSS的响应式设计特性,根据屏幕大小调整网格列数,并提供了具体的设置方法。Huet询问了具体的属性设置,ChatGPT给出了详细的指导,包括如何根据不同屏幕尺寸设置列数。最后,GPT-4o利用其多模态能力,亲自检查并确认了改动的有效性。整个演示展示了GPT-4o在编码问题上的强大实时处理能力,以及其生成文本的速度优势,相较于GPT-4 Turbo有显著提升。

6月25日,OpenAI宣布收购远程协作平台初创公司Multi,这次交易属于收购兼招聘,既整合技术也整合员工,被收购初创公司的成员将在交易完成后加入OpenAI。Multi成立于2019年,公司主要产品是多人协作应用程序,允许团队成员共享光标、绘图和键盘控制等,优势在于代码协作。Multi支持最多10人同时跨屏幕协作,通过独立光标,可以对已打开的应用程序进行绘制和标注,甚至将各自不同的应用程序视图融合成一个共享视图,而Multi的技术或许可以帮助OpenAI实现未来多AI Agent调用并与用户协同工作的效果,比如AI与用户一起编程。

4.1.3 医疗健康

OpenAI与Be My Eyes合作,为视障人士提供实时视觉辅助,GPT-4o成为盲人的“眼睛”。在OpenAI给出的示例中, GPT-4o给一位视障人士讲解了建筑物和国旗上的国徽,描述了湖边鸭子的活动,展示了AI在辅助视障人士感知世界方面的潜力;最后,GPT-4o还帮助盲人成功坐上了回家的出租车。

OpenAI关注大模型在医疗领域的应用,一直与不同合作伙伴在不同医疗健康领域进行应用实践。从提高工作效率到改善患者体验,再到提供个性化服务和降低成本等,人工智能正在成为医疗行业的重要推动力。

未来AIGC将贯穿医疗服务全流程。AIGC能够更好地处理包括文本、图像、声音在内的多种数据类型,适用于不同的医疗场景,例如可以快速生成医疗报告、病例摘要等文本内容提高医生的工作效率。并且利用出色的语言能力,整合和分析大量医学文献和临床数据,为医生提供决策支持。生成易懂的医疗健康教育内容,帮助患者更好地理解疾病和治疗方案等。

我们认为交互型多模态大模型的集成有望为患者提供更加个性化、高效和针对性的医疗健康相关服务,可能将在这几个方面发挥较大的作用:

1)智能导诊助手:通过自然语言交互理解患者的症状描述,推荐合适的科室和医生,并协助完成在线预约;同时,可以分析患者的面部表情和语气,判断情绪状态,提供适当的心理安抚。

2)健康顾问:可以给用户提供疾病信息、药物用法、饮食建议等,同时可以通过多模态交互全方位了解用户健康状态,然后提供准确、及时的健康指导。而针对需要物理治疗或康复训练的用户,健康顾问可以利用虚拟现实技术,提供定制化康复计划,监测患者的运动执行情况,及时调整训练强度,确保康复过程的安全和有效。

3)情感支持助手:识别普通用户情绪变化,提供适时的情感支持和心理辅导。而面对患者,除了倾听、鼓励和建议,还可以再必要时引导患者联系心理健康专家,帮助其应对精神健康挑战。

4)无障碍导航助手:利用语音指令和实时位置数据,为视障用户提供清晰的路线指导,避开障碍物,确保安全地到达目的地。它还可以集成交通信息,提供更全面的出行解决方案。

5)远程监护助手:适用于老年人或慢性病患者,可以远程监控状态和生命体征(如心率、血氧水平)等,并在检测到异常时立即通知医生或家属。

4.1.4 办公

AI未来将成为关键的生产力工具,有望深度融入办公场景。微软和领英的《2024 Work Trend Index Annual Report》报告显示,全球员工不仅期望在工作中应用AI,而且愿意主动采用AI来提升个人职业发展。AI的普及正打破职业发展的限制,同时,高级AI用户的出现预示着未来工作的新趋势。

交互型多模态大模型能够充当会议助手,记录并总结要点,且可以区分参会人声音。当进行视频会议时,它能够全面记录并整理视频会议内容,自动生成包含重点标记的会议记录,同时记住各个参会人的观点。它还能在讨论中提供即时回顾,帮助参与者迅速找回被打断前的讨论点和重点内容,确保会议的流畅性和信息的准确性。

4.1.5 游戏

2023年,AI已成为游戏工作室工作流程中的常规部分,62%的工作室利用AI进行原型制作、概念设计和资产创建。在Unity的数据中,有71%工作室表示,AI 改善了他们的交付和运营,37%的受访开发者表示正在通过AI加快编码速度,36%的开发者用其生成艺术作品和游戏关卡。在国内,伽马数据发布的《中国游戏产业新质生产力发展报告》显示,现阶段中国游戏营收TOP50企业中,在人工智能、数字孪生、引擎开发、云技术和XR等新质生产力关联领域有所布局的企业占近八成。在调研的游戏从业者中,超97%游戏从业者表示企业技术研究投入有所增加,其中技术投入显著提升(中、大幅)的占比达到七成。

当前,AI技术在辅助游戏研发方面扮演着关键角色,它通过生成图像、音乐、配音及剧情和代码,显著降低了开发成本并提高了创意效率。游戏研发团队的策划、美术和程序等职能领域都在通过AI技术实现自动化和优化,从而减轻工作量并提升产品质量。此外AI在用户设备上运行的能力,为开发人员和创意工作者提供了强大的工具和平台。

在玩家体验方面,交互型多模态大模型驱动的AI NPC或将成为游戏行业一次重大革新。玩家和NPC之间的互动是游戏体验的一个关键方面。传统的交互范式基本都是一维的,NPC以预设的方式对玩家的输入做出反应。这种限制让更有机、更丰富的互动的潜力没有得到释放。在目前的游戏系统中,非玩家角色(NPC)的行为主要由开发人员编写的预定义脚本决定。这些脚本包含基于游戏环境中各种触发器或玩家动作的一系列反应和交互。然而,这种脚本化的性质通常会导致可预测或重复的NPC行为,这些行为无法响应玩家的实时行为或游戏的动态环境,很多时候会阻碍用户的沉浸式体验。

而大模型有望改变这一范式,AI可以让NPC学习玩家行为,适应更多元的策略,具有自主性和适应性。AI NPC将变得更加“类人”,更了解玩家,从而输出更符合情境的内容,让玩家与NPC的交互更为自然。不仅可以降低用户生成内容(UGC)的成本,还激发了创新,避免了内容同质化,尤其在依赖自然语言对话的游戏中,AI驱动的玩法具有独特的吸引力。

2024年,Inworld AI进行了一项名为《AI NPC在未来游戏开发中的角色》的调查,共有来自美国、英国、日本、韩国、香港和新加坡的游戏工作室的524位专业人士参与。报告显示,56%的受访者认为AI NPC将带来超过40%的投资回报率,近3/4的游戏开发者对AI NPC充满热情。

Inworld AI与微软合作,通过结合GPT和其他大模型、音频模型及30多个机器学习模型,开发了多模态的“角色引擎”。这个引擎旨在模拟人脑,打造复杂的AI角色。Inworld Studio作为一个AI虚拟角色生成平台,允许用户和开发者通过自然语言输入,无需编写代码,即可迅速构建并部署NPC到游戏或应用中。国内游戏大厂也在AI领域积极布局。腾讯自2016年起便成立了AI Lab工作室,开发了决策智能AI“绝悟”和棋牌类AI“绝艺”,并在多类型游戏中取得了领先研究成果。网易在2017年成立了伏羲工作室与AI Lab,其《逆水寒手游》中应用了AI NPC、AI捏脸等自研技术,展示了AI技术在游戏开发中的多样化应用。

4.1.6 情感陪伴

随着AI技术的发展,情感陪伴产品应运而生,它们通过个性化虚拟人物,满足用户的社交聊天需求,丰富了用户的情感体验。这些产品不仅拓宽了智能助手的应用范围,也为人们提供了一种新的社交和情感交流方式。

GPT-4o以其先进的情感交互和场景理解能力,在发布会上展示了其多样化的智能应用。OpenAI 研究主管 Barret Zoph 展示了如何在语音模式下实时让 GPT-4o 判断自己的心情;同时,GPT-4o还能在用户分享宠物时表现出亲切的赞赏,以及通过手机摄像头识别出庆祝生日的场景,并在确认后提供情感丰富的反应和唱出生日快乐歌。GPT-4o甚至能在用户需要时唱摇篮曲,帮助安抚情绪。

2024年3月,a16z发布的TOP 50 AI网页产品中发布的榜单中,AI伴侣赛道呈现出惊人的增长势头。有8家(Candy.ai、Character.ai、Chub.ai、Crushon AI、DreamGF、JanitorAI、Spicychat、Yodayo)进入TOP 50 AI网页产品榜单,2家进(Character.AI、Poly.AI)入新设立的TOP 50 AI移动App产品榜单。这一趋势表明,AI情感陪伴产品已经受到全球范围内的广泛关注。从呈现形式来看,国内产品偏向APP和小程序,海外产品偏向APP和网页。

在国内市场,字节跳动通过话炉平台加强了情感陪伴产品的内容和娱乐性。与此同时,其他领先的大模型厂商,如月之暗面、Minimax和阶跃星辰,也在积极推进自己的AI情感陪伴产品,各展所长,进一步拓展市场。这些产品不仅丰富了用户的情感生活,也体现了AI技术在模拟人类情感交流方面的潜力和创新。

4.2 交互型多模态大模型在“具身智能”领域应用

4.2.1 人形机器人

人形机器人,作为AI技术与高端制造业的结合体,不仅具有高通用性,能适应人类社会基础设施,还因其性价比和广泛应用前景而备受瞩目。大模型等技术进步正推动人形机器人的泛化能力和自然语言交互能力快速发展。据高工产业研究院(GGII)预测,2026年全球人形机器人在服务机器人中的渗透率有望达到3.5%,市场规模超20亿美元,到2030年,全球市场规模有望突破200亿美元。

OpenAI与Figure AI的合作是大模型作为机器人“大脑”的范本。Figure AI在2024年2月底获得包括亚马逊创始人贝索斯、英伟达、OpenAI和微软在内的投资者6.75亿美元融资后,公司估值达到26亿美元。此次合作将使Figure利用OpenAI的GPT模型开发专有AI系统,提升机器人的交流、观察和任务完成能力,同时借助微软Azure云服务构建AI基础设施和数据存储。紧接着,在3月13日,Figure与OpenAI共同推出了集成先进视觉和语言理解技术的Figure 01机器人,它能够自主完成递送和清理等任务,标志着人形机器人技术的新里程碑。

Figure 01背后的多模态大模型技术,为机器人与人类的互动提供了更多可能性,标志着人工智能技术在机器人领域的快速发展。如下图所示,Figure AI用机器人摄像头采集的视频信息,并结合麦克风捕获的语音转录文本,输入到OpenAI提供的多模态大模型中,实现对图像和文本的深入理解,进一步丰富了人形机器人的应用场景和功能。

交互型多模态大模型有望给人形机器人带来交互效率和情感智能方面的重大飞跃。凭借端到端原生多模态模型以及更强的交互能力,人形机器人可以同时处理语音、面部表情、手势等多种输入信号,迅速识别和理解用户的意图,减少等待时间,提高响应速度,展现出接近人类反应速度的敏捷性,同时,它们的情感识别能力将得到显著提升,能够细致区分和响应不同对话者的情绪状态,提供更加精准和贴心的语言反馈。

4.2.2 智能座舱

智能座舱集成了传感器、控制器、显示和通讯终端,以及云服务和网络技术,实现人车智能交互。它们不仅提供信息娱乐和安全提醒,还通过万物互联技术,为驾乘者打造个性化和舒适的体验。随着技术的进步,智能座舱的交互方式正从传统物理操作演变为语音、手势、面部识别等更自然的交互形式。

在2024的高工智能汽车开发者大会上,理想汽车的李娟指出,智能座舱技术已迈入3.0时代。这一时代的座舱特点包括基于先进大模型的智能语音助手、结合语音和视觉的多模态交互方式,以及多屏联动和设备间的互联互通。李娟预测,AI智能座舱的未来趋势将是硬件发展从同质化走向标准化,用户界面(UI)设计将从预定义转变为生成式,更灵活和个性化,同时AI技术将从通用模型发展为更贴合用户需求的专属助手。

随着大模型在多种场景中的适用性日益增强,市场对统一管理座舱功能的智能体需求日益增长。2024年,蔚来、理想、合众汽车等主机厂相继推出了Agent框架,以语音助手为切入点,实现座舱内功能应用的统一管理。Agent服务框架的推出,不仅统一了座舱功能,还根据客户需求和喜好提供了丰富的场景模式,尤其是支持用户定制化场景,加速了座舱个性化时代的到来。

在2024 WAIC上,商汤绝影在行业率先实现原生多模态大模型的车端部署,并展示了在3个不同算力平台上运行2.1B或8B端侧多模态大模型的适配能力。相较于云上部署方案,商汤绝影车载端侧8B多模态模型可以实现首包延迟低至300毫秒以内,推理速度40Tokens/秒,并且能够覆盖主流算力平台。同时,商汤绝影推出的“随心界面”FlexInterface和“随意操控”AgentFlow等车载AI Agent,进一步改变了用户与车载系统的交互方式。依托于 AI 大模型的即时生成和修改交互界面的能力,FlexInterface在大模型解析用户需求的基础上,结合设计系统的框架和范式,实现高度动态和个性化的界面生成。在WAIC 2024演示现场,演示者通过语音指令要求创建一幅以欧洲杯为主题的壁纸,FlexInterface成功地执行了这一任务。此外,如果需要对壁纸进行修改,FlexInterface也能够生成一个更新的版本。

AgentFlow 通过大模型的推理能力,模拟人类点击操作,实现对APP和网站的直接操作。用户只需使用自然语言,就能让AI自主选择多个工具完成复杂任务,无需主机厂进行额外的研发适配。例如,用户能让AgentFlow自动搜索并预约适合看球的酒吧,提供从搜索到预订的一站式服务。

此外,交互型多模态大模型可以直接将视觉感知结果输入神经网络,提供更丰富的信息细节,从而实现对车辆环境的精准分层和分类。这使自动驾驶系统在处理驾驶动作时进行更好的任务优先级排序,保持最优驾驶决策逻辑,更符合人类驾驶思维。此外,这种模型可能通过推理加速和降低时延,帮助实时感知道路环境,及时分析周围障碍物信息和交通参与者意图,进而可能提高低速自动驾驶的安全性。

4.2.3 智能家居

随着AI技术的不断进步,家电产业正在经历一场革命性的变革。扫地机器人和智能摄像头等传统决策式AI产品已经成熟,但随着生成式AI大模型的引入,智能家居产品的用户体验将迎来颠覆性的变化。这种高级别的智能化体验,预计将成为未来智能家居产品的一个必要属性,对消费者的购买决策产生显著影响。

智能家居市场的增长速度在整个行业中是少数保持高增速的领域之一。根据Statista的数据,预计到2028年,国内智能家居市场规模将达到520亿美元。这一增长趋势得益于AI技术的逐步融合和应用。

交互型多模态大模型的嵌入将使智能家电具备更高级的语音交互能力。这能够更准确地识别消费者需求,控制智能家居设备,甚至提供情感陪护和辅导孩子作业的功能。尽管存在方言和口语识别等技术挑战,但GPT-4o等新模型的出现预示着技术的进步。未来,全模态AI将通过语音、手势和面部表情的自然交互,控制家电,使家庭生活更便捷、更富有互动性。

在这一背景下,国内外的家电企业已经开始积极探索AI技术的应用。海信在AWE大会上推出了星海中文大模型,TCL则在其空调产品中集成了超省电AI大数据模型算法,而奥克斯则将智能语音大模型技术应用于其空调产品,提升了用户体验。此外,华为在HDC开发者大会上展示了与盘古大模型合作的成果——添可智能料理机。这款料理机采用了基于盘古大模型5.0的AI数字菜谱技术,能够根据用户的饮食习惯生成个性化的烹饪方案。

6月27日,在2024 ECDC萤石云开发者大会上,萤石网络正式发布了面向物联场景的具身智能大模型“蓝海大模型”。与互联网大模型相比,蓝海大模型基于“人、物、环境和知识”四个维度衍生,全面覆盖了从设备感知到设备执行的完整链路,具有历史记忆能力,可以接入多种多样的设备,可以同时处理声音、图像、视频、文字等不同模态,可以精确感知、识别与理解世界,并自主规划指导设备做出响应,可以提供从基础事件感知,对话式设备交互,直到具身式交互的能力,实现与物理世界的全方位交互。

萤石蓝海大模型是跨空间,也跨时间的具身智能。通过端云联动交互,它能够联动分布在物理空间的不同位置的各种设备,来构建完整的具身智能能力;然后基于用户的历史习惯,为用户提供全流程的服务。比如,在用户离开办公室的时候,就已经提前打开家里的空调,让用户一到家就能感受最习惯最舒适的温度。

商汤也宣布旗下元萝卜光翼灯接入商汤商量大模型。在2024 WAIC现场演示中,元萝卜分别用陕西话和上海话介绍上海全球人工智能大会。这款灯具通过AI内容创作激发用户写作灵感,无论是中文作文还是英语写作,都能提供构思和技巧上的指导。它还具备丰富的百科知识库,满足用户随时的学习和查询需求。作为AI学科辅导老师,光翼灯为学习者提供专业的学科支持。此外,它支持多语言对话,包括普通话、粤语、上海话和英文,实现AI全程在线陪伴,并通过语言过滤确保交流的纯净性。这些创新使得光翼灯在提升用户体验的同时,成为学习、创作和语言交流的强大辅助工具。


五、交互型多模态大模型未来形态

5.1 交互先行,端侧AI发展有望加速

交互型多模态大模型是AI发展过程中的又一个重要里程碑,打破了传统模型在单一数据类型上的局限性,开创了一种更智能的交互方式。

我们认为未来交互型多模态大模型将深度集成于端侧设备,特别是当下作为人们获取信息的主要设备——手机上。而手机具有海量用户,且用户群体具有高粘性,一旦对AI产生依赖,大模型在各类功能、服务中的渗透有望加速。

1)交互型多模态大模型有望和手机上各类APP深度集成,在我们前文所述的教育、社交、游戏、医疗健康等各类场景中发挥作用。

2)交互型多模态大模型将深度融合在手机OS中。交互型多模态大模型能够深度理解用户需求,可以接收用户的自然语言指令或根据用户所处环境调取即时、合适的服务,例如驾车时主动开启免提通话并打开导航。甚至未来,大模型可以作为中心枢纽,连接各种生态服务,如支付、健康监测、交通导航和在线购物,形成一个完整的智能生活圈。

同时,交互型多模态大模型与PC结合,有望大幅提升企业的生产力和创造力,甚至可能创造全新的工作和创作方式。交互型多模态大模型综合处理视觉、听觉以及文本信息,形成了一个全方位的认知系统,它作为AI助手,能够实时观察屏幕上显示的内容,无论是文档、图像还是视频,并且可以迅速捕捉并解析其中的信息。这种能力使得它能够和用户进行更为自然和流畅的沟通,不再局限于简单的问答形式,而是能够参与到更复杂的对话中,理解用户的意图,提供更具针对性的建议,甚至还可以预测下一步的需求。

长远来看,随着大模型进一步发展,它将具备与用户协同工作的能力,不仅能理解人类的行为和需求,还能主动参与工作流程,协助完成任务。例如,在设计领域,AI可以根据用户提供的草图或概念,自动补充细节,优化布局,甚至提出创新的设计理念;在编程场景下,AI可以识别代码中的错误,主动修复,或是自动生成某些功能模块,大大减轻开发者的负担。

5.2 交互型多模态大模型商业模式

1)作为聊天助手APP

以交互型多模态大模型为底座的聊天助手APP,包含免费的基础功能以及需要订阅的高级功能,类似于现在ChatGPT。

2)作为基础模型接入各类应用

交互型多模态大模型作为一种基础服务,通过API接口的形式提供给其他应用程序和开发者使用,通常根据token数量计费。这种模式下,大模型通常会作为一个后端服务运行,通过接收请求并返回结果的方式与前端应用交互。

3)超级入口

PC互联网时代,搜索引擎为主要入口,用户主要通过搜索引擎进行信息搜索、缓存等,来主动获取信息,进而诞生谷歌搜索、百度等垄断型企业。在移动互联网时代,社交平台、短视频、移动支付、导航等成为“超级APP”,形成多样化内容分发入口,由此用户内容获取链路变短,诞生Meta、腾讯、阿里、字节跳动、百度等众多细分头部企业。

与搜索引擎不同,在呈现质量上,大模型可更好理解用户意图,为用户提供更具个性化、更有针对性的互联网内容;在供给方式上,传统搜索引擎要求用户自行拆解任务、提炼关键词、筛选并整合信息,而大模型通过多模态交互可代劳上述工作,理解复杂的用户意图,简化用户思考流程,降低用户使用门槛。而移动互联网时代诞生的一系列超级App间彼此互不相通,如果想要完成一个多场景的连贯式操作会非常困难;而未来大模型赋能的OS有望打通各类APP,具有跨应用调取服务的能力,进一步提高效率。

在AI时代,我们认为大模型将与终端OS深度融合成为“超级入口”,而交互型多模态大模型的出现将催化入口的演进。大模型发展的第一阶段是基本的问答,彼时大模型把知识库和联网搜索的信息进行整合,提供回答;第二阶段开始连接一些简单的应用,主要作用信息获取和简单功能的调取;第三阶段大模型将与与OS融合超级入口,而交互型多模态大模型凭借更自然交互和更强的性能,能有效地组织应用、服务、知识、内容和数据等,最后以用户需要的方式呈现。


六、相关标的梳理

1)交互型多模态大模型:商汤-W、云从科技-UW;

2)数字智能应用:金山办公、科大讯飞、虹软科技、美图公司;

3)具身智能应用:海康威视、大华股份;

4)算力:寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。


七、风险提示

AI技术突破不及预期。AI发展受到许多因素的影响,包括数据的质量和可用性、算法的效率和准确性以及计算资源的限制等。

AI应用落地不及预期。交互型多模态大模型在各行业的应用落地受到多种因素的影响,包括技术创新的速度、市场竞争的激烈程度以及消费者对新技术的接受度等。

宏观经济增长不及预期。宏观经济的表现与政策的变化、市场的波动以及全球经济的趋势等息息相关。

国际环境变化。各类政治事件、经济政策的变动以及地缘政治的风险等。


             西部证券—投资评级说明             


             分析师声明             


             免责声明             



             研究报告来源             


证券研究报告《人工智能系列报告(六)-- 交互型多模态大模型有望带来应用的爆发起点》

对外发布时间:2024年9月3日

对外发布机构:西部证券研究发展中心


参与人员信息:

分析师:郑宏达 

执业编号:S0800524020001

邮箱:zhenghongda@research.xbmail.com.cn


联系人:卢可欣

邮箱:lukexin@research.xbmail.com.cn



本公众号推送内容仅面向西部证券股份有限公司(以下简称“西部公司”)机构客户,请勿对本公众号内容进行任何形式的转发。若您并非西部证券机构客户,请取消关注本公众号,不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限,若给您造成不便,烦请谅解!西部证券不会因订阅本公众号的行为或者收到、阅读本公众号推送内容而视相关人员为客户。

本公众号内容基于已公开的信息编制,但作者对该等信息的真实性、准确性及完整性不作任何保证。本公众号所载的意见、评估及预测仅为出具日的观点和判断,该等意见、评估及预测在出具日外无需通知即可随时更改。在不同时期,西部证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。同时,本公众号所指的证券或投资标的的价格、价值及投资收入可能会波动。西部证券不保证本公众号所含信息保持在最新状态。对于西部证券其他专业人士(包括但不限于销售人员、交易人员)根据不同假设、研究方法、即时动态信息及市场表现,发表的与本公众号不一致的分析评论或交易观点,西部证券没有义务向本公众号所有接收者进行更新。西部证券对本公众号所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。

在任何情况下,本公众号所载的观点、结论和建议仅供投资者参考之用,并非作为购买或出售证券或其他投资标的的邀请或保证。客户不应以本公众号取代其独立判断或根据本报告做出决策。该等观点、建议并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本公众号内容,不应视本公众号为做出投资决策的唯一因素,必要时应就法律、商业、财务、税收等方面咨询专业财务顾问的意见。西部证券以往相关研究报告预测与分析的准确,不预示与担保本公众号及西部证券今后相关研究报告的表现。对依据或者使用本公众号及西部证券其他相关研究报告所造成的一切后果,西部证券及作者不承担任何法律责任。

本公众号版权仅为西部证券所有。未经公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号版权。如征得西部证券同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“西部证券研究发展中心”,且不得对本公众号进行任何有悖原意的引用、删节和修改。如未经西部证券授权,私自转载或者转发本公众号,所引起的一切后果及法律责任由私自转载或转发者承担。西部证券保留追究相关责任的权力。本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91610000719782242D。


宏达说
中国科技发展的大时代!西部证券分析师郑宏达(证券投资咨询(分析师):S0800524020001)
 最新文章