从卷文本到卷多模态：国内的大模型公司都在忙什么？

文摘 2024-10-27 23:23 北京

在人工智能技术的飞速发展中，AI视频生成应用正成为行业新宠。MiniMax的AI视频生成应用「海螺AI」网页版访问量暴增，9月增速超过800%，显示了多模态AI应用的强劲势头。2024年，AI市场的重心正逐渐从单一的模型构建转向更广泛的产品应用，尤其是多模态交互技术，正成为行业新方向。

目前实现多模态交互的主要思路有两种：MLLM（多模态大型语言模型）和LMM（大型多模态模型）。MLLM通过利用现有的预训练单模态基础模型，尤其是LLM，来执行多模态任务。它具备语言泛化能力和零样本迁移能力，但由于不同模态的基础模型是单独预训练的，MLLM在多模态空间的深层复杂推理上存在局限，且面临不同模态数据对齐问题。

与MLLM不同，LMM从一开始就在不同模态上进行预训练，能够同时处理和理解多种类型的输入，实现更自然的多模态交互。谷歌的Gemini模型和OpenAI的GPT-4V模型都属于LMM。尽管如此，多模态大模型的研究仍处于早期阶段，面临着模型统一、语义对齐、跨模态关联等技术挑战。

「全模态端到端」是当前的一个前沿方向。OpenAI的GPT-4o模型展示了在响应时长、语音情感起伏等方面的优异表现，通过统一的模型处理文本、视觉和音频信息。

在多模态产品方面，国内AI视频生成赛道近期表现亮眼。除了「海螺AI」，智谱AI推出的「智谱清影」也是一款AI视频生成工具，用户通过输入文本或上传图片，30秒内即可生成6秒视频，支持多种风格和背景音乐，适用于个人创作和专业制作。这些应用的亮眼表现，体现了AI大模型创企、科技大厂和多模态大模型服务厂商在视频生成领域的活跃态势。

谷歌CEO Sundar Pichai预测，到2025年，多模态大型语言模型将使人类互动达到前所未有的水平。他认为，多模态AI的发展前景广阔，将深刻影响我们生活的方方面面，为各行各业带来革命性的变革。随着技术的不断进步，多模态AI将成为推动未来AI产业发展的重要力量。

在多模态大模型的架构方面，腾讯AI Lab发表的综述《MM-LLMs: Recent Advances in MultiModal Large Language Models》中提到，多模态大模型的整体架构可以被归类为五个部分：多模态理解包含多模态编码器，输入投影与大模型主干三个部分，而多模态生成则包含输出投影与多模态生成器两个部分。通常而言，在训练过程中，多模态的编码器、生成器与大模型的参数一般都固定不变，不用于训练，主要优化的重点将落在输入投影与输出投影之中。

此外，多模态大模型在具身智能上的应用也需要进一步探索。目前的MM LLMs很大程度上还是静态的，无法适应具身智能动态多阶段的需求。未来的发展方向包括从多模态到更多模态的扩展，统一的多模态，数据集质量的提高，以及增强生成能力。

国内的AI大模型企业也在积极布局多模态领域，清华系的AI大模型创企中，拥有清华背景的创始人至少有17位，涉及11家企业，正在撑起国内AI大模型创业浪潮的半壁江山。科大讯飞也宣布其大模型技术升级，首发AI多模态视觉交互技术，展示了多模态技术在实际应用中的潜力。

多模态AI的发展正推动着人工智能技术进入一个新的阶段，它不仅改变了内容创作的方式，还为各种行业提供了新的解决方案和商业机会。随着技术的不断成熟和应用的深入，多模态AI无疑将成为未来AI技术发展的关键方向之一。

AI从业者或者对AI感兴趣的朋友欢迎加群交流~

http://mp.weixin.qq.com/s?__biz=MzAxNDMwNjQ1OA==&mid=2650534133&idx=1&sn=6c8d85378e978d2085356cba6d392e28

前沿科技分享圈

这里汇聚了人工智能领域奋战在第一线的创业者和投资人，不同研究方向有不同的讨论小组，包括AI虚拟伴侣、AI情感咨询、人形机器人、文生视频、文生音乐、开源AI硬件等等，如果你也对这些领域感兴趣，欢迎加入！

最新文章

真·打字P图！字节发布新模型SeedEdit，一句话爆改世界名画，可免费体验

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

ControlNet作者新作：AI打光玩得更溜了！细节保留能力远高于SD1.5

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

马斯克要求供应商：把生产业务搬出台湾

特朗普胜出成定局，美国大选如何撕裂整个硅谷科技圈？

Meta VR硬件主管强势加入OpenAI，与苹果传奇设计师合作开发新AI设备

手搓AI大模型应用获25万用户，果断辞职创业，结果收入不如摆摊

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

刚刚！ChatGPT正式成为AI搜索，免费可用