在人工智能技术的飞速发展中,AI视频生成应用正成为行业新宠。MiniMax的AI视频生成应用「海螺AI」网页版访问量暴增,9月增速超过800%,显示了多模态AI应用的强劲势头。2024年,AI市场的重心正逐渐从单一的模型构建转向更广泛的产品应用,尤其是多模态交互技术,正成为行业新方向。
目前实现多模态交互的主要思路有两种:MLLM(多模态大型语言模型)和LMM(大型多模态模型)。MLLM通过利用现有的预训练单模态基础模型,尤其是LLM,来执行多模态任务。它具备语言泛化能力和零样本迁移能力,但由于不同模态的基础模型是单独预训练的,MLLM在多模态空间的深层复杂推理上存在局限,且面临不同模态数据对齐问题。
与MLLM不同,LMM从一开始就在不同模态上进行预训练,能够同时处理和理解多种类型的输入,实现更自然的多模态交互。谷歌的Gemini模型和OpenAI的GPT-4V模型都属于LMM。尽管如此,多模态大模型的研究仍处于早期阶段,面临着模型统一、语义对齐、跨模态关联等技术挑战。
「全模态端到端」是当前的一个前沿方向。OpenAI的GPT-4o模型展示了在响应时长、语音情感起伏等方面的优异表现,通过统一的模型处理文本、视觉和音频信息。
在多模态产品方面,国内AI视频生成赛道近期表现亮眼。除了「海螺AI」,智谱AI推出的「智谱清影」也是一款AI视频生成工具,用户通过输入文本或上传图片,30秒内即可生成6秒视频,支持多种风格和背景音乐,适用于个人创作和专业制作。这些应用的亮眼表现,体现了AI大模型创企、科技大厂和多模态大模型服务厂商在视频生成领域的活跃态势。
谷歌CEO Sundar Pichai预测,到2025年,多模态大型语言模型将使人类互动达到前所未有的水平。他认为,多模态AI的发展前景广阔,将深刻影响我们生活的方方面面,为各行各业带来革命性的变革。随着技术的不断进步,多模态AI将成为推动未来AI产业发展的重要力量。
在多模态大模型的架构方面,腾讯AI Lab发表的综述《MM-LLMs: Recent Advances in MultiModal Large Language Models》中提到,多模态大模型的整体架构可以被归类为五个部分:多模态理解包含多模态编码器,输入投影与大模型主干三个部分,而多模态生成则包含输出投影与多模态生成器两个部分。通常而言,在训练过程中,多模态的编码器、生成器与大模型的参数一般都固定不变,不用于训练,主要优化的重点将落在输入投影与输出投影之中。
此外,多模态大模型在具身智能上的应用也需要进一步探索。目前的MM LLMs很大程度上还是静态的,无法适应具身智能动态多阶段的需求。未来的发展方向包括从多模态到更多模态的扩展,统一的多模态,数据集质量的提高,以及增强生成能力。
国内的AI大模型企业也在积极布局多模态领域,清华系的AI大模型创企中,拥有清华背景的创始人至少有17位,涉及11家企业,正在撑起国内AI大模型创业浪潮的半壁江山。科大讯飞也宣布其大模型技术升级,首发AI多模态视觉交互技术,展示了多模态技术在实际应用中的潜力。
多模态AI的发展正推动着人工智能技术进入一个新的阶段,它不仅改变了内容创作的方式,还为各种行业提供了新的解决方案和商业机会。随着技术的不断成熟和应用的深入,多模态AI无疑将成为未来AI技术发展的关键方向之一。
AI从业者或者对AI感兴趣的朋友欢迎加群交流~