近日,VITA-MLLM 团队宣布推出 VITA-1.5,是一个开源的集成了视觉、语言和语音的多模态大语言模型,旨在实现类似 GPT-4o 水平的实时视觉和语音交互。
论文链接:https://arxiv.org/pdf/2501.01957
Demo视频:https://youtu.be/tyi6SVFT5mM
项目地址:https://github.com/VITA-MLLM/VITA
VITA-1.5 大幅降低互动延迟,从 4 秒缩短至 1.5 秒,显著提升用户体验。
VITA-1.5 基于 VITA-1.0 进行了多项改进,包括:
显著降低交互延迟
增强多模态性能
改进语音处理能力
渐进式多阶段训练策略
VITA-1.5 的整体架构包括视觉和音频编码器,以及连接到大型语言模型的适配器。输出端则具有一个端到端的语音生成模块,而不是像最初的 VITA-1.0 版本那样使用外部 TTS 模型。视觉编码器采用 InternViT-300M,输入图像大小为 448×448 像素,每张图像生成 256 个视觉令牌。
VITA-1.5 的独特之处在于其能够进行高效的语音对话,无需单独的自动语音识别(ASR)和文本到语音(TTS)模块,这对于加速端到端多模态系统的响应时间具有颠覆性意义。
VITA-1.5 采用精心设计的三阶段训练方法,逐步引入视觉和语音数据,缓解模态冲突,同时保持强大的多模态性能。
第一阶段:视觉-语言训练,包括视觉对齐、视觉理解和视觉有监督微调,旨在弥合视觉和语言之间的差距,并使模型能够理解图像内容和回答视觉问题。
第二阶段:音频输入微调,包括音频对齐和音频有监督微调,旨在使模型能够理解音频输入,并能够通过语音提问和文本回答进行交互。
第三阶段:音频输出微调,包括编解码器训练和 NAR + AR 解码器训练,旨在使模型能够生成语音输出,实现端到端的语音交互。
VITA-1.5 不仅支持英语和中文,还在多项性能指标上实现了显著提升,为用户提供了更流畅的交互体验。
VITA-1.5 在 MME、MMBench 和 MathVista 等多个基准测试中的平均性能从 59.8 提升至 70.8,展现了出色的能力。
VITA-1.5 语音处理能力增强,ASR 错误率从 18.4 降至7.5,语音识别更准确。
参考:
https://github.com/VITA-MLLM/VITA?tab=readme-ov-file