VITA-1.5:迈向GPT-4o级别实时视觉和语音交互

文摘   2025-01-09 07:47   福建  

VITA-1.5是首个开源交互式全模态大型语言模型的升级版本,显著提升了用户体验。该版本将语音交互延迟从4秒减少至1.5秒,增强了多模态性能,平均基准分数从59.8提高至70.8,同时语音识别的字错误率(WER)也降至7.5。通过逐步训练策略,VITA-1.5在保持视觉语言性能的同时,成功集成了语音处理能力。 


参考:

  1.  https://github.com/VITA-MLLM/VITA



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章