VITA-1.5是首个开源交互式全模态大型语言模型的升级版本,显著提升了用户体验。该版本将语音交互延迟从4秒减少至1.5秒,增强了多模态性能,平均基准分数从59.8提高至70.8,同时语音识别的字错误率(WER)也降至7.5。通过逐步训练策略,VITA-1.5在保持视觉语言性能的同时,成功集成了语音处理能力。
参考:
https://github.com/VITA-MLLM/VITA
点个分享、点赞与在看,你最好看~
VITA-1.5是首个开源交互式全模态大型语言模型的升级版本,显著提升了用户体验。该版本将语音交互延迟从4秒减少至1.5秒,增强了多模态性能,平均基准分数从59.8提高至70.8,同时语音识别的字错误率(WER)也降至7.5。通过逐步训练策略,VITA-1.5在保持视觉语言性能的同时,成功集成了语音处理能力。
参考:
点个分享、点赞与在看,你最好看~