SPIRIT-LM 是一个基础的多模态语言模型,能够自由地混合文本和语音。该模型基于预训练的文本语言模型,通过持续训练文本和语音单元来扩展语音模态,采用单一的令牌集合进行训练,并使用小型自动整理的语音-文本平行语料库进行词级交错训练。
参考:
https://arxiv.org/abs/2402.05755 https://github.com/facebookresearch/spiritlm
点个分享、点赞与在看,你最好看~
SPIRIT-LM 是一个基础的多模态语言模型,能够自由地混合文本和语音。该模型基于预训练的文本语言模型,通过持续训练文本和语音单元来扩展语音模态,采用单一的令牌集合进行训练,并使用小型自动整理的语音-文本平行语料库进行词级交错训练。
参考:
点个分享、点赞与在看,你最好看~