探索SPIRIT-LM:文本与语音的完美融合

文摘   2024-11-01 19:45   福建  

SPIRIT-LM 是一个基础的多模态语言模型,能够自由地混合文本和语音。该模型基于预训练的文本语言模型,通过持续训练文本和语音单元来扩展语音模态,采用单一的令牌集合进行训练,并使用小型自动整理的语音-文本平行语料库进行词级交错训练。


参考:

  1. https://arxiv.org/abs/2402.05755
  2. https://github.com/facebookresearch/spiritlm



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章