之前介绍过上海AI Lab开源的OmniCorpus图文交错数据集。没想到刚过没多久,又一个万亿token级别的图文交错数据集MINT-1T开源了!这些大规模图文交错的多模态数据集,为后续多模态预训练的研究提供了新的原料。
Github: https://github.com/mlfoundations/MINT-1T
Paper: https://arxiv.org/abs/2406.11271
Data: https://huggingface.co/collections/mlfoundations/mint-1t-6690216ca4d0df7e518dde1c
多模态数据瓶颈
在之前的推送中也已经提过,多模态预训练来到了数据瓶颈:
面临同样的问题,使用同样的图文交错数据集构建思路。中国的团队开源了OmniCorpus,西方的团队也同样开源了类似量级的MINT-1T。推动多模态预训练的研究。向开源精神致敬!
MINT
多模态交错文档,即文本中穿插图像序列,这种结构使我们能够训练大型多模态模型,使得其能够跨图像和文本模态进行推理。一些大型多模态模型,如MM1、Chameleo和Idefics2,已经展示了在交错数据上训练的优势。
点击👇关注 “思源Source”
👇点个“赞”和“在看”吧