MINT-1T: 万亿Token的开源多模态数据集

文摘   科技   2024-07-26 16:46   上海  



思源Source报道
编辑:seefun
之前介绍过上海AI Lab开源的OmniCorpus图文交错数据集。没想到刚过没多久,又一个万亿token级别的图文交错数据集MINT-1T开源了!这些大规模图文交错的多模态数据集,为后续多模态预训练的研究提供了新的原料。

Github: https://github.com/mlfoundations/MINT-1T

Paper: https://arxiv.org/abs/2406.11271

Data: https://huggingface.co/collections/mlfoundations/mint-1t-6690216ca4d0df7e518dde1c


多模态数据瓶颈

在之前的推送中也已经提过,多模态预训练来到了数据瓶颈:


面临同样的问题,使用同样的图文交错数据集构建思路。中国的团队开源了OmniCorpus,西方的团队也同样开源了类似量级的MINT-1T。推动多模态预训练的研究。向开源精神致敬!

MINT

多模态交错文档,即文本中穿插图像序列,这种结构使我们能够训练大型多模态模型,使得其能够跨图像和文本模态进行推理。一些大型多模态模型,如MM1、Chameleo和Idefics2,已经展示了在交错数据上训练的优势。

构建MINT-1T的关键原则是规模和多样性。以前的开源数据集如OBELICS和MMC4最多只有1150亿个token,而MINT-1T收集了1万亿个token。对于MINT-1T的多样性,不仅仅包括HTML文档,还包括了网络规模的PDF文件和ArXiv论文。些额外的来源提高了领域覆盖率,特别是在科学文献方面。

MINT-1T上训练的表现优于之前领先的多模态交织数据集OBELICS
数据已在huggingface开源,有实力的同学可以尝试!


点击👇关注 “思源Source”

👇点个“赞”和“在看”吧

思源数据科学
Towards AGI
 最新文章