Pleias最近发布了Common Corpus,这是迄今为止最大的多语言数据集,用于预训练语言模型。该数据集包含超过两万亿个标记,涵盖多个语言,来源于各种开放领域,是AI联盟开放数据集倡议的一部分,旨在促进研究和创新。Common Corpus的内容多样,包括开放文化、政府、开源、科学和网络等五大类数据,适合用于训练能够理解和响应复杂人类交流的多语言模型。
参考:
https://huggingface.co/datasets/PleIAs/common_corpus
点个分享、点赞与在看,你最好看~