Pleias 推出 Common Corpus:用于预训练语言模型的最大多语言数据集

文摘   2024-11-30 07:45   福建  

Pleias最近发布了Common Corpus,这是迄今为止最大的多语言数据集,用于预训练语言模型。该数据集包含超过两万亿个标记,涵盖多个语言,来源于各种开放领域,是AI联盟开放数据集倡议的一部分,旨在促进研究和创新。Common Corpus的内容多样,包括开放文化、政府、开源、科学和网络等五大类数据,适合用于训练能够理解和响应复杂人类交流的多语言模型。

参考:

  1. https://huggingface.co/datasets/PleIAs/common_corpus



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章