Pleias 推出 Common Corpus：用于预训练语言模型的最大多语言数据集

文摘 2024-11-30 07:45 福建

Pleias最近发布了Common Corpus，这是迄今为止最大的多语言数据集，用于预训练语言模型。该数据集包含超过两万亿个标记，涵盖多个语言，来源于各种开放领域，是AI联盟开放数据集倡议的一部分，旨在促进研究和创新。Common Corpus的内容多样，包括开放文化、政府、开源、科学和网络等五大类数据，适合用于训练能够理解和响应复杂人类交流的多语言模型。

参考：

https://huggingface.co/datasets/PleIAs/common_corpus

点个分享、点赞与在看，你最好看~

http://mp.weixin.qq.com/s?__biz=MzI0NTg0Njk1OQ==&mid=2247487713&idx=2&sn=ecfa9b5313dc7dc2ae404e10ec9e2a15

Halo咯咯

专注于技术知识整理，包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识，以及各种开源的内容～

Pleias 推出 Common Corpus：用于预训练语言模型的最大多语言数据集

DBgDel：用于基因组规模代谢模型中生长耦合生产的数据库增强型基因删除框架

颠覆性语音合成：Fish Agent v0.1 3B 引领多语言语音合成新高度

MM-Embed：首个在多模态基准上取得SOTA成果的检索器

MBZUAI 发布 Atlas-Chat（2B、9B 和 27B）：针对 Darija进行调整的一系列开放模型指令

Fixie AI 推出 Ultravox v0.4.1：专门用于与 LLM 进行实时对话以及 GPT-4o 实时的替代方案

Microsoft AI 开源 TinyTroupe：用于 LLM 支持的多智能体模拟的新 Python 库

了解 OpenCoder：建立在透明数据处理管道和可重现数据集之上的完全开源代码LLM

谷歌AI推出LAuReL：让神经网络更高效的革命性架构

认识 Memoripy：一个为 AI 应用程序带来真正内存功能的 Python 库

微软AI研究院发布100万条涵盖不同能力的综合指令对|数据集

LightRAG：提升检索增强生成的效率与准确性

Google生成式 AI 新手指南

WhoDB：一款轻量级、高效且用户友好的数据库管理工具

25个生成式AI核心术语【值得收藏】

20大LLM安全防护机制详解：保障AI模型的安全、伦理和责任

MoneyPrinterTurbo：利用AI大模型，一键生成高清短视频

微软发布LLM2CLIP：一种新型AI技术，LLM成为CLIP视觉编码器的“老师”

BLIP3-KALE：包含 2.18 亿个图像文本对的开源数据集，通过知识增强的密集描述转换图像字幕

TabM：一种新的高效深度学习模型，专门针对表格数据处理

高效信息检索新方法：LangChain中Retriever的多种高级策略

Hugging Face 发布 SmolTools：使用 LLaMA.cpp 和小语言模型构建的轻量级 AI 驱动工具集合

LLM-KT：利用嵌入式 LLM 生成的功能增强协作过滤模型的灵活框架

ChatGPT Search：AI搜索引擎如何挑战Google霸主地位？

Run AI 开源 Run:ai Model Streamer：专门构建的解决方案，使大型模型加载更快、更高效

全新MaskGCT模型：中英文合成与声音克隆的完美结合

提升RAG性能的全攻略：优化检索增强生成系统的策略大揭秘 | 深度好文

OptiLLM：一个与 OpenAI API 兼容的优化推理代理，可以提高 LLM 的准确性和性能

12百万YouTube音频链接来袭：LAION AI的LAION-DISCO-12M如何重塑基础模型的机器学习研究

LLaVA-o1：第一个能够进行自发、系统推理的视觉语言模型，类似于 GPT-o1

平衡 RAG 系统的准确性和速度：优化检索技术的见解

以AlphaFold3为标杆：麻省理工学院的Boltz-1如何重塑生物分子预测

Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Llama OCR：简简单单几行就可将图片或文档转成Markdown格式

Janus 系列：统一多模态理解和生成模型

OuteTTS-0.1-350M 发布：一种新颖的文本到语音 (TTS) 合成模型，利用纯语言建模，无需外部适配器

从此告别延迟！Hertz-Dev开创高效音频交互新模式

慕尼黑工业大学的这篇人工智能论文介绍了一种新颖的机器学习方法，通过模拟器反馈改进基于流的生成模型

YOLOv11：实时目标检测的新飞跃

LLMWare 发布 Model Depot：为 Intel PC 提供的 SLM 大集合

COMandA：一个用命令行简化大型语言模型操作的工具

从RAG到TAG：探索表增强生成（TAG）的力量

NotebookLlama：Meta 推出的开源交互式数据分析新工具

Promptwright：一个可以生成大规模合成数据集的Python库

HtmlRAG：利用 HTML 结构化信息增强 RAG 系统的知识检索能力和准确性

Hugging Face 发布 Sentence Transformers v3.3.0：NLP 效率的重大进展

Snowflake 和 CMU 的研究人员推出 SuffixDecoding：一种通过推测解码加速LLM推理的新型无模型方法

LLM微调的关键要点：如何打造高效、可靠的AI模型

TinyTroupe ：微软提供的一个实验性 Python 库，可以模拟具有特定个性、兴趣和目标的人。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉