直播预告｜LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集

2025-01-14 13:57 上海

点击蓝字，关注我们

🌟OpenCSG 开源高质量中文预训练数据集系列——助力中文 AI 发展

最近一年，OpenCSG 推出的四个高质量开源中文预训练数据集：Fineweb-edu-chinese、Cosmopedia-chinese 、 Smoltalk-chinese和UltraFeedback Chinese。这四个数据集的发布，将为中文自然语言处理（NLP）领域带来巨大的推动力，帮助开发者们训练出性能更优异的中文 AI 模型。

你是否还在为找不到高质量的中文预训练数据而苦恼？你是否还在为模型效果提升缓慢而焦虑？

还在为中文 AI 数据发愁？OpenCSG 带你破局！ 🚀

✨ 直播亮点抢先看 ✨

数据荒终结者： 还在苦苦搜寻高质量中文预训练数据？OpenCSG 帮你一键解决！

高质量数据炼成记： 详解 Fineweb-edu-chinese 教育领域数据集的筛选和打分机制，让你了解高质量数据是如何炼成的。

LLM 合成数据新范式： 探索 Cosmopedia-chinese 如何利用 LLM 合成高质量教科书级别数据，带你掌握数据生成新技能。

多样化对话数据： 详解 Smoltalk-chinese 多轮对话数据集的生成方法，让你的模型轻松应对复杂对话场景。

实验数据大公开： 全面展示使用这些数据集进行预训练/微调的实验结果，让你直观感受数据集的强大威力。

社区力量：OpenCSG 社区将持续开源高质量数据，助力中文 NLP 发展！

不要错过这场中文 NLP 的数据盛宴！立即报名，与 OpenCSG 一起探索 AI 的无限可能！

📡直播平台：微信视频号📱和B站📺同步直播

立即预约📅，期待您的参与！

LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集
‍‍

2025年1月16日19:00-20:00

分享嘉宾

俞同学

清华大学硕士

具有丰富的模型训练经验，深耕于LLM、Long-Context LLM等前沿领域，取得了多项突破性成果，研究成果多次发表于该领域的国际顶级会议和期刊。

与联通等全球知名企业和顶尖研究机构建立了深入合作，推动了产学研结合的创新发展。

报名方式

扫描上方海报中的二维码即可报名。

欢迎加入OpenCSG社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https:// github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加小助手

OpenCSG社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

CodeSouler v1.13.0 版本更新

回首2024 | OpenCSG社区年度报告请查收

全新推理模型 DeepSeek-R1 问世，全面对标 OpenAI o1

直播预告｜OpenCSG&人大YuLan｜LLM数据新范式：深度揭秘高质量开源中文数据集

MiniMax-01重磅发布：突破Transformer架构，4M超长上下文

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

CSGHub开源版本v1.3.0更新

直播预告｜LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集

开年巨献｜OpenCSG携UltraFeedback中文数据集强势来袭

Phi-4: 微软开源的14亿参数模型，重定义AI性能新标准

NVIDIA Cosmos平台：开启物理AI时代的技术革命

OpenCSG助力国产大模型｜YuLan-Mini：数据高效的AI模型突破

直播预告｜OpenCSG AutoHub智能探索：一键开启 AI 浏览器之旅

ModernBERT：下一代 Encoder-Only 模型的全面进化

OpenCSG月度更新2024.12

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

从30年前的一根网线说起中国这张网改变了什么？

开源用户故事｜CSGHub助力国产AI基础设施建设

视频创作迎来“智变”时刻，图森未来发布“Ruyi”大模型！

论文中心｜第34期人工智能领域论文推荐

OpenCSG 2.0：让我们全面拥抱Agentic架构

C4AI Command R7B：多语言高性能AI模型，为复杂任务而生

安装指南｜OpenCSG Starship上架GitHub Marketplace

CSGHub开源版本v1.2.0更新

DeepSeek V2.5正式发布：支持联网搜索，表现全面提升

论文中心｜第33期人工智能领域论文推荐

Meetup回顾 | AI赋能下的开发流程蜕变

Qwen2-VL-72B重磅开源：跨越视觉与语言的新时代 AI 里程碑

Meta重磅开源Llama 3.3-70B：性能大幅提升，成本大幅降低

倒计时2天！ OpenCSG&JetBrains 上海站 Meetup：AI赋能下的开发流程蜕变圆桌议题公布

Hunyuan-Video：腾讯开源高质量中文通用视频生成模型

论文中心｜第32期人工智能领域论文推荐

OpenCSG&JetBrains 上海站 Meetup | AI赋能下的开发流程蜕变

OpenCSG月度更新2024.11

Qwen开源QwQ-32B-Preview：从自省到突破，解锁AI推理的无限可能

阿里国际AI团队最新开源！探索面向开放性问题的推理模型 Marco-o1

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

最快的视频生成模型来了！LTX-Video 重磅发布，开源+RTX 4090 即可跑

Meetup回顾 | 大模型全生命周期管理与AI应用的全栈可观测性

司南 OpenCompass 11月大语言模型评测即将启动，欢迎新合作厂商申请评测！

论文中心｜第31期人工智能领域论文推荐

超越GPT-4o的开源巅峰！Pixtral Large多模态模型重磅登场

RMBG 2.0 ：让图片抠图更简单，史上最强开源背景移除模型

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉