社区供稿 | 元象发布 XVERSE-MoE-A36B，多快好省！

文摘 2024-09-30 10:30 广东

元象XVERSE发布 XVERSE-MoE-A36B，加速AI应用低成本部署，将国产开源提升至国际领先水平。

该模型总参数255B，激活参数36B，效果能大致达到超过100B大模型的「跨级」性能跃升，同时训练时间减少30%，推理性能提升100%，使每token成本大幅下降。元象「高性能全家桶」系列全部开源，无条件免费商用，让海量中小企业、研究者和开发者能按需选择。

MoE（Mixture of Experts）是业界最前沿的混合专家模型架构，将多个细分领域的专家模型组合成一个超级模型，打破了传统扩展定律（Scaling Law）的局限，在扩大模型规模的同时，保持模型性能最大化，甚至还能降低训练和推理的计算成本。出于这个原因，行业前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、马斯克旗下xAI公司的Grok等大模型都使用了 MoE。

在多个权威评测中，元象MoE效果大幅超越多个同类模型，包括国内千亿MoE模型 Skywork-MoE、传统MoE霸主Mixtral-8x22B 以及3140亿参数的MoE开源模型Grok-1-A86B等。

权威测试集评测结果

免费下载大模型

Hugging Face：https://hf.co/xverse/XVERSE-MoE-A36B
魔搭：https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github：https://github.com/xverse-ai/XVERSE-MoE-A36B
问询：opensource@xverse.cn
官网：chat.xverse.cn

落地应用好且省登顶港台娱乐应用榜

元象此次开源，不仅填补国内空白，也在商业应用上更进一步。

元象基于MoE模型自主研发的AI角色扮演与互动网文APP Saylo，通过逼真的AI角色扮演和有趣的开放剧情，火遍港台，下载量在中国台湾和香港娱乐榜分别位列第一和第三。

MoE训练范式具有「更高性能、更低成本」优势，元象在通用预训练基础上，使用海量剧本数据「继续预训练」（Continue Pre-training），并与传统SFT（监督微调）或RLHF（基于人类反馈的强化学习）不同，采用了大规模语料知识注入，让模型既保持了强大的通用语言理解能力，又大幅提升「剧本」这一特定应用领域的表现。

元象大模型落地应用 - Saylo

「开源标杆」到文娱领先

元象是国内领先的AI与3D公司，秉持「通用人工智能 AGI」信仰，持续打造「高性能开源全家桶」，是最早发布国内最大参数65B、世界最长上下文256K、国内最大参数MoE开源大模型的公司，不仅填补国产开源空白，更将其推向了国际领先水平。

在商业应用上，元象大模型是广东最早获得国家备案的五个模型之一，可向全社会提供服务。元象大模型从去年起已陆续与QQ音乐、虎牙直播、全民K歌、腾讯云等深度合作与应用探索，为文化、娱乐、旅游、金融领域打造创新领先的用户体验。

MoE技术自研与创新

MoE是目前业界最前沿的模型框架，由于技术较新，国内外开源模型或学术研究同步探索。元象在此次升级中围绕效率和效果进行了如下探索：

效率方面

MoE架构与4D拓扑设计：MoE架构的关键特性是由多个专家组成。由于专家之间需要大量的信息交换，通信负担极重。为了解决这个问题，我们采用了4D拓扑架构，平衡了通信、显存和计算资源的分配。这种设计优化了计算节点之间的通信路径，提高了整体计算效率。

专家路由与预丢弃策略：MoE的另一个特点是“专家路由机制”，即需要对不同的输入进行分配，并丢弃一些超出专家计算容量的冗余数据。为此团队设计一套预丢弃策略，减少不必要的计算和传输。同时在计算流程中实现了高效的算子融合，进一步提升模型的训练性能。

通信与计算重叠：由于MoE架构的专家之间需要大量通信，会影响整体计算效率。为此团队设计了“多维度的通信与计算重叠”机制，即在进行参数通信的同时，最大比例并行地执行计算任务，从而减少通信等待时间。

效果方面

专家权重：MoE 中的专家总数为 N ，每个 token 会选择 topK 个专家参与后续的计算，由于专家容量的限制，每个 token 实际选择到的专家数为 M，M<=K<N。被选择到的专家计算完之后，会通过加权平均的方式汇总得到每个 token 的计算结果。这里专家的权重如何设置是一个问题，我们通过对比实验的方式来进行选择。根据对比实验的效果，我们选择实验2的设置进行正式实验。

实验1：权重在 topM 范围内归一化

实验2：权重在 topK 范围内归一化

实验3：权重在 topN 范围内归一化

实验4：权重都为 1

对比实验结果

举例说明，假设N=8，K=4，M=3（2号专家上token被丢弃），不同专家权重的计算方式所得的权重如下图：

数据动态切换：元象以往开源的模型，往往在训练前就锁定了训练数据集，并在整个训练过程中保持不变。这种做法虽然简单，但会受制于初始数据的质量和覆盖面。此次MoE模型的训练借鉴了"课程学习"理念，在训练过程中实现了动态数据切换，在不同阶段多次引入新处理的高质量数据，并动态调整数据采样比例。

这让模型不再被初始语料集所限制，而是能够持续学习新引入的高质量数据，提升了语料覆盖面和泛化能力。同时通过调整采样比例，也有助于平衡不同数据源对模型性能的影响。

不同数据版本的效果曲线图

学习率调度策略（LR Scheduler）：在训练过程中动态切换数据集，虽有助于持续引入新知识，但也给模型带来了新的适应挑战。为了确保模型能快速且充分地学习新进数据，团队对学习率调度器进行了优化调整，在每次数据切换时会根据模型收敛状态，相应调整学习率。实验表明，这一策略有效提升了模型在数据切换后的学习速度和整体训练效果。

下图是整个训练过程中 MMLU、HumanEval 两个评测数据集的效果曲线图。

训练过程中MMLU、HumanEval的性能曲线持续拔高

通过设计与优化，元象MoE模型与其Dense模型XVERSE-65B-2相比，训练时间减少30%、推理性能提升100%，模型效果更佳，达到业界领先水平。

本文由 Hugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

http://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247492914&idx=1&sn=629c1b083c6e3b720947904f99d56f00

Hugging Face

The AI community building the future.

为数据集而生的 SQL 控制台

Hugging Face 与 TruffleHog 合作，实现风险预警

社区供稿｜还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

顶点着色网格转换为 UV 映射的纹理化网格

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

社区供稿 | 为什么我们需要 Hugging Face 的 Safetensors？

Hugging Face 与 Wiz Research 合作提高人工智能安全性

更快的辅助生成: 动态推测

现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

揭秘 FineVideo 数据集构建的背后的秘密

Gradio 5 稳定版正式发布

社区供稿 | 元象发布 XVERSE-MoE-A36B，多快好省！

将 LLMs 精调至 1.58 比特: 使极端量化变简单

HuggingChat macOS 版现已发布

对 LLM 工具使用进行统一

Accelerate 1.0.0

Hugging Face 论文平台 Daily Papers 功能全解析

社区供稿 | Reader-LM: 将原始 HTML 转换为干净 Markdown 的小型语言模型

社区供稿｜上线即 Trending, OCR-2.0 助力多模态大模型更快更强

通过打包 Flash Attention 来提升 Hugging Face 训练效率

社区供稿 | 全球首个多语言 ColBERT: Jina ColBERT V2 和它的“俄罗斯套娃”技术

Falcon Mamba: 首个高效的无注意力机制 7B 模型

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗？

一次失败的实验 - 无限注意力，我们为什么坚持实验

Docmatix - 超大文档视觉问答数据集

ggml 简介

社区供稿 | 如何让大模型输出 10k+ 字长文？

社区供稿 | 使用 Hugging Face 和 Milvus 构建 RAG 系统

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

社区供稿 | 智源千万级指令微调数据集 Infinity-Instruct 持续迭代，Llama3.1 仅微调可接近 GPT-4

社区供稿 | 仅8B，全面对标 GPT-4V ！单图、多图、视频理解端侧三冠王！

社区供稿 | 开源 AI 视频工具，你只需要当导演，Hugging Face 工程师打造

TGI 多-LoRA: 部署一次，搞定 30 个模型的推理服务

XetHub 加入 Hugging Face！

社区供稿 | 面向多样应用需求，书生·浦语 2.5 开源超轻量、高性能多种参数版本

NuminaMath 是如何荣膺首届 AIMO 进步奖的？

SmolLM: 一个超快速、超高性能的小模型集合

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

在 Hub 上使用 Presidio 进行自动 PII 检测实验

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

为视觉语言多模态模型进行偏好优化

微调 Florence-2 - 微软的尖端视觉语言模型

GAIA: 一个严苛的智能体基准

社区供稿 | Jina Reranker v2: 多语言支持、函数调用、代码搜索，超快推理！

Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛

Cosmopedia: 如何为预训练构建大规模合成数据集

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉