元象开源中国最大MoE模型A36B,可无条件免费商用

科技   2024-09-14 21:39   广东  

元象XVERSE近日发布了中国最大的MoE(Mixture of Experts)开源模型——XVERSE-MoE-A36B,此举旨在推动AI应用的低成本部署,并将国产开源技术提升至国际先进水平。

该模型拥有总计255B的参数,其中激活参数为36B,据称其性能可与超100B参数的大模型相媲美,同时训练时间缩短了30%,推理性能提升了100%,显著降低了每token的成本。

元象的“高性能全家桶”系列全部开源,并允许无条件免费商用,此举为众多中小企业、研究者及开发者提供了便利。

MoE架构是一种前沿的技术,它将多个专门针对不同领域的专家模型整合成一个超级模型,从而打破了传统扩展定律的限制。

MoE不仅能够在增加模型规模的同时保持性能最大化,还有可能减少训练和推理所需的计算成本。

因此,谷歌的Gemini-1.5、OpenAI的GPT-4以及马斯克旗下xAI公司的Grok等模型均采用了MoE架构。

元象XVERSE的MoE模型在多项权威评测中表现出色,超越了包括Skywork-MoE、Mixtral-8x22B以及Grok-1-A86B在内的多种同类模型。

此外,元象还推出了基于MoE模型的AI角色扮演与互动网文应用程序Saylo,该程序凭借其真实的AI角色扮演体验和开放性的剧情设置,在港台地区广受欢迎,下载量在中国台湾和香港的娱乐类应用排行榜上名列前茅。

MoE训练方法的优势在于其“高效能、低成本”的特点。

元象在其通用预训练的基础上,利用了海量的剧本数据进行继续预训练,并非传统的监督微调(SFT)或基于人类反馈的强化学习(RLHF)。

相反,他们采取了大规模语料知识注入的方法,使得模型不仅保持了强大的通用语言理解能力,还在剧本这一特定应用领域展现出了显著的改进。

元象是国内领先的AI与3D技术公司,一直致力于推进“通用人工智能(AGI)”的发展。

公司此前已经发布了包含国内最大参数65B、世界最长上下文长度256K以及国内最大参数的MoE开源模型。

这些成果不仅填补了国内相关领域的空白,还推动了国产开源技术走向国际领先水平。

元象的商业应用也取得了显著进展。

作为广东省首批获得国家备案的五个模型之一,元象大模型可以为社会提供广泛的服务。

从2023年起,元象便开始与QQ音乐、虎牙直播、全民K歌、腾讯云等企业展开深入合作,探索AI技术的应用,为文化、娱乐、旅游、金融等领域带来创新的用户体验。

在技术层面,元象围绕MoE模型的效率和效果进行了深入的研究。

他们采用4D拓扑设计来解决MoE架构中的通信瓶颈问题;开发了预丢弃策略以减少不必要的计算和传输;并通过“通信与计算重叠”机制来减少通信延迟。

此外,元象还通过一系列实验确定了最优的专家权重设置方案,以提高模型的训练效果。

在数据处理方面,元象借鉴了“课程学习”的理念,在训练过程中实施动态数据切换。

这使得模型能够不断学习新的高质量数据,增强了数据覆盖范围和泛化能力。

同时,通过调整数据采样的比例,有助于平衡不同数据源对模型性能的影响。

此外,元象还优化了学习率调度策略,以确保模型在引入新数据后能够快速且充分地学习。

经过一系列的设计与优化,元象的MoE模型相比其先前的Dense模型XVERSE-65B-2,在训练时间和推理性能上均有显著提升,达到了行业的先进水平。

开源链接:https://github.com/xverse-ai/XVERSE-MoE-A36B

关注我们:即可加入【AI交流群】,免费领取【AI大礼包】



晓得智能
每日聚焦最新AI,让每个人都能享受到AI带来的乐趣!
 最新文章