AMD 10月31日发布了其首个1亿参数语言模型系列——AMD OLMo,旨在推动可访问 AI 研究并赋能多样化的用户、开发者和研究社区。我们一起来了解这个模型有何独到之处。
模型设计与训练
模型架构与训练过程
AMD OLMo 系列包括三个主要模型:
- AMD OLMo 1B:在 Dolma v1.7 子集上预训练。
- AMD OLMo 1B SFT:在 Tulu V2 和OpenHermes-2.5 、WebInstructSub 、Code-Feedback 数据集上进行监督微调。
- AMD OLMo 1B SFT DPO:使用 Direct Preference Optimization(DPO)在 UltraFeedback 数据集上进行对齐。
数据与训练配方
AMD OLMo 的训练分为三个阶段:
- 预训练:使用 Dolma v1.7 子集中的 1.3 万亿个 token 。
- 监督微调(SFT):分两阶段进行,首先在 TuluV2 上,然后在更大的数据集(包括 OpenHermes 2.5 、Code-Feedback 和WebInstructSub)上进行。
- 对齐:使用 DPO 在UltraFeedback 数据集上进行。
性能表现与效率
基准测试结果
AMD OLMo 在通用推理和聊天能力方面优于其他同规模的开源模型,并在负责任 AI 基准测试中表现相当。
- ARC-Easy 基准:相比 OLMo-0724-hf,使用一半的预训练计算资源,提升了 6.36%。
- GSM8k 性能:达到 18.2%,比 TinyLlama-1.1B-Chat 高出 15.39%。
- AlpacaEval 2 和MT-Bench:分别超出基线 2.29%和 0.97%。
训练效率
- 资源优化:使用比 OLMo-1B 少50%的 token,保持性能。
- 数据集策略:在两阶段 SFT 中实施战略数据集排序,结合高质量小数据集和大型多样化数据集。
部署优势与应用前景
部署优势
- 边缘部署:可在搭载 NPUs 的AMD Ryzen AI PC 上运行,支持本地推理,无隐私顾虑。
- 应用场景:适用于边缘部署场景,提升实时处理能力。
结论
AMD OLMo 不仅展示了 AMD Instinct™ GPU 在大规模多节点 LM 训练任务中的强大能力,还体现了 AMD 对开源社区的支持和贡献。其卓越的性能和高效的训练策略,为 AI 研究和应用开辟了新的可能性。
展望未来,AMD OLMo 有望在更多领域发挥重要作用,推动 AI 技术的持续进步。
后台回复“进群”入群讨论。