近日,AMD公司宣布推出其首个10亿参数级别的语言模型系列——AMD OLMo。AMD OLMo系列包括三个主要版本:AMD OLMo 1B、AMD OLMo 1B SFT以及AMD OLMo 1B SFT DPO,每个版本都代表了不同的训练阶段和优化目标。AMD OLMo 1B基于完全开源的架构设计,采用了10亿参数量级的解码器-only变压器模型结构,并通过下一位预测任务进行训练。该模型使用了来自Dolma v1.7数据集的1.3万亿个标记进行预训练,旨在使模型能够学习语言结构并获得广泛的世界知识。此外,AMD还公开了完整的训练细节,包括用于提取特定子集的脚本,这为其他研究者和开发者提供了宝贵的学习资源。AMD OLMo系列模型的训练分为三个主要阶段:预训练、监督微调(SFT)以及偏好对齐(DPO)。在预训练阶段,模型通过处理大量的通用文本数据来学习基本的语言能力和知识。为了提高模型的指令跟随能力,AMD团队进一步进行了两阶段的监督微调。第一阶段使用TuluV2数据集,这是一个包含0.66亿个标记的高质量指令数据集。第二阶段则结合了OpenHermes 2.5、WebInstructSub和Code-Feedback等数据集,总规模约为7亿个标记,旨在增强模型在编码、科学及数学问题解决等方面的能力。在完成上述训练后,AMD还利用Direct Preference Optimization(DPO)技术,基于UltraFeedback数据集对模型进行了偏好对齐,确保其输出更加符合人类的价值观和偏好。这一过程不仅提高了模型的实用性和安全性,也为用户带来了更加自然流畅的交互体验。与市场上其他类似规模的开源模型相比,如TinyLLaMA-v1.1、MobiLLaMA-1B、OLMo-1B-hf等,AMD OLMo系列在多个标准基准测试中表现出色。一般推理能力和多任务理解的标准基准的指令调优结果中,顶部标记表示性能最佳的 AMD OLMo 1B SFT/SFT DPO 模型与次优基线模型相比的性能提升。聊天基准测试的 SFT 和 DPO 模型结中,顶部标记表示性能最佳的 AMD OLMo 1B SFT/SFT DPO 模型与次优基线模型相比的性能提升。AI 基准测试的 SFT 和 DPO 模型结果中,顶部标记表示性能最佳的 AMD OLMo 1B SFT/SFT DPO 模型与次优基线模型相比的性能提升。这些测试涵盖了从基础的语言理解到复杂的推理能力等多个方面,证明了AMD OLMo模型在保持高效计算的同时,能够达到甚至超越同类产品的性能水平。
整个训练过程是在由16个节点组成的集群上完成的,每个节点配备了四块AMD Instinct™ MI250 GPU。这种强大的计算力不仅保证了模型训练的效率,同时也展示了AMD GPU在处理复杂AI工作负载方面的卓越能力。此外,AMD还特别强调了其训练方法的灵活性和可扩展性,使得未来可以更轻松地调整模型以适应不同场景的需求。开源链接:https://huggingface.co/amd/AMD-OLMo关注我们:即可加入【AI交流群】,免费领取【AI大礼包】