可以支持大概10亿参数的分布式大模型训练框架OpenDiLoCo

文摘   2024-07-27 17:46   北京  

LLM 的分布式训练好像已经取得了重大进展,这对国内的算力市场格局会带来比较大的影响,利好网络供应链。

P2P 去中心化的模型训练可能是未来解决模型算力缺口的一个重要方向。

Prime Intellect 发布了支持全球范围内的 AI 模型分布式训练框架 OpenDiLoCo。

他们利用这个框架进行了一个实验,在三个国家之间训练了一个模型。

计算资源利用率达到了90-95%,并将其扩展到原始工作规模的三倍,证明了其对十亿参数模型的有效性。

这个框架基于 Google Deepmind 的分布式低通信 (DiLoCo) 方法。

OpenDiLoCo 的特点包括:计算资源的动态调整、容错训练、点对点架构:没有主节点。

由于 DiLoCo 减少了通信时间,全归约瓶颈仅占训练时间的 6.9%,对整体训练速度的影响微乎其微



行恒编程1对1
Python、R、CS编程1对1咨询辅导,一对一在线/线下会议教学模式,超过100次的高分成功辅导真实案例。智算中心运营方案规划与大模型AI咨询服务,2021年开始从事大模型架构工作。
 最新文章