LLM 的分布式训练好像已经取得了重大进展,这对国内的算力市场格局会带来比较大的影响,利好网络供应链。
P2P 去中心化的模型训练可能是未来解决模型算力缺口的一个重要方向。
Prime Intellect 发布了支持全球范围内的 AI 模型分布式训练框架 OpenDiLoCo。
他们利用这个框架进行了一个实验,在三个国家之间训练了一个模型。
计算资源利用率达到了90-95%,并将其扩展到原始工作规模的三倍,证明了其对十亿参数模型的有效性。
这个框架基于 Google Deepmind 的分布式低通信 (DiLoCo) 方法。
OpenDiLoCo 的特点包括:计算资源的动态调整、容错训练、点对点架构:没有主节点。
由于 DiLoCo 减少了通信时间,全归约瓶颈仅占训练时间的 6.9%,对整体训练速度的影响微乎其微