Autodl故障引发的启发:算力平台应该如何发展?

文摘   2024-07-14 10:31   北京  

     autodl算是国内比较早期的卡时平台,这几天发生了用户数据丢失不可用的大故障。猜测autodl并没有对全部的算力纳入自己的调度平台,有部分是属于第三方管理。并且,有部分机器并没有接入存储,才发生了数据丢失的大故障。

       当然国外其实早就有了,比如google的colab,有非常多学生党在使用。Google的colab编程平台,是基于jupyter开发的(如下图)。我在20年就使用了colab平台,到现在从来没有发生过数据丢失的问题,最多是内存或显存不足,分配不出来资源了。

作为一名开发者,最关心也无非是如下几点:

  1. 数据不能丢

  2. 训练过程中,若非因为数据过大导致内存OOM,训练过程要保持持续稳定

  3. 网络传输要快。毕竟使用GPU的场景大部分需要消费大数据量的


      如果出现过几次数据丢失,会极大地伤害开发者使用下去的信心。我自己也测试过非常多的卡时平台,现在主要是使用算力互联casdao平台。主要是因为casdao的网络比我测试过的其他家都快,其次就是我最长使用casdao上面的4090连续训练金融模型4天,都没有中断过,非常稳定。

我用的算力平台

公众号:行恒编程1对1开通云端算力,能翻10倍使用的云端算力券来啦,个人也可以玩大模型了


      总而言之,算力平台的发展现在还处于早期,未来也会经历价格战,用户也会逐渐分群。类似快递业的发展,市场应该还是会需要一家能提供更高服务质量的算力平台(类顺丰),即使价格比其他家略高一些。

行恒编程1对1
Python、R、CS编程1对1咨询辅导,一对一在线/线下会议教学模式,超过100次的高分成功辅导真实案例。智算中心运营方案规划与大模型AI咨询服务,2021年开始从事大模型架构工作。
 最新文章