autodl算是国内比较早期的卡时平台,这几天发生了用户数据丢失不可用的大故障。猜测autodl并没有对全部的算力纳入自己的调度平台,有部分是属于第三方管理。并且,有部分机器并没有接入存储,才发生了数据丢失的大故障。
当然国外其实早就有了,比如google的colab,有非常多学生党在使用。Google的colab编程平台,是基于jupyter开发的(如下图)。我在20年就使用了colab平台,到现在从来没有发生过数据丢失的问题,最多是内存或显存不足,分配不出来资源了。
作为一名开发者,最关心也无非是如下几点:
数据不能丢
训练过程中,若非因为数据过大导致内存OOM,训练过程要保持持续稳定
网络传输要快。毕竟使用GPU的场景大部分需要消费大数据量的
如果出现过几次数据丢失,会极大地伤害开发者使用下去的信心。我自己也测试过非常多的卡时平台,现在主要是使用算力互联casdao平台。主要是因为casdao的网络比我测试过的其他家都快,其次就是我最长使用casdao上面的4090连续训练金融模型4天,都没有中断过,非常稳定。
我用的算力平台
公众号:行恒编程1对1开通云端算力,能翻10倍使用的云端算力券来啦,个人也可以玩大模型了
总而言之,算力平台的发展现在还处于早期,未来也会经历价格战,用户也会逐渐分群。类似快递业的发展,市场应该还是会需要一家能提供更高服务质量的算力平台(类顺丰),即使价格比其他家略高一些。