Autodl故障引发的启发：算力平台应该如何发展？

文摘 2024-07-14 10:31 北京

autodl算是国内比较早期的卡时平台，这几天发生了用户数据丢失不可用的大故障。猜测autodl并没有对全部的算力纳入自己的调度平台，有部分是属于第三方管理。并且，有部分机器并没有接入存储，才发生了数据丢失的大故障。

当然国外其实早就有了，比如google的colab，有非常多学生党在使用。Google的colab编程平台，是基于jupyter开发的（如下图）。我在20年就使用了colab平台，到现在从来没有发生过数据丢失的问题，最多是内存或显存不足，分配不出来资源了。‍‍‍‍‍‍‍‍‍‍‍‍

作为一名开发者，最关心也无非是如下几点：‍‍

数据不能丢
训练过程中，若非因为数据过大导致内存OOM，训练过程要保持持续稳定
网络传输要快。毕竟使用GPU的场景大部分需要消费大数据量的

如果出现过几次数据丢失，会极大地伤害开发者使用下去的信心。我自己也测试过非常多的卡时平台，现在主要是使用算力互联casdao平台。主要是因为casdao的网络比我测试过的其他家都快，其次就是我最长使用casdao上面的4090连续训练金融模型4天，都没有中断过，非常稳定。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

我用的算力平台
公众号：行恒编程1对1开通云端算力，能翻10倍使用的云端算力券来啦，个人也可以玩大模型了

‍

总而言之，算力平台的发展现在还处于早期，未来也会经历价格战，用户也会逐渐分群。类似快递业的发展，市场应该还是会需要一家能提供更高服务质量的算力平台（类顺丰），即使价格比其他家略高一些。‍‍‍‍‍‍‍‍‍‍‍‍‍

行恒编程1对1

Python、R、CS编程1对1咨询辅导，一对一在线/线下会议教学模式，超过100次的高分成功辅导真实案例。智算中心运营方案规划与大模型AI咨询服务，2021年开始从事大模型架构工作。

最新文章

deepseek r1推理能力为什么这么强9

AutoSRT视频双语字幕生成Mac App的年终总结，发现与提升闲置Mac的新价值

国产推理模型Deepseek R1快速读

AI时代的文件系统颠覆者

AI下一个大事件将是Agentic AI。Agentic AI：AI领域的黑马，如何颠覆未来？

提升Ollama在Mac上运行速度，优化AutoSRT字幕生成速度

2025年的AI发展GPT-4、Gemini

AI用户故事：留学党的救星！AutoSRT一键搞定字幕翻译

AI：12月7日全球最新关键进展，对国内来说形势严峻

AI新产品AutoSRT：为你的视频增加双语字幕

一键为你的视频增加中英双语字幕，免费，无需联网

AI用户故事：00后大学女生在北京做陪诊，实现大学财务自由

【征文活动】分享您的《有空吗》产品使用经历

有空吗？原行恒晚自习全新改版升级，基于AI开发完成，全新的时间管理新模式提升会议安排、任务管理、灵活就业人员的工作效率新软件

我用Cursor AI开发了一个记录时间安排寻找空闲时间的web app，只用了4个小时

由AutoGLM卡顿想到的新型AI Agent通算智算协同解决方案

ChatGPT o1开源替代出现了

什么是专线网络？

FastAINet能否用于降低大模型训练的成本？

FastAINet通过光纤直连专线加速大模型训练与推理

AutoGLM的未来发展趋势

智算技术与算力规划设计及部署方案与实践在新疆/南京开班了！！！

FastAINet，AI时代的新型CDN

AI智算中心互联互通专线光纤网络解决方案: FastAI

ChatGPT Plus 企业共享计划之二：服务规格

chatgpt plus企业共享计划

Notebook LM是当下最好的笔记产品，也是最好的AI应用案例

GPT o1的局限性

在视频创作领域的探索，发布第一个AI视频制作镜像AI TAI Studio。让生产优质好玩的视频，越来越简单

中文TTS开源产品chattts使用体验

特斯拉FSD将要在明年一季度在中国上线，也就是2025年Q1，绝对的利好AI产业发展

scaling law将迎来大修改

AI里面一个非常简洁的多头注意力实现

OpenAI 正在逐渐失去产AI战争的红利

出二手浪潮10台a800，用了一年，还有两年质保

gpt5烟雾弹又来了

OpenAI 将跳过 GPT-5 直接上 GPT-6，内部代号 Orion（猎户座）

GPT5大概率今年发不了

将长文字转换为带声音的视频

出租手上富余的3台A800机器，价格可谈

读懂泛茶资本局的师傅：什么ai与什么G屁U的做局手法

市场价打5折出售两台华为昇腾910B3机器，23年底购入使用半年左右的机器