干货:北美CSP专家纪要

文摘   2024-11-20 21:32   上海  
某行刚邀请的一个CSP专家(老外,从表述看应该是微软),分享给大家:
1. 大家忽视的推理需求:端侧模型、企业本地部署模型、Agent,会让算力需求未来几年持续超过供应
2. 基础模型会“商品化”“同质化”,是“原材料”,既可以用于制作端侧小模型、也可以制作定制化企业模型(如制药)、也可以用于制作Agent。下一步的重点就是用基座模型构建更多Agent。
3. Agent的算力需求会是目前chatbot的10-100倍,会成为下一步算力需求主要驱动力。Agent会是小模型、编排层、执行层、工作流等的组合。可能会出现Agent群体(几十亿个)
(这一点吴恩达有介绍,Agent编排层,也就是今天微软Ignite的发布)

4. Agent算力增加100倍的原因:不是产出结果,而是整个工作流过程中消耗的巨量token,尤其是多个agent之间通信、协作时,消耗的token和算力会以10x 100x增加。比如OpenAI o1模型的思考过程就消耗10万token。这也是为什么Agent更适合consumption消耗定价模式,而不会是copilot这种传统“坐席制”的订阅模式每月30美金。也可以继续推演,这种“用量消耗制”的agent会逐渐替代“坐席制”的用户(员工)。
12月,微软将推出另外10个Agent,来应对Salesforce的Agent产品。
(这一点启发性很大,一旦Agent成立,一定是token消耗量成10倍增加。且解释了为什么salesforce的agent按照用量消耗收费,比co-pilot这种订阅费,从商业模式上更合理

5. AI应用机会分别属于谁:CSP和软件厂商会拿下通用型的一些工作,比如重复性知识工作如法律/编程/设计/翻译/纪要转录/分析洞察/通用Agent工作流。这些工作需要强大模型但不需要太多专业数据。但垂直AI行业应用(药物发现、医疗诊断、保险、金融等),未来仍属于传统企业+AI转型,因为垂直特定数据是核心且还在这些企业手中。而初创企业正在构建较小的AI模型(如Phi-3),可以将其训练成护士、医生、专家,并与企业合作。
6. 较旧的GPU不会被折旧至废弃,因为仍然可以用于推理,比如V100依然在微软云中运行推理。推理的计算强度是训练的1/100,1/1000。CSP会继续投入开发ASIC,性能比预期要好,且越来越适合推理,CSP可以更好地控制供应链,并且针对特定工作负载微调芯片。训练依然会是GPU主导,CSP还会继续抢。而AMD存在各种问题,芯片破裂、过热、集群无法正常工作等等。
7. scaling law放缓?打个比方,成倍的算力投入,无法带来成倍的模型效果提升,回报依次递减,ROI与投入不符,自然会找其他办法。上述仅限于文本LLM预训练(注意几个前置词)。多模态、Post train等其他方法还没有看到回报递减。
8. 关于星际之门:最初星际之门是为了超大规模模型训练,同时淘汰旧的数据中心。但现在推理需求很大,仍然需要使用旧数据中心,同时模型的训练还没有大到多个跨数据中心
(这里听起来是给星际之门降温了。之前记得有个微软CFO的投资者小会,也提到了所谓星际之门不是官方指引。但听起来最大的变化是推理占比超预期,而不是算力需求有问题)
9. 跨数据中心训练/推理问题:实际上并不那么复杂。这不是一个大脑在数据中心之间分裂的问题,而是多个版本的大脑在多个数据中心之间复制,以解决延迟和数据主权的问题。比如训练开始,不同版本复制到各个数据中心,随着训练,中间会合并,再复制、再合并。
10. 端侧AI:Co-pilot+PC处理设备上95%的查询,而只有很少的查询(复杂的查询)会返回云。
11. 核能是最终的归宿(传统电网无法支撑未来的电力需求),甚至未来会考虑核电/水电/风电作为主要能源,而电网作为备用能源另一方面,跨地区互联也是“不得不的最终选择。正在搜集接管一些比特币挖矿设施
12. CSP都越来越重视散热,决定了GPU使用寿命,以及训练/推理过程的稳定性

完整纪要原文已上传星球,此外更新了 AI 应用扫描
(有读者问,这是新用户使用,不是老用户哈,老用户续费的券在星球内置顶)

信息平权
理性 客观 朴素