前言,最近一直在持续学习智算相关的资料,了解最新的技术&产品&方案,同时借助个人自媒体也有幸认识了智算相关领域的众多朋友,包括IDC服务商、项目集成方、算力运营方、算力相关产品方、各类资方、大模型公司、机房设施、液冷产业链、国产AI芯片、芯片互联、电力方案、设计院和培训机构等,大家探讨最多的就是从各自维度如何看待“智算产业的发展趋势”,这两天学习了中国电信的《智算产业发展研究报告(2024)》,对于智算产业的发展趋势有了更清晰的认识,接下来从7个方面简单聊聊。
一、万卡、十万卡及以上智算集群规模依然是核心赛道
大家都知道,AI大模型参数量从几年前的十亿百亿逐步迈进了千亿万亿规模,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡及以上集群成为大模型基建军备竞赛的标配,有助于压缩大模型训练时间,实现模型能力的快速迭代,老美那边的马斯克xAI已落地10万+液冷H100 GPU 组成的超大规模智算集群。英伟达(迈络斯)的IB虽然在智算领域应用广泛,但是生态封闭,加强以太网全栈优化,降低综合成本替换IB成为大势所趋。早在2023年7月,由 AMD、Intel、Meta、微软、博通、华为、百度等头部云商、科技公司及硬件厂商等超过 30+家头部企业发起,成立超以太网联盟(Ultra Ethernet Consortium,UEC),成员如下图,加强以太网全栈协议层及跨层的优化改造,弥补传统网络的不足,打造开放生态的 AI 无损网络,意欲实现IB替换。
二、“简单粗暴”的租赁模式逐步转向平台化和一体化的模式
粗犷式的算力资源租赁服务面临的问题逐渐暴露,如运营模式单一、技术易过时、附加值低等,云服务商普遍通过算力平台实现专业运营管理和调度等能力,为客户提供稳定、可靠、高效的算力服务。市场已经从23年严重缺卡的卖方市场转向为“看重服务和技术能力的”买方市场,通过算力平台提供的MaaS层可屏蔽底层差异,基于算力服务平台可跨越模型供给侧与用户需求侧“鸿沟”,提速大模型应用普惠化,如某些大模型公司面向企业用户提供中立的大模型托管平台,通过“机器学习平台+算力”为大模型企业提供算力基础设施及平台,同时通过价格优惠策略快速切入市场。
三、AI大模型驱动智算中心(AIDC)配套基础设施的演进
相较于传统 IDC,智算中心(AIDC)往往采用高性能GPU、NPU、TPU等AI加速芯片,支持大规模 AI 模型的训练和推理,引发数据中心基础设施高功率、高密度、高弹性的能源改变。传统IDC单机柜电力规模已经从原本的4-8KW,提升至20-120KW;为了同时适配不同类型芯片和服务器功率,需要数据中心电源解决方案灵活支持高低功率机柜的搭配场景。配电制冷弹性建设、绿电储能创新部署、智能化运维管理成为AIDC 基础设施升级改造的趋势。
四、“高质量数据集”为了将会成为大模型能力提升的关键
源自OpenAI的说法,增加大模型的参数量不再是提升大模型能力的最有效手段,大规模、高质量数据和数据高效处理工程化才是关键。目前和未来智算中心的大模型训练更侧重于提升数据集的数量、质量,关注数据集本身,模型相对固定。增加百科、书籍、期刊等高质量、大规模、多样性的数据集占比对于提高模型精度、可解释性和减少训练时长效果显著。
如GPT-4相比GPT3训练数据规模提升约40倍(达13万亿个token),Llama 2相比Llama1 相比,训练数据规模增加40%(达2万亿个token)。目前数据集的市场需求以定制化服务为主,大模型时代下,“基础模型+微调”成为 AI开发新范式,微调是让AI获取特定领域知识,并赋予其组织、应用知识的能力,可以预见,贴合垂直场景的高精准定制化数据标注服务在未来将是市场需求主流。合成数据是模型能力跃迁的关键,当前的存量数据中,高质量数据将在 2026年耗尽,低质量数据将最晚在 2050 年耗尽,图像数据将最晚在2060年耗尽,为了解决高质量数据不足的问题,OpenAI 主要采用合成数据的方法,即借助生成对抗网络(GAN)来生成数据。
Gartner预测,2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由人工智能合成。合成数据因其高质量、高垂直的特性,将有可能最先在在自动驾驶、金融欺诈、医疗等场景率先应用,并将在 2030 年超过真实数据。目前,英伟达、微软、Meta 以及国内云商等均已在合成数据领域开展布局。下图是训练 LLM 的人工生成的公共文本的有效存量和数据集大小的预测。
五、从降本增效的角度AI芯片与“新”模型技术会多元发展
如何平衡性能和成本成为大模型发展面临主要难题。训练成本随着模型规模增加而急剧上升,如 2017 年的Transformer 模型训练成本约为 900 美元,而 2023年的GPT-4和Google 的 Gemini Ultra的训练成本分别约为 7800万美元和1.91亿美元,从追求长期降本和供应安全的角度,有实力的大型企业逐步发力AI芯片自研,如谷歌 TPU v5、微软 Maia 100、亚马逊Trainium、Meta的MITA V1等,当然国内芯片厂商及大型企业加快推进 AI 芯片国产化进程。
从其他角度提效的方式举例,采用“分时复用”策略和系统级优化手段,提升算力利用率和训练效率、从模型技术创新角度切入,主流企业加快研发 MoE大模型以平衡模型升级效果及成本等。
六、AI Agent(智能体)成为AI大模型落地的新流量入口
从市场动态可以看到,各大厂商、云服务商、机器人厂商纷纷加快大模型从云端向终端转移,如联发科联手OPPO和VIVO,在搭载天玑9300芯片的手机上,运行语言大模型 Llama2 和视频生成AI模型Stable Diffusion,国内某些企业已推出 5G 云端机器人,通过云端大模型训练迭代与机器人端侧交互,实现机器人之间的学习和知识共享,大模型赋能终端应用及工具智能升级,AI Agent逐渐成为大模型行业落地的主要方式,阿里钉钉利用大模型重塑 20+条产品线,面向ToB用户推出AI Agent产品提供处理文档、编写方案等一站式助理服务。下图是基于LLM 驱动的Agents基本框架。
七、大规模算力集群与电力协同发展成为新态势
大家肯定都听过一句开玩笑的话“算力的尽头是能源”,智能算力的高能耗特征日益显著,算力能源消耗呈现快速增长趋势,预计到 2030 年我国算力用电需求将接近当前的3倍左右,超大集群供电承压、东部算电能源短缺、绿电使用占比低成为制约算力发展的三大用能结构“瓶颈”,因此解决算力增长和电力消耗矛盾,推动算力和电力协同发展是必由路径。
根据全国“算力”建设,配套的电力在布局、市场和调度等方面融合发展成为算电协同的重点,一是算电布局协同,解决电力资源与算力用能的空间供需不平衡,统筹东西部的电力和算力输送格局,加强电力和算力“双向奔赴”,构建面向算力中心的多层次可再生能源供给。二是算电市场协同,解决绿电交易市场与算力低碳运营不相适应,推进电力市场体系建设,为算力提供可靠绿电来源和有效价格激励,通过市场化机制实现绿电低成本供给。三是算电调度协同,解决新能源发电与算力用能的稳定性不匹配,通过 AI技术推动两网间根据容量、季节等因素进行时间、空间匹配调度,通过联合调度实现低碳电力最大化消纳。
八、资料分享环节:
声明一下,以上文章的内容很多都是源自《智算产业发展研究报告(2024)》,如果大家也想下载学习,需要给我的公众号“IT技术分享-老张”点下关注,然后在聊天栏的地方发送“20250112智算”即可自动获得网盘下载链接,操作方式如下。
----老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!