2025年1月8日,在北京市石景山区万达嘉华酒店举办的大模型工程化成果发布会上,中国信息通信研究院人工智能研究所发布《高质量大模型基础设施研究报告(2024年)》。
1. 计算资源分配粗放,高效异构算力融合调度成为新需求。一是异构资源统一纳管。算力资源利旧带来不同架构AI芯片纳管需求,大模型在科学、工业仿真等领域应用加深带来CPU和AI芯片纳管需求。华为、移动、电信等厂商积极推动异构智算管理平台研发,通过统一编程接口、智能调度等技术,实现对多类异构算力资源协同管理,提高算力利用率。 二是智能化调度实现算力经济最大化。通过自动化监控、预测、自适应调度等技术优化资源利用,采用“AI+历史数据+实时数据”分析,实现算力需求精准预测,动态调度。
2. 海量数据处理低效,高性能大模型存储技术成为新关键。一是长记忆存储助力推理降本增效。通过高性能存储的大范围全局共享和持久化KV Cache能力,可实现高性价比推理加速,经企业实践验证,推理吞吐提速可超50%,推理成本显著下降。 二是加速卡直通存储实现数据直达。通过加速卡和存储设备的数据一跳直达,可以消除CPU处理瓶颈,极大提升数据从存储到加速卡的数据传输效率,经企业实践验证,可实现TB/s级带宽和亿级IOPS,每个机架单元的存储性能可达50GB/s以上,大幅提升集群可用度。 三是数据编织技术提高全流程效率。通过数据编织技术,实现全局数据可视可管,跨域统一视图。
3. 并行计算规模攀升,高通量大规模网络技术成为新方案。一是负载均衡技术助力解决“算等网”问题。经企业实践验证,逐流方案通过定制化的xCCL配合网络路径优化,在保证网络高可靠性的同时,网络链路利用率可达90%以上。逐包方案通过自适应路由等技术,可实现整网吞吐达到90%以上。 二是参数面、存储面/样本面、业务面、带外管理面网络互联有效提升大模型训练效率。在训前、训中、训后,多网络面互联解决训练过程涉及的数据、模型、模型参数、检查点等的写入和导出问题。
4. 模型参数急剧增长,高效能大模型开发技术成为新解法。一是训练加速技术涌现支撑大模型高效构建。计算资源优化方法通过混合精度计算等方式,减少计算和存储需求,有效提升模型效率。计算优化策略通过算子融合、梯度积累技术等实现模型执行效率提升。 二是推理技术提升模型推理效率。模型压缩通过低比特量化、稀疏化等方式实现模型训中、训后的低损与高效压缩。推理引擎技术进一步提升推理性能和兼容性。
5. 基础设施故障率高,高容错大模型运维技术成为新手段。一是训前健康检查保障作业零隐患运行。通过全栈隐患排查,降低作业启动失败频率,避免计算资源损失。 二是训中故障可预测、可恢复。通过智能监控告警技术,进行端侧监控、拥塞分析等辅助故障定位,基于既有运维知识库,实现异常预测、RCA根因定位,有效提升集群稳定运行时长。
进微信群聊规则
任选一种方式
方式1:加入有很多人咨询的会员后,微信添加崔老师ppplaws,告知想要加入的群聊,直接邀请。
方式2:转发公众号有很多人咨询的文章,发朋友圈(可见,不删除);或发微信群(至少30人,行业相关),截图发送崔老师ppplaws,告知想要加入的群聊。
完整资料数据索取路径
任选一种方式
方式1:知识地球自行下载,http://www.zhishidiqiu.com/kwZone,注册登陆账号后搜索对应市县级行政区划,弹出对应的资料(图片、文档、音频或视频等)。
方式2:加入有很多人咨询的知识星球会员,在星球内搜关键词,或输入网页网址https://t.zsxq.com/3jYRK,微信扫码登录,可直接不限数量下载文件。
方式3:转发公众号有很多人咨询的文章,发朋友圈(可见,不删除);或发微信群(至少30人,行业相关),截图发送崔老师ppplaws,并告知资料名称(一天仅限一份)。
最新丨2022年度《中国主要城市道路网密度与运行状态监测报告》
资料丨2021年中国商业航天研究报告
资料丨2022年中国新经济独角兽百强榜暨标杆企业研究报告-艾媒咨询
白皮书
资料丨城市数字孪生标准化白皮书
资料丨人工智能标准化白皮书
资料丨物联网新型基础设施智慧灯杆建设技术标准化白皮书
推荐丨信通院、华为、京东方联合发布《虚拟(增强)现实白皮书2021》
资料丨两份容易混淆的数字孪生白皮书
资料丨数字孪生应用白皮书(2020版)
资料丨5G云化虚拟现实白皮书
资料丨知识图谱标准化白皮书(2019)
资料丨浅谈《WeCity未来城市2.0白皮书》
资料丨国家信息中心发布《全光智慧城市白皮书》
资料丨智慧社区详细架构与知识系统设计白皮书
资料丨数实共生丨未来经济白皮书2021
资料丨2021版《电信行业人工智能应用白皮书》
蓝皮书
推荐丨新能源汽车蓝皮书:中国新能源汽车产业发展报告(2022)
加群提示
更多精彩资讯扫码关注