数据总量和质量决定了大模型能力的上限。根据“尺度定律”,增加训练数据量,预训练模型的效果会越来越好,GPT系列的训练数据由GPT-1的4.6GB增长至GPT-4的约40TB。海量数据的准备效率和数据在全流程间的流转效率是影响大模型端到端生产成本的核心要素,AI存储是解决大模型发展中数据归集时间长、数据处理效率慢、记忆时间短等问题的核心环节。
海量原始数据归集等待时间长
一是大模型训练所需多模态数据需事先汇集。数据汇集需通过多地域、多渠道归集汇总,涉及数据中心、边缘设备、云等不同层级设备和不同协议之间的数据交互。二是采集的训练数据以小文件居多,元数据管理困难。郑纬民院士论文《分布式技术在大模型训练和推理中的应用》显示,任一模态数据集可能包含数亿甚至数百亿小文件,存储100亿小文件需管理7TB元数据。海量小文件的元数据处理时间长,要求文件系统既要扩展性好又要读取速度快。
训练数据预处理时间长
一是采集的原始数据无法直接用于模型训练。从多渠道收集的海量数据往往良莠不齐,直接用于模型训练会影响模型训练效果。为了获得高质量的数据样本,在模型训练前需进行数据预处理,如随机采样、数据解码、变换等操作。谷歌数据中心统计,大模型训练时间的30%的是用于数据预处理。微软分析了9种常见模型,数据预处理最多占用65%的模型训练时间。二是数据读取网络开销大,现有方法通常以计算为中心,训练过程中待处理数据可能分散在多个节点,将需要处理的数据转移到计算节点时,读取远端节点数据会产生极大的网络开销。
训练阶段检查点文件读写效率低
为提高大模型训练效率,实现断点续训,在训练过程中需存储检查点文件。以国家超级计算无锡中心的神威平台10万卡规模训练万亿参数量模型为例,训练时需保存近12TB的模型参数到检查点文件中,在未经优化的情况下,单次检查点文件写入需花费3小时,等待检查点文件写入过程中会产生计算资源闲置,导致基础设施可用度不足。
大模型推理记忆时间短、存在输出幻觉
一是记忆时间短导致大模型进行长对话时无法精准理解用户需求,个性化体验差。存储推理过程中的长上下文及中间推理token成为提升大模型逻辑能力的重要优化方向。二是输出幻觉易导致大模型信任危机,阻碍大模型落地应用。引入外部知识库可将推理过程中的生成问题转换为基于既有数据的搜索或摘要问题,避免因模型内部数据不足或偏差产生的错误结论。外部知识库的引入要求AI存储具备高效的高维数据处理能力和复杂的查询操作能力。
大模型在落地过程给AI存储带来了诸多挑战,如何解决大模型落地过程中面临的新挑战成为产业亟需解决的问题。《高质量大模型基础设施研究报告》(征求意见稿)中详细分析了大模型落地给AI存储带来的挑战以及解决问题的关键技术,同时提供了业界解决AI存储挑战的实际案例。《高质量大模型基础设施研究报告》(征求意见稿)中的核心发现将于中国人工智能产业发展联盟第十三次全会进行发布。
《高质量大模型基础设施研究报告》(征求意见稿)重点梳理了大模型发展对基础设施在计算、存储、网络、开发工具链和运维五个重要能力上带来的新挑战,明晰大模型基础设施发展的关键技术,并提出高质量大模型基础设施的评价指标。通过业界实践案例分析,为企业建设高质量大模型基础设施提供参考。
联系人
曹老师 19910750972(微信同号)
caoxiaofeng@caict.ac.cn
董老师 15910462421(微信同号)
donghao@caict.ac.cn
/ 全会议程/
- END -
2017年10月初,工业和信息化部正式批复中国信息通信研究院承建人工智能关键技术和评测工业和信息化部重点实验室(以下简称“部重点实验室”)。
中国信通院为进一步推动我国人工智能的工程化进程,依托部重点实验室成立了AI工程化推进委员会。委员会聚焦人工智能开发工具和平台,AI研发运营和管理,大模型应用,知识计算应用和AI数据集治理等技术方向,以产业活动、研究报告、标准和评估、最佳实践等手段,推动人工智能工程化相关的工具、系统、流程和治理体系的完善。
企业单位申请链接: