全球首发!华为正式官宣:7月18日,新品正式发布!

体娱   2024-07-18 09:50   北京  

7月18日消息,华为云官方宣布全球首个面向大模型推理的华为云多级KV Cache缓存系统论文入选计算机系统领域顶会华为携华为云EMS团队的杰出研究成果CachedAttention亮相美国加州圣克拉拉召开的计算机系统领域顶会USENIX ATC 2024,华为聚焦计算机系统领域,引发业界关注。HarmonyOS NEXT正式版目前已经正式开启先锋测试,备受关注的华为Mate70首发搭载!纯血鸿蒙原生游戏光遇手游,将在ChinaJoy与大家见面!

华为全新新品华为云大模型推理多级KV Cache缓存系统计划是继华为鸿蒙系统全新新品HarmonyOS NEXT鸿蒙星河版开发者预览版Beta新品计划中的核心新品计划!USENIX ATC作为聚焦计算机系统领域的顶级国际会议,自1992年创办以来,已走过了32年的辉煌历程。华为云EMS团队的杰出研究成果《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》成功被顶会收录。计算机系统领域顶会共收到488篇投稿,经过严格的评审,最终仅77篇论文被录用,录用率仅为15.8%。

华为云多级KV Cache缓存系统论文提出了一种全新的解决方案,解决大型语言模型(LLM)多轮对话中推理效率低下、成本高昂的问题。通过引入多级KV Cache缓存系统AttentionStore,实现大模型推理过程中的KV Cache复用,降低首Token时延(TTFT)。展开来讲就是华为CachedAttention技术通过维护一个分层的KV Cache存储系统AttentionStore,利用DRAM和SSD等经济高效的存储介质。通过分层预加载异步保存方法,华为CachedAttention将KV Cache访问与NPU计算重叠,减少从慢速介质上访问KV Cache的开销。

华为CachedAttention采用一个调度程序感知的FetchEvict方法,根据推理作业调度程序的提示,有意识地在不同层中进行KV Cache的放置。华为全新策略确保要访问的KV Cache始终被放置在最快的存储层次上,进一步提升推理性能。针对LLM上下文窗口溢出导致KV Cache失效的问题,华为团队巧妙地将位置编码解耦,并有效截断KV Cache,使得即使上下文窗口溢出,保存的KV Cache依然能够保持有效。保证在多轮对话中能够持续重用KV Cache,从而大幅降低推理成本。

传统的推理过程中,大型语言模型需要对每一个输入的Token进行复杂的计算,导致推理速度的降低和计算资源的浪费。CachedAttention技术的核心思想在于,通过缓存之前计算过的注意力权重,避免在推理过程中重复计算相同的注意力矩阵,从而提升推理速度。华为云多级KV Cache缓存系统实验结果表明,华为CachedAttention技术显著降低高达87%的大模型推理首Token时延(TTFT),并提升Prefill阶段7.8倍的吞吐量。降低端到端推理成本的同时为大型语言模型在多轮对话场景中的应用提供技术支撑。

华为云大模型推理多级KV Cache缓存系统的成功发布并入选计算机系统领域顶级国际会议人工智能与深度学习技术已成为推动科技发展的核心动力,对话机器人、内容创作等领域展现出巨大的应用潜力,彰显华为云在人工智能和计算机系统领域的卓越实力,助力中国科技力量全球技术竞赛中的领先地位。

手机测评
手机测评——专业、有趣的科技新媒体。 每天为您推送科技数码产品资讯和大家交流科技圈的信息。随时了解手机测评的动向,第一时间观看我的测评视频。
 最新文章