导读 本文介绍了一念 LLM 大语言模型推理加速。
1. 大语言模型概要介绍
2. 一念 LLM(KsanaLLM)基本框架
3. 一念 LLM 框架调度
4. 一念 LLM 在 GR 模型的应用
5. 未来规划
6. Q&A
大语言模型概要介绍
Prefill 阶段:输入后走一遍全部的过程,这是全量的走模型的过程,走完之后,会产生一些中间结果。这些中间结果被缓存起来,放入到图中标红的下一步的过程中,KVCache 在进入 attention 之前,跟现有的新生成的 token 的结果做一个 concat,然后再做计算。之后又是一个 token 生成的过程。 Decoding 阶段:通过 KVCache 的优化,decoding 阶段的计算量和前面的 token 数就变得无关了。这里其实是一个近似的无关。因为在其他主要的部分都是无关的,但是在 attention 计算的地方,是被恢复成了一个全长的 token,然后进行 attention。
一念 LLM 基本框架
一念 LLM 框架调度
一念 LLM 在 GR 模型的应用
未来规划
1. 对模型的支持
2. 调度层面的优化
3. 硬件的支持
Q&A
分享嘉宾
INTRODUCTION
袁镱博士
腾讯
专家工程师
袁镱博士,腾讯公司专家工程师,负责无量系统和一念 LLM 等机器学习训练和推理框架研发。