来自Snowflake AI Research和卡内基梅隆大学,推出了一种名为SuffixDecoding的无模型方法,以加速大型语言模型(LLM)的推理。该方法利用基于先前输出生成的后缀树索引,避免了草稿模型或额外解码头的复杂性,从而提高了推理效率。SuffixDecoding通过为每个新推理请求构建独立的后缀树,能够有效处理文档摘要、问答、多轮对话和代码编辑等任务,显著提升了输出吞吐量和减少了延迟。
参考:
https://nousresearch.com/introducing-the-forge-reasoning-api-beta-and-nous-chat-an-evolution-in-llm-inference/
点个分享、点赞与在看,你最好看~