感谢众多用户及合作伙伴一直以来对 NVIDIA TensorRT-LLM 的支持。TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布!
TensorRT-LLM
持续助力用户优化推理性能
TensorRT-LLM 可在 NVIDIA GPU 上加速和优化最新的大语言模型(Large Language Models)的推理性能。该开源程序库在 /NVIDIA/TensorRT-LLM GitHub 资源库中免费提供。
近期,我们收到了许多用户的积极反馈,并表示,TensorRT-LLM 不仅显著提升了性能表现,还成功地将其应用集成到各自的业务中。TensorRT-LLM 强大的性能和与时俱进的新特性,为客户带来了更多可能性。
Roadmap 现已公开发布
过往,许多用户在将 TensorRT-LLM 集成到自身软件栈的过程中,总是希望能更好地了解 TensorRT-LLM 的 Roadmap。即日起,NVIDIA 正式对外公开 TensorRT-LLM 的 Roadmap ,旨在帮助用户更好地规划产品开发方向。
我们非常高兴地能与用户分享,TensorRT-LLM 的 Roadmap 现已在 GitHub 上公开发布。您可以通过以下链接随时查阅:
https://github.com/NVIDIA/TensorRT-LLM
图 1. NVIDIA/TensorRT-LLM GitHub 网页截屏
这份 Roadmap 将为您提供关于未来支持的功能、模型等重要信息,助力您提前部署和开发。
同时,在 Roadmap 页面的底部,您可通过反馈链接提交问题。无论是问题报告还是新功能建议,我们都期待收到您的宝贵意见。
图 2. Roadmap 整体框架介绍
利用 TensorRT-LLM
优化大语言模型推理
TensorRT-LLM 是一个用于优化大语言模型(LLM)推理的库。它提供最先进的优化功能,包括自定义 Attention Kernel、Inflight Batching、Paged KV Caching、量化技术(FP8、INT4 AWQ、INT8 SmoothQuant 等)以及更多功能,以让你手中的 NVIDIA GPU 能跑出极致推理性能。
TensorRT-LLM 已适配大量的流行模型。通过类似 PyTorch 的 Python API,可以轻松修改和扩展这些模型以满足自定义需求。以下是已支持的模型列表。
我们鼓励所有用户定期查阅 TensorRT-LLM Roadmap。这不仅有助于您及时了解 TensorRT-LLM 的最新动态,还能让您的产品开发与 NVIDIA 的技术创新保持同步。
点击“阅读原文”,或扫描下方二维码,立即访问 NVIDIA TensorRT-LLM GitHub 页面。
https://github.com/NVIDIA/TensorRT-LLM