TensorRT-LLM:开启Jetson平台上大语言模型推理的新篇章

科技   2024-11-28 08:31   江苏  

TensorRT-LLM for Jetson是针对Jetson平台优化的高性能大语言模型(LLM)推理库,专为Jetson AGX Orin等高性能计算设备设计。该库集成了先进的量化技术、注意力核函数以及分页键值(KV)缓存,旨在提供高效的LLM推理性能。

01

 核心特性

  1. 高级量化:TensorRT-LLM支持INT4等高级量化技术,能够显著降低模型大小和推理延迟,同时保持较高的推理精度。
  2. 注意力核函数:针对LLM中常用的注意力机制进行了优化,提高了计算效率。

02

部署环境

TensorRT-LLM for Jetson的部署需要满足以下环境要求:

  • 硬件:支持Jetson AGX Orin设备,其他Orin设备的支持正在测试中。

  • 软件:需要安装JetPack 6.1(包含CUDA、cuDNN和TensorRT),并推荐使用NVMe SSD以确保足够的存储空间。此外,还需要安装一些必要的依赖项,如Python3-pip、libopenblas-dev等。


03

 安装与配置


  • 安装JetPack 6.1:通过NVIDIA SDK Manager安装JetPack 6.1,并确保将Jetson设备锁定在MAX-N时钟频率。

  • 安装依赖项:更新系统软件包,并安装所需的依赖项,如Python3-pip、libopenblas-dev、git-lfs等。此外,还需要安装cusparselt库和特定版本的numpy。

  • 安装TensorRT-LLM:从TensorRT-LLM的GitHub仓库中克隆v0.12.0-jetson分支,并按照提供的指南进行安装和配置。


04

模型转换与推理
  • 模型转换:TensorRT-LLM提供了模型转换工具,可以将LLM模型转换为TensorRT-LLM引擎。例如,可以使用提供的脚本将Llama模型转换为TensorRT-LLM引擎,并应用INT4量化。

  • 推理性能:转换后的模型可以在Jetson AGX Orin设备上高效运行,支持多种输入和输出长度配置。通过参考基准性能测试结果,可以了解到TensorRT-LLM在不同配置下的解码速度和上下文处理时间。


05

开放接口与扩展性

TensorRT-LLM提供了Python和C++编程接口,方便开发者进行集成和扩展。此外,还提供了一个示例服务器端点,支持OpenAI协议,使得TensorRT-LLM可以轻松地替换其他本地或云端的模型后端。这意味着开发者可以使用标准的openai-python包来与TensorRT-LLM进行交互,从而实现跨语言和跨设备的聊天完成请求。

06

结论

TensorRT-LLM for Jetson是一个高性能的大语言模型推理库,专为Jetson AGX Orin等高性能计算设备设计。通过先进的量化技术、注意力核函数以及分页KV缓存等特性,TensorRT-LLM能够提供高效的推理性能,并支持多种编程接口和扩展性选项。这为开发者在Jetson平台上进行大语言模型推理提供了强有力的支持。

资料地址:https://www.jetson-ai-lab.com/tensorrt_llm.html

https://github.com/NVIDIA/TensorRT-LLM/blob/v0.12.0-jetson/README4Jetson.md#3-reference-memory-usage

更多:

GPUS开发者
在这里,你可以及时了解NVIDIA GPU的行业资讯、最新进展、应用场景和各项功能。还有一些工具、技巧和教程,帮助你利用GPU打造未来的科技。参与GPU世界举办的精彩活动,体验人工智能的未来生活。
 最新文章