在 Nvidia Jetson AGX Orin 上使用 TensorRT-LLM 运行 LLM

科技 2024-11-29 11:04 江苏

前言

NVIDIA刚发布了TensorRT-LLM for Jetson:TensorRT-LLM：开启Jetson平台上大语言模型推理的新篇章，这不教程就来了么！

教程

背景：

大型语言模型（LLM）推理的关键瓶颈在于 GPU 内存资源短缺。因此，各种加速框架主要强调减少峰值 GPU 内存使用和提高 GPU 利用率。这就是 Nvidia 的游戏规则改变者 TensorRT-LLM 发挥作用的地方。TensorRT-LLM 是一个开源库，可加速和优化 NVIDIA AI 平台上 LLM 的推理性能。TensorRT 为 NVIDIA GPU 上的推理提供了高度专业化的优化。请参阅 Github 存储库以获取更多示例和文档！

在本指南中，我将以 Llama-3.1-8B-Instruct 模型为例，演示如何在 NVIDIA Jetson AGX Orin 64GB 开发者套件上使用 TensorRT-LLM 部署 LLM 推理引擎。NVIDIA Jetson AGX Orin 开发者套件在基于 Arm 的 CPU 内核和基于 NVIDIA Ampere 架构的 GPU 之间具有统一的内存架构。系统具有 64 GB 的共享内存，由 CPU 和 GPU 共享。

Nvidia JetPack 6.1 是 JetPack 6 的最新生产版本。确保您的 Jetson AGX Orin 开发者套件已使用最新的 JetPack 6.1 进行刷新。

使用 apt show nvidia-jetpack 命令检查当前 jetpack 版本：

Package: nvidia-jetpack
Version: 6.1+b123
Priority: standard
Section: metapackages
Source: nvidia-jetpack (6.1)
Maintainer: NVIDIA Corporation
Installed-Size: 199 kB
Depends: nvidia-jetpack-runtime (= 6.1+b123), nvidia-jetpack-dev (= 6.1+b123)
Homepage: http://developer.nvidia.com/jetson
Download-Size: 29.3 kB
APT-Sources: https://repo.download.nvidia.com/jetson/common r36.4/main arm64 Packages
Description: NVIDIA Jetpack Meta Package

您可以使用预构建的 Docker 映像，因此您可以按照 Nvidia Jetson AI Lab 页面上的文档轻松入门：https://www.jetson-ai-lab.com/tensorrt_llm.html

为了增加 VRAM，我在 Jetson AGX Orin 上禁用了桌面 GUI。

步骤 1.获取模型权重

我们需要下载我们将使用的模型的权重，即 Meta-Llama-3.1-8B-Instruct。因此，请确保您已接受许可条款并生成相应的 HuggingFace 令牌以下载模型。

首先，您需要通过在终端中运行以下命令来设置 Git LFS：

sudo apt-get update && sudo apt-get -y install git-lfs

通过运行以下命令安装 Git LFS：

git lfs install

使用以下命令克隆 Llama-3.1-8B 模型存储库：

git clone https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct

或者，您可以使用 Hugging Face CLI 下载模型。使用以下命令安装 CLI：

pip install -U "huggingface_hub[cli]"

使用 huggingface-cli login 命令验证您的 Hugging Face 帐户。输入您的 Hugging Face API 密钥。

使用以下命令下载 Llama-3.1-8B-Instruct 模型：

huggingface-cli download meta-llama/Llama-3.1-8B-Instruct --local-dir ./Llama-3.1-8B-Instruct

下载完成后，您可以使用以下命令验证下载文件夹的内容：

ls -l ./Llama-3.1-8B-Instruct/
total 15693184
-rw-rw-r-- 1 jetson jetson        826 Nov 16 21:22 config.json
-rw-rw-r-- 1 jetson jetson        185 Nov 16 21:22 generation_config.json
-rw-rw-r-- 1 jetson jetson       7627 Nov 16 21:21 LICENSE
-rw-rw-r-- 1 jetson jetson 4976698672 Nov 16 21:30 model-00001-of-00004.safetensors
-rw-rw-r-- 1 jetson jetson 4999802720 Nov 16 21:30 model-00002-of-00004.safetensors
-rw-rw-r-- 1 jetson jetson 4915916176 Nov 16 21:29 model-00003-of-00004.safetensors
-rw-rw-r-- 1 jetson jetson 1168138808 Nov 16 21:24 model-00004-of-00004.safetensors
-rw-rw-r-- 1 jetson jetson     23950 Nov 16 21:22 model.safetensors.index.json
drwxrwxr-x 2 jetson jetson       4096 Nov 16 21:42 original
-rw-rw-r-- 1 jetson jetson      40883 Nov 16 21:21 README.md
-rw-rw-r-- 1 jetson jetson         73 Nov 16 21:22 special_tokens_map.json
-rw-rw-r-- 1 jetson jetson      50500 Nov 16 21:22 tokenizer_config.json
-rw-rw-r-- 1 jetson jetson    9085658 Nov 16 21:22 tokenizer.json
-rw-rw-r-- 1 jetson jetson       4691 Nov 16 21:22 USE_POLICY.md

第 2 步：准备

使用 venv 模块创建新的虚拟环境，以隔离您的项目依赖项。

python3 -m venv tensorrt-llm

激活新创建的虚拟环境

source tensorrt-llm/bin/activate

更新包并安装所需的包

sudo apt-get update
sudo apt-get install -y python3-pip libopenblas-dev ccache

下载 CuSparseLT 安装脚本：

wget https://raw.githubusercontent.com/pytorch/pytorch/9b424aac1d70f360479dd919d6b7933b5a9181ac/.ci/docker/common/install_cusparselt.sh

设置 CUDA 版本：通过运行以下命令将 CUDA 版本设置为 12.6：

export CUDA_VERSION=12.6

通过运行以下命令安装 CuSparseLT：

sudo -E bash ./install_cusparselt.sh

此过程可能需要一些时间才能完成。确保安装成功完成。

最后，使用 pip 安装 NumPy 版本 1.26.1：bash 复制代码

python3 -m pip install numpy=='1.26.1'

此步骤完成准备阶段，设置后续步骤所需的环境和依赖项。

第 3 步：构建 TensorRT-LLM 引擎

使用以下命令从 GitHub 克隆 TensorRT-LLM 存储库：

git clone https://github.com/NVIDIA/TensorRT-LLM.git
cd TensorRT-LLM
git checkout v0.12.0-jetson
git lfs pull

然后，执行以下命令，为 TensorRT-LLM 构建一个 wheel 文件：

 sudo python3 scripts/build_wheel.py --clean --cuda_architectures 87 -DENABLE_MULTI_DEVICE=0 --build_type Release --benchmarks --use_ccache -DCMAKE_CUDA_COMPILER=/usr/local/cuda-12.6/bin/nvcc

此命令为 TensorRT-LLM 构建一个 wheel 文件。可能需要一些时间才能完成。

您将看到如下所示的输出：

Successfully built tensorrt_llm-0.12.0-cp310-cp310-linux_aarch64.whl

使用 pip 安装构建的 wheel 文件：

pip3 install build/tensorrt_llm-*.whl

预期输出：

Successfully installed tensorrt-llm-0.12.0

通过导入库并打印其版本来验证安装：

python3 -c "import tensorrt_llm; print(tensorrt_llm.__version__)"

要在 GPU 上高效运行这些模型，我们必须将它们转换为 TensorRT-LLM 格式。然后，我们将使用 trtllm-build 命令行工具从 Hugging Face 检查点构建优化的 TensorRT 引擎。

HuggingFace 模型的转换可以通过一个命令完成：

sudo python /path/to/TensorRT-LLM/examples/llama/convert_checkpoint.py \
--model_dir /path/to/Llama-3.1-8B-Instruct \
--output_dir /path/to/Llama-3.1-8B-Instruct-convert \
--dtype float16

您将看到如下所示的输出：

[TensorRT-LLM] TensorRT-LLM version: 0.12.0
0.12.0
230it [00:01, 124.05it/s]
Total time of converting checkpoints: 00:00:30

这应该会产生两个文件：模型配置（config.json）和权重（rank0.safetensors）。接下来，我们构建模型引擎：

sudo trtllm-build \
--checkpoint_dir /path/to/Llama-3.1-8B-Instruct-convert \
--gpt_attention_plugin float16 \
--gemm_plugin float16 \
--output_dir /path/to/Llama-3.1-8B-Instruct-engine

此命令使用转换后的检查点构建 TensorRT 引擎，并将结果存储在指定的目录中。

如果构建成功，您应该会看到以下输出：

[11/17/2024-16:26:23] [TRT-LLM] [I] Build phase peak memory: 32793.48 MB, children: 0.00 MB
[11/17/2024-16:26:23] [TRT-LLM] [I] Serializing engine to /home/jetson/Projects/tensorrtllm/Llama-3.1-8B-final/rank0.engine...
[11/17/2024-16:26:44] [TRT-LLM] [I] Engine serialized. Total time: 00:00:20
[11/17/2024-16:26:45] [TRT-LLM] [I] Total time of building all engines: 00:01:06

这应该会产生两个文件：模型配置（config.json）和权重（rank0.engine）。

第 4 步：在 NVIDIA Jetson AGX Orin 64GB 开发者套件上运行推理

构建模型引擎后，您可以通过使用以下命令运行模型来测试它：

sudo python3 /path/to/TensorRT-LLM/examples/run.py \
--engine_dir /path/to/Llama-3.1-8B-Instruct-engine \
--max_output_len 100 \
--max_attention_window_size 1024 \
--tokenizer_dir /path/to/Llama-3.1-8B-Instruct \
--input_text "Kazakhstan is" \
--gpu_weights_percent 70 \
--kv_cache_free_gpu_memory_fraction 0.1 \
--num_beams 1

如果模型成功运行，您应该会看到以下输出：

当令牌流式传输时，可以明显地注意到 TensorRT LLM 的性能。

然后我们可以在 OpenAI 兼容模式下对 TensorRT LLM 服务器进行 TensorRT LLM 服务器。运行以下命令：

sudo python3 /path/to/TensorRT-LLM/examples/apps/openai_server.py \
/path/to/Llama-3.1-8B-Instruct-engine \
--tokenizer /path/to/Llama-3.1-8B-Instruct \
--host 0.0.0.0 \
--port 5001

使用 --host 选项，您可以允许外部连接。

您可以通过使用 curl 命令发送请求来测试模型的推理。

 curl http://localhost:5001/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "meta-llama/Llama-3.1-8B",
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "Who won the world series in 2020?"}
        ]
    }'

如果响应成功，您应该会看到以下输出：

{"id":"chatcmpl-869061ee5db04f8ca9f4d0b870c7de51","object":"chat.completion","created":1732093982,"model":"meta-llama/Llama-3.1-8B","choices":[{"index":0,"message":{"role":"assistant","content":"The Los Angeles Dodgers won the 2020 World Series, defeating the Tampa Bay","tool_calls":[]},"logprobs":null,"finish_reason":null,"stop_reason":null}],"usage":{"prompt_tokens":52,"total_tokens":68,"completion_tokens":16}}

您可以使用类似于 OpenAI 的客户端函数来调用 TensorRT-LLM 服务。

from openai import OpenAI

openai_api_key = "EMPTY"
openai_api_base = "http://localhost:5001/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="meta-llama/Llama-3.1-8B-Instruct",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Tell me a about Kazakhstan."},
    ]
)
print("Chat response:", chat_response)

如果响应如下，则部署成功。

Chat response: ChatCompletion(id='chatcmpl-b71842ec0407465b9b5ac32130bfd356', choices=[Choice(finish_reason=None, index=0, logprobs=None, message=ChatCompletionMessage(content='Kazakhstan is a country located in Central Asia, bordered by Russia to the', refusal=None, role='assistant', function_call=None, tool_calls=[]), stop_reason=None)], created=1732086771, model='meta-llama/Llama-3.1-8B-Instruct', object='chat.completion', service_tier=None, system_fingerprint=None, usage=CompletionUsage(completion_tokens=16, prompt_tokens=48, total_tokens=64, completion_tokens_details=None, prompt_tokens_details=None))

创建 Streamlit Web 应用程序以与 TensorRT-LLM 服务交互

import streamlit as st
from openai import OpenAI

st.title("TensorRT-LLM Demo on the NVIDIA Jetson AGX Orin Developer Kit ")

client = OpenAI(base_url="http://localhost:5001/v1", api_key="None")

if "messages" not in st.session_state:
    st.session_state["messages"] = []

prompt = st.chat_input("Say something")
if prompt:
    st.session_state["messages"].append({"role": "user", "content": prompt})
    for message in st.session_state["messages"]:
        st.chat_message(message["role"]).write(message["content"])
    container = st.empty()
    chat_completion = client.chat.completions.create(
        stream=True,
        messages=st.session_state["messages"],
        model="ensemble", 
        max_tokens=512
    )
    response = ""
    for event in chat_completion:
        content = event.choices[0].delta.content
        if content:
            response += content
        container.chat_message("assistant").write(response)
    st.session_state["messages"].append({"role": "assistant", "content": response})

在这篇博文中，我的目标是演示如何在 NVIDIA Jetson AGX Orin 64GB 开发者套件上使用 TensorRT LLM 实现最先进的推理。我涵盖了从编译 LLM 到使用 Streamlit 在生产环境中部署模型的所有内容。

http://mp.weixin.qq.com/s?__biz=MjM5NTE3Nzk4MQ==&mid=2651246637&idx=1&sn=177822e77f332159675dff97be2a9505

GPUS开发者

在这里，你可以及时了解NVIDIA GPU的行业资讯、最新进展、应用场景和各项功能。还有一些工具、技巧和教程，帮助你利用GPU打造未来的科技。参与GPU世界举办的精彩活动，体验人工智能的未来生活。

最新文章

在 Nvidia Jetson AGX Orin 上使用 TensorRT-LLM 运行 LLM

TensorRT-LLM：开启Jetson平台上大语言模型推理的新篇章

NVIDIA推出Fugatto：生成式AI在音乐制作领域的应用与突破

在Jetson上玩转大模型Day15：NanoLLM开发平台(4)：视觉分析助手

NVIDIA JetPack 6.1：为边缘AI与机器人开发赋能的全新升级

11月22日其全球AI产业和半导体产业新闻

在Jetson上玩转大模型Day14：NanoLLM开发平台(3)：多模态语音助手

英伟达财报再超预期，展现强劲增长潜力与AI未来愿景

11月21日全球AI产业和半导体产业最新新闻

在Jetson上玩转大模型Day12：NanoLLM开发平台(2)：语音对话助手

Nvidia 计划在 2025 年上半年推出其“Jetson Thor”计算平台

在Jetson上玩转大模型Day12：NanoLLM開發平臺(1)：Python API接口說明

你对生成式AI知多少？进来刷题验证一下！

青春没有售价，DLI课程必须拿下（包过教程）

在Jetson上玩转大模型Day11：SAM2应用

限时免费！NVIDIA 微服务推理优化 AI 模型部署课程火热推出

在Jetson上玩转大模型Day10：OWL-ViT应用

【全攻略】解锁职业新机遇：NVIDIA DLI首次推出认证考试

在Jetson上玩转大模型Day9：建立EffectiveViT测试环境

在Jetson上玩转大模型Day8：多模態搜圖的NanoDB

在Jetson上玩转大模型Day7：執行RAG功能的Jetson Copilot

在Jetson上玩转大模型Day6：Ollama的Webui智能助手

在Jetson上玩转大模型Day5：Ollama指令模式的智能助手

在Jetson上玩转大模型Day4：SDW文生图

在Jetson上玩转大模型Day3：TGW智能助手

在Jetson上玩转大模型Day2：环境搭建

NVIDIA Isaac ROS 3.2亮相ROSCon：生成式AI助力机器人智能提升

在Jetson上玩转大模型：写在前面

参加ASUS IoT线上直播，还有机会获得玩家国度纪念礼品

ASUS Jetson Orin NX边缘AI计算机开箱

如何选择一款适合的NVIDIA Jetson开发套件

NVIDIA Jetson平台助力Instacart，实现超市智能购物无缝体验

NV-CLIP多模态嵌入模型赋能视觉应用：高性能、可扩展、灵活集成

探秘NVIDIA RTX AI：llama.cpp如何让你的Windows PC变身AI超人

JetPack 6.1震撼发布：为NVIDIA Jetson Orin平台注入全新活力！

NVIDIA中国开发者日活动重磅回归，10月苏州线下见

AI领域新宠儿：Phi-3.5系列模型，小身材大智慧，多场景应用无压力

RAG修仙之我在NVIDIA AI-Agent训练营里当小白

免费四天线上集训，NVIDIA AI-AGENT训练营：打造你的LLM-RAG与多模态智能体！

告别昂贵耗时！NVIDIA研发团队推出MimicGen系统革新机器人演示数据收集方式

优秀作品展示RAG技术创建智能对话机器人的无限可能

NVIDIA与Mistral AI合作，Mistral NeMo 12B模型震撼发布

又双叒叕有公司想打破Nvidia垄断？这回让CUDA代码直接编译运行于AMD GPU

AI智能体：超越数据处理，LLM如何赋予其深度推理能力？

一顿火锅钱学一门NVIDIA DLI生成式AI课程

NVIDIA NeMo 发布 T5-TTS：文本转语音技术的重大突破

NVIDIA NIM新技能：教你如何读懂财报，精准捕捉投资机会

免费课程+证书！NVIDIA DLI助你深入了解大型语言模型！

掌握大规模部署RAG工作流，提升企业运营效率——NVIDIA DLI全新课程上线！

在第十届NVIDIA Sky Hackathon中遇见更好的自己：开启生成式AI机器人之旅

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉