青春没有售价,DLI课程必须拿下(包过教程)

科技   2024-11-11 08:30   江苏  

今天小编亲自来过一遍NVIDIA DLI 的限时免费课程《Sizing LLM Inference Systems》

课程介绍见:限时免费!NVIDIA 微服务推理优化 AI 模型部署课程火热推出

话不多说,登录NVIDIA DLI账户,直接进入这个课程

不用翻墙!不用翻墙!翻墙反而速度慢!

另外,如果长时间打不开页面或者登录不上,除了检查网络以外,还可以换浏览器试试看。肯定能打开的。

地址: 

https://learn.nvidia.com/courses/course-detail?course_id=course-v1:DLI+S-FX-18+V1&ncid=so-face-436250&fbclid=IwY2xjawGYP0xleHRuA2FlbQIxMAABHUUIbx1rWicDaLw-v8sz9RJmvcVirDdFxTOAcNeGBDgQUU9pmqj7mLhxRQ_aem_itQANbK8TvCkIF98YjNPLw

先看到的是第一个视频,视频有英文字幕,比较容易方便学习并理解课程内容。

你也可以下载课程的PPT和课程的视频。 

观看视频讲解,总共有6个视频,可以通过下面按钮来切换视频。

基本上我听完6个视频大概花费2个小时。你会看到6个视频都打了勾:

这个时候看一下自己的学习进程:

完成了88%

然后我进入实验环境,第一个视频最下面是启动实验的地方,

注意,这个地方会启动NVIDIA远程服务器,但是需要花费很多时间,小编的经验是,如果你第一次等半天没进去(比如等了15分钟),你就刷新一下,大概再等个10-15分钟,就进去了。

这里,课程对于实验环境特别有一个说明:

特别需要注意的是,只提供給了6个小时的机时,如果你中间休息,请务必要Stop你的环境,否则6个小时机时消耗光了,你就只能重新注册一个账户来学习这个课程。切记切记!

进到Notebook是这样子的:

你可以按照顺序点击左手栏位里的00-04的实验来理解课程的内容,每一部分都有自己的学习目标。

第一部分《First Contact with Nims》

在这个Notebook中,将探索如何与NIM端点进行交互,特别是聚焦于Llama 3-8B模型。完成本课程后,您将对NIMs有一个基础性的了解,并掌握如何执行一些基本任务,如检查NIM端点的状态、查询可用模型以及生成文本。

完成本次实验后,您将能够:

  1. 与NIM端点进行交互,检查其状态及可用的模型。

  2. 使用curl和Python调用Llama 3-8B模型的NIM端点来生成文本。

  3. 理解端到端延迟与首次生成令牌时间之间的区别。


第二部分《Understanding Batching Strategies》

在这个Notebook中,您将深入探索衡量大型语言模型(LLM)推理引擎速度的各项指标。您将了解现代推理引擎所采用的前沿优化技术,模拟这些优化对性能的影响,并分析对最关键性能指标的具体作用。

完成本次实验后,您将能够:

  1. 理解和测量首次生成令牌时间(Time to First Token, TTFT)、端到端延迟(End-to-End Latency, E2E Latency)以及令牌间延迟(Inter-Token Latency, ITL)。

  2. 分析吞吐量指标,并模拟它们与各种因素之间的依赖关系。

  3. 探索批处理和在飞批处理(inflight batching )对GPU利用率和性能的影响,理解如何通过优化批处理策略来提升推理效率。

  4. 研究并发设置对延迟和吞吐量的影响,学习如何调整并发参数以平衡性能和资源使用。


第三部分《Benchmarking Throughput/ Latency Tradeoffs》

在这个Notebook中,将从用户的角度出发,重点关注大型语言模型(LLM)生成响应的速度。测量这一速度的过程被称为基准测试,在后续的笔记本中,您将有机会使用名为GenAl-Perf的工具亲自进行基准测试。为了帮助您入门,NVIDIA在dataset/nim dli.csy中提供了一组预先收集的基准测试数据,供您在本笔记本中探索!

完成本次实验后,您将能够:

  1. 探索实际测量数据:深入了解首次生成令牌时间(Time to First Token, TTFT)、端到端延迟(End-to-End Latency, E2E Latency)以及令牌间延迟(Inter-Token Latency, ITL)的真实测量值。

  2. 分析吞吐量指标:研究吞吐量指标,并理解它们与各种因素之间的依赖关系,包括模型复杂度、输入数据大小等。

  3. 研究张量并行与并发设置的影响:探究张量并行性和并发设置对延迟和吞吐量的影响,了解如何通过调整这些参数来优化推理性能。

  4. 利用基准测试数据做出决策:根据提供的基准测试数据,做出关于模型部署和扩展的明智决策,确保在满足性能要求的同时,最大化资源利用率。


第四部分《Measuring NIM Performance with GenAl-Perf》

在这个Notebook中,您将使用NVIDIA的GenAl-Perf工具来测量我们的NIM实例的性能。GenAl-Perf是一款专注于大型语言模型(LLM)的客户端基准测试工具,能够测试包括首次生成令牌时间(TTFT)、令牌间延迟(ITL)、端到端延迟(E2E Latency)以及每秒请求数等关键性能指标。通过GenAl-Perf,您可以测量并比较任何提供OpenAI兼容或Triton Inference Server API的推理端点的性能。为了更深入地了解NVIDIA GenAI-Perf,请查阅我们的相关文档。

完成本次实验后,您将能够:

  1. 使用NVIDIA GenAl-Perf测量NIM LLM部署的关键性能指标:掌握如何利用GenAl-Perf工具来收集和分析NIM实例的性能数据,包括TTFT、ITL、E2E Latency以及每秒请求数等。

  2. 理解不同输入输出长度对性能的影响:通过实验和数据分析,您将了解输入文本长度和输出文本长度如何影响推理性能,从而为优化输入数据提供指导。

  3. 分析并发对延迟和吞吐量的影响:探讨并发请求数对推理延迟和吞吐量的具体影响,学习如何通过调整并发设置来平衡性能和资源使用。

  4. 估算给定工作负载所需的GPU数量:基于性能测量结果和并发分析,您将能够估算出处理特定工作负载所需的GPU数量,为资源规划和扩展提供依据。


第五部分《TCO For On-Premise and Cloud Inference》

在这个Notebook中,您将学习如何估算推理工作负载在本地部署和云端部署的总拥有成本(Total Cost of Ownership,简称TCO)。对于大型语言模型(LLMs)而言,输出的基本单位是令牌(token)。令牌的成本可能因LLM的规模以及我们在之前的笔记本中讨论过的其他选择而有所不同。通常,具有较高吞吐量的推理配置会导致每令牌成本降低。

完成本次实验后,您将能够:

  1. 估算在不同假设下的本地年度成本:了解如何根据硬件投资、运维成本、电力消耗等因素,估算在本地部署LLM推理服务的年度总成本。

  2. 计算使用云端API进行推理的成本:掌握如何利用云端服务提供商的定价模型,计算使用云端API进行推理的成本,包括计算资源、存储、数据传输等费用。

  3. 比较本地与云端部署的成本,并关注各自的优缺点:综合分析本地部署与云端部署在成本、灵活性、可扩展性、安全性等方面的差异,帮助您根据实际需求做出更明智的部署决策。


接下来就是填坑教程!青春没有售价,但是必须有售后!

大家请把每个部分的Jupyter代码都运行一遍:

点击红框里那个》符号,会弹出:

点击Restart

等看到前面【】里出现数字,表示运行完成

大家务必每个部分都运行一遍,代码都仔细消化一下。

注意,大家在运行Notebook3的时候,会遇见错误,会导致你无法进行执行:

在这个位置有一个:

点击开,会看到一段代码,把这段代码复制后覆盖到上面,就变成这样:

然后重新执行一遍,这里需要耗费一些时间(会跑很久)

会出现好几个表格就对了:

在运行Notebook4的时候,也会遇到同样的情况,比照处理就对了:

点开Reveal Solution,用这两行把上面 0, 0取代掉

再重新执行一下。

到这里,完成以上实验就会看到:

但并不意味着所有的你都完成了,因为其实每Notebook里经常有隐藏的“彩蛋”,比如这样,你都需要点开看一下。

这五个Notebook都弄完后,回到主页:

把这三个栏目都点击一遍(不要问我是怎么知道的),最后再看一下自己的Progress:

你看回到自己课程完成度是100%,但是Grades还是零分,不要着急,NVIDIA的回复是:

因为这个课程不是证书课程,所以没有评分。

也就是说当你看到100%完成度,就是完成了本次课程的学习。

进入你自己账户的“My Learning",你会看到你的学习记录里已经添加了此项记录。

好了,如果学习过程中有什么问题,欢迎加入我们的【DLI学习互助小组】微信群(现在改名叫DLI薅羊毛小组群)

添加社区助教微信,留言”DLI学习“,小姐姐会拉你进群(不留言是不会拉进群哟)

GPUS开发者
在这里,你可以及时了解NVIDIA GPU的行业资讯、最新进展、应用场景和各项功能。还有一些工具、技巧和教程,帮助你利用GPU打造未来的科技。参与GPU世界举办的精彩活动,体验人工智能的未来生活。
 最新文章