新版PyTorch：AI任务加速与Intel GPU集成

文摘科技 2024-07-29 08:25 上海

文｜庞德公

编辑｜郭嘉

--->更多内容，请移步“鲁班秘笈”！！<---

最近的Pytorch 2.4 推出AI任务加速，提供对Intel GPU的支持。为了进一步加速 AI任务，PyTorch 2.4现在为Intel数据中心GPU Max系列提供支持，该系列将Intel GPU和SYCL软件堆栈集成到标准PyTorch堆栈中。<下图为各个组件被引入到pytorch的各个版本信息。小编建议快速浏览，第二章节再仔细理解这些组件的内涵！>

借助Intel GPU支持，读者可以拥有更多GPU选择，并可以使用相同的前后端 GPU编程模型。现在可以在Intel GPU上部署和操作，几乎不需要额外的编码。为了支持流式处理设备，此版本通用化了PyTorch设备和运行时（设备、流、事件、生成、分配和守护进程）。这种泛化不仅促进了PyTorch在更加广泛的硬件上部署，还促进了更多硬件后端集成。

除了为英特尔数据中心GPU Max系列提供用于训练和推理的关键功能外，Linux*上的PyTorch 2.4版本还保持了与PyTorch支持的其他硬件相同的用户体验。假如从CUDA*迁移代码，则可以在Intel GPU上运行现有应用程序代码，只需对设备名称进行最少的代码更改。

# CUDA Code tensor = torch.tensor([1.0, 2.0]).to("cuda")  # 只需要改动代号就可以直接迁移至Intel GPU tensor = torch.tensor([1.0, 2.0]).to("xpu")

PyTorch 2.4和Intel GPU的相关功能如下：

训练和推理工作流。
支持 torch.compile和eager的基本函数。在eager和compile模式下能够完全运行Dynamo Hugging Face* 基准测试。
支持FP32、BF16、FP16 和自动混合精度（AMP）等数据类型。
支持在Linux和Intel数据中心GPU Max系列上运行。

附录：看图理解术语

Eager mode and graph mode:

它们是在Pytorch 2.0引入了两种新的操作执行模式。

Eager mode: 执行模式，在这种模式下操作会立即执行，而不是等待整个计算图的构建。这种模式更直观，适合调试和开发。
Graph mode:执行模式，在这种模式下操作会被记录到一个计算图中，然后整个图会被优化和执行。这种模式通常更高效，适合生产环境。

SYCL:

它是一个跨平台抽象层，允许算法在硬件加速器（如 CPU、GPU 和 FPGA）之间切换，而无需更改任何代码行。SYCL是由Khronos Group开发的免版税开放标准，允许开发人员使用标准 C++ 编写异构架构。此外，其编程模型使用单一源，允许在单个源文件中编写主机和内核代码。

由于各种SYCL实现往往遵循相似的规范，因此无论选择何种实现，代码都应该成功编译和运行。但是它们并非都提供相同的功能，因为它们的开发速度不同，专注于不同的架构，或者与最新的 SYCL 规范有所不同。其实所有实现都支持在具有最流行的现有架构的 CPU 上执行。

Aten operators:

ATen是PyTorch的底层张量计算库，它提供了高效的张量操作和内存管理功能。ATen基于C++编写，因此具有高效和可扩展性。它还提供了与PyTorch API兼容的接口，以便在Python环境中方便地使用。ATen的设计理念是提供易于使用且高效张量计算库，适用于构建大型神经网络模型。

oneAPI Math Kernel Library (oneMKL):

英特尔® oneAPI数学核心函数库（oneMKL），以前称为英特尔数学核心函数库，是一个针对科学、工程和金融应用的优化数学库。核心数学函数包括BLAS、LAPACK、ScaLAPACK、稀疏求解器、快速傅里叶变换和向量数学。

oneAPI Deep Neural Network Library (oneDNN):

英特尔® oneAPI深度神经网络库（oneDNN）提供高度优化的深度学习构建模块实现。借助这个开源的跨平台库，深度学习应用程序和框架开发人员可以对 CPU、GPU 或两者使用相同的 API，从而抽象出指令集和性能优化的其他复杂性。

Triton:

Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境，用于高效编写能够在现代GPU硬件上以最大吞吐量运行的自定义DNN计算内核。

Kineto:

Kineto是一个性能分析工具，用于监控和分析模型的执行性能。研究人员和工程师经常难以在计算上扩展他们的模型，因为没有意识到工作负载中的性能瓶颈。大型分布式训练作业可能会生成数千个跟踪，其中包含太多数据，人类无法检查。这就是整体分析的作用。

鲁班号导读火热上线!!

------>敬请移步“鲁班秘笈”！<------

http://mp.weixin.qq.com/s?__biz=MzkzNDM4MDQyMg==&mid=2247486726&idx=1&sn=5deb95d723e2a646915533aabe30327a

鲁班模锤

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化，依托语料库构建数据可信流通方案，为所有企业提供平等的数据增益服务。

最新文章

神经网络与2024诺贝尔物理奖

利用语料来透析（“哲学思考”） “数字孪生” 上

WordLlama：在消费级GPU上奔跑的“瘦子”

AI新思考：“浴火重生”的草莓模型

Apple发布iPhone16和Apple Intelligence

突发：Runway删库跑路，备受瞩目的Stable Diffusion v1.5不见了！

优雅谈大模型：白话ZeRO 下

Jamba前生今世：1.5开源来袭

AI架构系列：去其形而留其意

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

FlashAttention3：再次深度挖掘硬件潜力

Grok 2携AI图片生成重生

TorchChat：Ollama的潜在对手

优雅谈大模型：Python编程篇

AIGC中数据治理的“科林格里奇困境”

泡沫还是机遇？复盘18个月的AI装备竞赛

三个臭皮匠与一个诸葛亮：覆盖率与正确率的博弈

NiFi ：1 初识这把“十年一剑”的利器

Flux：Midjourney的新图像模型挑战者

Apple在Swift中引入同态加密

Meta再下一城：SAM 2

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

新版PyTorch：AI任务加速与Intel GPU集成

优雅谈大模型：白话ZeRO 上

Llama 3.1和xAI的超集群加速AI军备竞赛

LLama3.1 405B即将来袭：开源首次超越GPT-4o

优雅谈大模型：“System2”与“System 1”

本周当之无愧：小模型周

百万专家小专家：“N个小皮匠”？！

SpreadsheetLLM：微软对Excel编码的“摊膀伏”

LLM基础模型系列：Prefix-Tuning

FlashAttention3：“苗条”的就是比较好！

数据跨境法案：美国篇下

MobileLLM：“苗条”的模型比较好！

白话无人驾驶：2 运动规划

白话无人驾驶：1风暴来袭

优雅谈大模型：白话向量数据库

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

LLM基础模型系列：Prompt-Tuning

LLM基础模型系列：Fine-Tuning总览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉