AI算力芯片行业报告

文摘   2024-10-23 18:02   天津  
概括
ChatGPT是由OpenAI公司开发的人工智能聊天机器人程序,于2022年11月发布,推出不久便在全球范围内爆火。根据数据显示:ChatGPT达到1亿用户量用时仅2个月,成为史上用户增长速度最快的消费级应用程序。TikTok达到1亿用户用了9个月,Instagram则花了2年半的时间。从用户体验来看,ChatGPT不仅能实现流畅的文字聊天,还可以胜任翻译、作诗、写新闻、做报表、编代码等相对复杂的语言工作。
从2008年第一代生成式预训练模型GPT-1诞生以来,GPT系列模型几乎按照每年一代的速度进行迭代升级,未来随着大语言模型(LLM)技术的不断突破,AI相关应用有望加速落地,AI产业或将迎来新一轮发展机遇。2022年ChatGPT是基于GPT-3.5微调得到的新版本模型,能够借助人类反馈的强化学习(RLHF)技术来指导模型训练,实现模型输出与人类预期的需求,使对话内容更加人性化和富有逻辑性。

ChatGPT是生成式人工智能技术(AIGC)的一种,与传统的决策/分析式AI相比,生成式AI并非通过简单分析已有数据来进行分析与决策,而是在学习归纳已有数据后进行演技创造,基于历史进行模仿式、缝合式创作,生成全新的内容。AIGC的应用非常广泛,包括自然语言生成、图像生成、视频生成、音乐生成、艺术创作等领域。


产业链:
AIGC产业链主要分为上游算力硬件层、中游数据/算法软件层和下游行业应用层。硬件层依靠高性能AI芯片、服务器和数据中心为AIGC模型的训练提供算力支持,是承载行业发展的基础设施;数据/算法层软件层主要负责AI数据的采集、清洗、标注及模型的开发与训练,多方厂商入局自然语言处理、计算机视觉、多模态模型等领域;行业应用层目前主要涉及搜索、对话、推荐等场景,未来有望在多个行业呈现井喷式革新。

多模态大模型有望成为AI主流,赋能下游行业智能升级。生成式AI主要依赖于人工智能大模型,如Transformer、BERT、GPT系列等。这些模型通常包含数十亿至数万亿个参数,需要庞大的数据集进行训练,致使AI算力的需求也呈现出指数级的增长。多模态是一种全新的交互、生成模式,集合了图像、语音、文本等方式,因其可以结合多种数据类型和模态的学习,将有望彻底改变我们与机器互动的方式,快速占据人工智能主导地位。我们认为多模态大模型长期来看不仅可以从成本端降本增效,需求端也将通过快速渗透推广为下游行业带来持续增长需求,从而快速推动下游行业智慧化应用升级


ChatGPT发展历程:
从GPT-1到ChatGPT,模型参数与训练数据量不断增加,所需算力资源不断提升:
 GPT-1:最早的GPT模型之一,包含了1.17亿个参数,预训练数据量约为5GB。
GPT-2:参数数量达到了1.5亿个,预训练数据量达40GB。
GPT-3:是目前为止最大的语言模型之一,包含了1750亿个参数,预训练数据量为45TB。
ChatGPT:基于GPT-3模型的变种之一,参数量预计与GPT-3相近。

2024年3月14日OpenAI发布GPT-4多模态大模型
1)强大的识图能力;
2)文字输入限制提升至2.5万字;
3)回答准确性显著提高;
4)能够生成歌词、创意文本、实现风格变化。
在各种专业和学术基准上,GPT-4已具备与人类水平相当表现。如在模拟律师考试中,其分数在应试者前10%,相比下GPT-3.5在倒数10%左右。多模态大模型在整体复杂度及交互性上已有较大提升,模型升级有望加速细分垂直应用成熟,赋能下游智慧化升级,带动需求快速增长。

目前由人工智能生成的数据占所有数据的 1%以下,预计2023年将有 20%的内容被生成式AI 所创建,2025 年人工智能生成数据占比将达到 10%。根据前瞻产业研究院数据,2025年中国生成式商业AI应用规模将达2070亿元,CAGR(2020-2025)为84.06%。


硬件‍‍‍‍
AI人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法,其次是半导体集成电路AI芯片。AI的发展一直伴随着半导体芯片的演进过程,20世纪90年代,贝尔实验室的杨立昆(Yann LeCun)等人一起开发了可以通过训练来识别手写邮政编码的神经网络,但在那个时期,训练一个深度学习卷积神经网络(Convolutional NeuralNetwork,CNN)需要3天的时间,因此无法实际使用,而硬件计算能力的不足,也导致了当时AI科技泡沫的破灭。
AI芯片是AI发展的底层基石。英伟达早在1999年就发明出GPU,但直到2009年才由斯坦福大学发表论文介绍了如何利用现代GPU远超过多核CPU的计算能力(超过70倍),把AI训练时间从几周缩短到了几小时。算力、模型、数据一直是AI发展的三大要素,而AI芯片所代表的算力则是人工智能的底层基石。

算力硬件层
算力硬件层是构成AIGC产业的核心底座,主要包括AI芯片、AI服务器和数据中心。
1、AI芯片
AI芯片是算力硬件层的基石。AI芯片主要分为CPU、GPU、FPGA和ASIC四类,CPU是AI计算的基础,GPU、FPGA、ASIC作为加速芯片协助CPU进行大规模计算。目前AI芯片主要被国际厂商垄断,Intel和AMD共计占2022年全球数据中心 CPU 市场收入的92.45%,Nvidia占2021年中国加速卡市场份额的80%以上。
2、AI服务器
AI 服务器是AI芯片的系统集成。AI服务器采用CPU+加速芯片的架构形式,在进行模型的训练和推断时会更具有效率优势。与国外AI芯片厂商的垄断局面不同,中国AI服务器水平位于世界前列。据IDC数据,在2021H1全球 AI 服务器市场竞争格局中,浪潮信息以20.2%的份额排名第一,联想和华为分别以6.1%和4.8%的份额位列第四、五名。
3、数据中心
数据中心的计算服务是承接AI算力需求的直接形式。AIGC的模型训练是通常是通过云计算服务完成的,其本质是AIGC模型厂商借助IDC的算力资源,在云端实现模型的训练。目前国内的数据中心厂商主要包括三大运营商、华为、联想、中科曙光等,提供云计算的厂商主要有阿里、腾讯等互联网企业。

AI芯片根据应用分为训练和推断两类:
机器学习主要包括训练(training)和推断(inference)两个步骤,通常需要不同类型的AI芯片来执行。
1、训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统,使其能够适应特定的功能;
训练芯片:通过大量的数据输入,构建复杂的深度神经网络模型的一种AI芯片。需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务,注重绝对的计算能力。
2、推理是指利用训练好的模型,使用新数据推理出各种结论。
推断芯片:推断芯片主要是指利用训练出来的模型加载数据,计算“推理”出各种结论的一种AI芯片,注重综合指标,侧重考虑单位能耗算力、时延、成本等性能。

AI芯片市场规模:
AI芯片是用于加速人工智能训练和推理任务的专用硬件,主要包括GPU、FPGA、ASIC等,具有高度并行性和能够实现低功耗高效计算的特点。

中国AI算力规模将保持高速增长,预计到2026年将达1271.4EFLOPS,CAGRA(2022-2026年)达52.3%。全球人工智能服务器GPU、ASIC和FPGA的搭载率均会上升,2025年人工智能芯片市场规模将达726亿美元。

深度学习的应用开发可分成云端与边缘侧两大部分。云端指的是数据中心或超级计算机,具有强大的计算能力,利用海量数据进行模型训练,也可以进行推理。边缘侧指的是数据中心外的设备,如自动驾驶汽车、机器人、智能手机、无人机或IoT设备,用训练好的模型进行推理。根据场景不同,形成了两种不同要求的AI芯片:

云端芯片:具有最大的计算能力和最高的性能,主要对深度学习算法模型进行训练,有时也进行推断。目前云端主要以CPU+GPU异构计算为主,根据wind数据,在机器学习服务器和高性能服务器中,CPU+GPU的成本占比分别为83%与51%。

边缘端芯片:计算性能有限,主要使用从云端传来的训练好的模型和数据进行推断。在边缘侧或手机等端侧设备中,很少有独立的芯片,AI加速通常由 SoC上的一个IP实现。例如,苹果智能手机里最大的应用处理器(Application Processor,AP)芯片就是一块带有AI核的SoC,这类SoC的性能一般可以达到5~10 TOPS


云端训练和推断计算主要由 Al 服务器完成,底层算力芯片包括 CPU、GPU、FPGA、ASIC 等。

CPU是AI计算的基础,负责控制和协调所有的计算操作。在AI计算过程中,CPU用于读取和准备数据,并将数据来传输到GPU等协处理器进行计算,最后输出计算结果,是整个计算过程的控制核心。根据IDC数据,CPU在基础型、高性能型、推理型、训练型服务器中成本占比分别为32%、23.3%、25%、9.8%,是各类服务器处理计算任务的基础硬件。

GPU、FPGA、ASIC是AI计算的核心,作为加速芯片处理大规模并行计算。具体来看,GPU通用性较强,适合大规模并行计算,且设计及制造工艺较成熟,目前占据AI芯片市场的主要份额;FPGA具有开发周期短、上市速度快、可配置性等特点,目前被大量应用于线上数据处理中心和军工单位;ASIC根据特定需求进行设计,在性能、能效、成本均极大的超越了标准芯片,非常适合 AI 计算场景,是当前大部分AI初创公司开发的目标产品。


目前CPU+XPU异构形式成为AI服务器主流架构。传统的CPU单元对于AI计算任务的处理能力有限,而XPU(包括GPU、FPGA、ASIC等)则可以提供更强大的计算能力,因此将CPU和XPU结合起来使用可以实现计算任务的高效处理和资源的最优利用。一般来说,CPU负责整个系统的管理和控制,而加速芯片则负责AI计算任务的加速,两者相互协作,共同提升整个系统的性能。

服务器计算架构从单核的串行走向多核的并行,又进一步从同构并行走向异构并行,未来或将从异构并行走向超异构并行。

目前在AI服务器中,常见的异构组合有8x GPU+2x CPU、4x GPU+ 2x CPU、8xFPGA+1xCPU、4xFPGA+1xCPU。在异构计算的趋势下,AI加速芯片搭载率将持续增高。根据IDC全球范围调研显示,2022年每台AI服务器上普遍多配置2个GPU,未来18个月GPU、ASIC、FPGA的搭载率均会上升。根据IDC数据,2021H1全球AI服务器市场规模达66.6亿美元,同比增长率超过全球AI整体市场增长率22.4%。预计在2025年全球AI服务器市场规模将达到277亿美元,CAGR(2020-2025)为20.3%。


CPU 底层核心算力芯片(国产CPU市场研究报告

CPU(Central Processing Unit)中央处理器:是计算机的运算和控制核心(Control Unit),是信息处理、程序运行的最终执行单元,主要功能是完成计算机的数据运算以及系统控制功能。

CPU擅长逻辑控制,在深度学习中可用于推理/预测。在深度学习中,模型的训练和推理是两个不同的过程:

在训练过程中,模型需要进行大量的矩阵运算,因此通常使用GPU等擅长并行计算的芯片进行处理;

在推理过程中,需要对大量的已经训练好的模型进行实时的推理/预测操作,而这种操作通常需要高效的逻辑控制能力和低延迟的响应速度,这正是CPU所擅长的。


CPU在推断型服务器中的成本占比为25%,在训练型服务器中的成本占比为9.8%。2021用于推断和训练的占比分别为40.9%和59.1%,2025年推断和训练的占比调整为60.8%和39.2%,测算出2021年和2025年CPU在AI服务器中的成本占比分别为16.02%和19.04%。

根据观研报告网数据,2021年全球AI服务器市场规模为156亿美元,预计于2025年增长至318亿美元。2021年中国AI服务器市场规模为350.3亿元,预计2025年将增长至701.8亿元。因此合理推算2021年,全球AI服务器CPU市场规模约为25亿美元,中国市场约为56亿元,到2025年全球AI服务器CPU市场规模约为61亿美元,中国市场规模为134亿元。

全球服务器CPU市场目前被Intel和AMD所垄断,国产 CPU 在性能方面与国际领先水平仍有差距。根据Counterpoint数据,在2022年全球数据中心CPU市场中,Intel以70.77%的市场份额排名第一,AMD以19.84%的份额紧随其后,剩余厂商仅占据9.39%的市场份额,整体上处于垄断局面;目前国内CPU厂商主有海光、海思、飞腾、龙芯、申威等。通过产品对比发现,目前国产服务器CPU性能已接近Intel中端产品水平,但整体上国内CPU厂商仍在工艺制程、运算速度(主频)、多任务处理(核心与线程数)方面落后于国际先进水平。


GPU是AI高性能计算核心

GPU(Graphics Processing Unit)图形处理器:GPU最初是为了满足计算机游戏等图形处理需求而被开发出来的,但凭借高并行计算和大规模数据处理能力,逐渐开始用于通用计算。根据应用场景和处理任务的不同,GPU形成两条分支:

传统GPU:用于图形图像处理,因此内置了一系列专用运算模块,如视频编解码加速引擎、2D加速引擎、图像渲染等。

GPGPU:通用计算图形处理器(general-purpose GPU)。为了更好地支持通用计算,GPGPU减弱了GPU图形显示部分的能力,将其余部分全部投入到通用计算中,同时增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以实现人工智能、专业计算等加速应用


GPU的高并行性可以更好地支持AI模型训练和推理过程中大量的矩阵或向量计算,以NVIDIA GPU系列旗舰产品A100为例:根据NVIDIA公布的规格参数,A100的深度学习运算性能可达312Tflops。在AI训练过程中,2048个A100 GPU可在一分钟内成规模地处理BERT的训练工作负载;在AI推理过程中,A100可将推理吞吐量提升到高达CPU的249倍。

2021年全球GPU市场规模为334.7亿美元,预计2030年将达到4773.7亿美元,CAGR(2021-2030)为34.35%。从国内市场来看,2020年中国大陆的独立GPU市场规模为47.39亿元,预计2027年市场规模将达345.57亿美元,CAGR(2021-2027)为32.8%。

全球GPU芯片市场主要由海外厂商占据垄断地位,国产厂商加速布局。全球GPU市场被英伟达、英特尔和AMD三强垄断,英伟达凭借其自身CUDA生态在AI及高性能计算占据绝对主导地位;国内市场中,景嘉微在图形渲染GPU领域持续深耕,另外天数智芯、壁仞科技、登临科技等一批主打AI及高性能计算的GPGPU初创企业正加速涌入。


FPGA可编程芯片

FPGA(Field Programmable Gate Array)现场可编程门阵列:FPGA最大的特点在于其现场可编程的特性,无论是CPU、GPU还是ASIC,在芯片制造完成后功能会被固定,用户无法对硬件功能做出更改,而FPGA在制造完成后仍可使用配套软件对芯片进行功能配置,将芯片上空白的模块转化为自身所需的具备特定功能的模块。

可编程性、高并行性、低延迟、低功耗等特点,使得FPGA在AI推断领域潜力巨大。FPGA可以在运行时根据需要进行动态配置和优化功耗,同时拥有流水线并行和数据并行能力,既可以使用数据并行来处理大量数据,也能够凭借流水线并行来提高计算的吞吐量和降低延迟。根据与非网数据,FPGA(Stratix 10)在计算密集型任务的吞吐量约为CPU的10倍,延迟与功耗均为GPU的1/10。

云端推断:在面对推断环节的小批量数据处理时,GPU的并行计算优势不明显,FPGA可以凭借流水线并行,达到高并行+低延迟的效果。根据IDC数据,2020年中国云端推理芯片占比已超过50%,预计2025年将达到60.8%,云端推断市场广阔。

边缘推断:受延迟、隐私和带宽限制的驱动,FPGA逐渐被布署于IoT设备当中,以满足低功耗+灵活推理+快速响应的需求。


FPGA是AI时代下解决暗硅效应的有效途径。暗硅效应(Dark Silicon)指由于芯片工艺和尺寸的限制,芯片上只有一小部分区域可以同时运行,其余的区域被闲置或关闭,这些闲置或关闭的区域被称为“暗硅”。在AI计算领域,由于摩尔定律的限制和散热问题,先进高效的硬件设计会更容易导致暗硅效应,限制了芯片的计算能力和应用范围。据相关论文,在22nm制程下,暗硅面积将达21%。在8nm制程下,暗硅面积将提升至50%以上。由于暗硅效应,预计到2024年平均只能实现7.9倍的加速比,与每代性能翻倍的目标相比差距将近24倍。

FPGA的可编程性和可重构性使其能够灵活地部署和优化计算任务,从而在一定程度上缓解了暗硅效应的影响。简单来说,FPGA减少暗硅效应的方法有两个方向,一是通过优化电路结构,尽可能减少不活跃区域的数量;二是通过动态重构电路,使得不活跃区域可以被重用。

FPGA全球市场呈现“两大两小”格局,Altera与Xilinx市占率共计超80%,Lattice和Microsemi市占率共计超10%;整体来看,安路科技、紫光同创等厂商处于国际中端水平,仍需进一步突破。工艺制程方面,当前国产厂商先进制程集中在28nm,落后于国际16nm水平;在等效LUT数量上,国产厂商旗舰产品处于200K水平,仅为XILINX高端产品的25%左右。


AISC云计算高端专用芯片

ASIC(Application Specific Integrated Circuit)专用集成电路:是一种为专门应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC具有较高的能效比和算力水平,但通用性和灵活性较差。

能效方面:由于ASIC是为特定应用程序设计的,其电路可以被高度优化,以最大程度地减少功耗。根据Bob Broderson数据,FPGA的能效比集中在1-10 MOPS/mW之间。ASIC的能效比处于专用硬件水平,超过100MOPS/mW,是FPGA的10倍以上。

算力方面:由于ASIC芯片的设计目标非常明确,专门为特定的应用场景进行优化,因此其性能通常比通用芯片更高。根据头豹研究院数据,按照CPU、GPU、FPGA、ASIC顺序,芯片算力水平逐渐增加,其中ASIC算力水平最高,在1万-1000万Mhash/s之间。

随着技术、算法的普及,ASIC将更具备竞争优势。ASIC在研发制作方面一次性成本较高,但量产后平均成本低,具有批量生产的成本优势。目前人工智能属于大爆发时期,大量的算法不断涌出,远没有到算法平稳期,ASIC专用芯片如何做到适应各种算法是当前最大的问题。但随着技术、算法的普及,ASIC 将更加具备竞争优势。


ASIC主要应用在推断场景,在终端推断市场份额最大,在云端推断市场增速较快。

训练:AI模型在训练过程中需要对模型参数进行不断调整,ASIC由于专用性强、灵活性低,因此不适用于云端训练。根据赛迪顾问数据,2019年GPU、FPGA、ASIC在云端训练市场占比分别为63.9%、22.6%、13.5%,云端训练仍以GPU为主。

推断:与训练场景不同,推断场景模型参数较为固化,ASIC在推断市场场景中的应用前景较为广阔。在早期,ASIC的下游应用场景主要为各领域智慧终端设备,因此在终端推断市场规模较大。目前,随着云端算力需求的不断增加,ASIC凭借出色的算力水平开始在云端推断领域快速渗透。根据赛迪顾问数据,2019年ASIC在终端推断的市场份额为41%,远超GPU与FPGA。2019-2021年在云端推断的市场年均增速均保持在60%以上,高于CPU与FPGA。


ASIC不同于CPU、GPU、FPGA,目前全球ASIC市场并未形成明显的头部厂商,国产厂商快速发展;通过产品对比发现,目前国产厂商集中采用7nm工艺制程,与国外ASIC厂商相同;算力方面,海思的昇腾910在BF16浮点算力和INT8定点算力方面超越Googel最新一代产品TPUv4,遂原科技和寒武纪的产品在整体性能上也与Googel比肩。未来国产厂商有望在ASIC领域继续保持技术优势,突破国外厂商在AI芯片的垄断格局。


AI算力带动存储芯片

ChatGPT带动AI服务器需求,存储芯片受益。

ChatGPT的数据获取、数据整理、训练、推理除大算力芯片外,还需存储芯片支持。

服务器成本构成:服务器成本包括算力芯片、存储器等,根据IDC 2018年服务器成本构成,在高性能服务器/推理型服务器/机器学习型服务器中存储占比29%/25%/16%。AI服务器,除了内存需要128GB或更大容量的高性能HBM和高容量服务器DRAM,还需硬盘去存储大量数据。

存储下游市场:智能手机+服务器+PC是主要下游。智能手机端出货量增速有限,单机容量提升是主要推动力;服务器端,受益人工智能、物联网和云计算等应用兴起,服务器出货量及单机容量提升推动增长。


AI大算力需要的内存:大容量服务器DRAM和高带宽内存HBM。

按照应用场景,DRAM分成标准DDR、LPDDR、GDDR三类。JEDEC定义并开发了以下三类SDRAM 标准,以帮助设计人员满足其目标应用的功率、性能和尺寸要求。

标准型DDR:针对服务器、云计算、网络、笔记本电脑、台式机和消费类应用程序,与CPU配套使用

LPDDR:Low Power DDR,针对尺寸和功率非常敏感的移动和汽车领域,有低功耗的特点。

GDDR:Graphics DDR,针对高带宽(例如显卡和 AI)的两种不同的存储器架构是 GDDR 和 HBM。


1、HBM
GDDR DRAM 是专为GPU 和加速器设计的,HBM是GDDR的替代品,也适用于GPU与加速器,与主芯片配套,可以提高机器学习和计算性能,如英伟达“A100”就最高配备了80GB HBM2内存。
HBM(High Bandwidth Memory)是将多个DDR芯片3D堆叠在一起后和主芯片封装在一起,有高带宽、低功耗等特点。
HBM与主芯片合封在一起:DRAM颗粒和和GPU/CPU合封,缩短了DRAM和主芯片之间的通信距离,同时跨越封装对芯片引脚数目的限制,几十倍提高传输线数量,降低传输损耗,提高传输带宽。
HBM采用3D堆叠技术,中间层连接内存与主芯片:不同于DRAM颗粒与算力芯片平铺,HBM将DRAM颗粒堆叠在一起,一方面增加了DRAM容量,另一方面直接增加带宽,DRAM颗粒通过“硅透”(TSV)的微型导线相互连接,主芯片和DRAM通过中间层连通,HBM 具备的特性几乎和芯片集成的 RAM一样,具有更高速、更高带宽的特点

2、DRAM
DRAM全球三大家垄断,HBM市场由三星、海力士主导,目前已迭代至HBM3
2021年全球DRAM市场三星、海力士、美光三巨头合计市占率高达94%。HBM市场,以SK海力士、三星为主,SK海力士HBM技术起步早,占据较大市场。
SK 海力士:AMD意识到DDR的局限性并产生开发堆叠内存的想法,与SK海力士联手研发HBM;2013年,SK海力士将TSV技术应用于DRAM,在业界首次成功研发出HBM;2015年,AMD在Fury系列显卡上首次商用第一代HBM技术。2018年发布HBM2,2021年发布全球首款HBM3,目前在研HBM4
三星:三星从HBM2开始布局,2016年量产HBM2,2021年2月,三星电子推出了HBM-PIM(存算一体),将内存半导体和AI处理器合二为一,2022年HBM3已量产。

3、SSD
SSD为固态硬盘,由NAND颗粒、主控芯片等构成,其中NAND颗粒占成本的70%。SSD按照用途分为消费级、企业级及其他行业级产品。近年来随着云计算、大数据发展,互联网服务加速普及,企业加快数字化转型,数据呈现井喷状态,企业级SSD市场需求与规模不断攀升。
IDC 数据显示,企业级 SSD 全球出货量将从 2020 年的约 4750万块增长到 2021 年的 5264 万块左右,年均增长率为10.7%,预计到 2025 年,将增加到 7436 万块左右。


企业级SSD海外垄断,大陆厂商主要布局模组和主控芯片
全球竞争格局:22Q1,全球前五大企业级SSD品牌厂商分别是三星电子、SK海力士(含Solidigm)、美光科技、铠侠与西部数据,合计全部份额。
大陆厂商布局:长江存储是大陆少有的NAND Flash原厂,除了向企业级SSD厂商供货闪存颗粒,近期也推出了企业级PCIe 4.0 SSD产品,其余厂商则主要集中在主控芯片软硬件设计(包含主控芯片、固件)以及成品模组领域。

当前AI芯片呈现几大趋势:
(1)制程越来越先进。从2017年英伟达发布Tesla V100 AI芯片的12nm制程开始,业界一直在推进先进制程在AI芯片上的应用。英伟达、英特尔、AMD一路将AI芯片制程从16nm推进至4/5nm。
 (2)Chiplet封装初露头角。2022年英伟达发布H100 AI芯片,其芯片主体为单芯片架构,但其GPU与HBM3存储芯片的连接,采用Chiplet封装。在此之前,英伟达凭借NVlink-C2C实现内部芯片之间的高速连接,且Nvlink芯片的连接标准可与Chiplet业界的统一标准Ucle共通。而AMD2023年发布的Instinct MI300是业界首次在AI芯片上采用更底层的Chiplet架构,实现CPU和GPU这类核心之间的连接。
(3)2020年以来头部厂商加速在AI芯片的布局。AI芯片先行者是英伟达,其在2017年即发布Tesla V100芯片,此后2020以来英特尔、AMD纷纷跟进发布AI芯片,并在2022、2023年接连发布新款AI芯片,发布节奏明显加快。


欢迎大家添加CIO时代“小希”,

加入“智算交流群”,

后续将有更多精彩算力内容活动及礼品邀您互动!

小  希:15701060895

来源:中国经济周刊
免责声明:本文系网络转载,版权归原作者所有。但因转载众多,或无法确认真正原始作者,故仅标明转载来源,如涉及作品版权问题,请与我们联系,我们将在第一时间协商版权问题或删除内容!内容为作者个人观点,并不代表本公众号赞同其观点和对其真实性负责


·END·

智算研究院
智算研究院是CIO时代旗下的智库研究机构,聚焦芯片、算力、算力基础设施技术体系建设及数字化等相关领域内容,旨在推动数智算电产业融合发展,促进数字产业落地,促进数字中国建设。
 最新文章