突破内存墙:DRAM技术演进及3D DRAM革命

科技   2024-12-19 16:34   北京  

公开课预告

12月19日19:30,基流科技技术负责人敬阳将以《大规模异构GPU集群的互联、运维与调度》为主题进行直播讲解,欢迎扫码报名~ 
目录
  • 一、DRAM 困境
    • 1.3D DRAM革命的赢家和输家
    • 2.DRAM入门:工作内存


  • 二、DRAM架构及发展历史
    • 1.DRAM入门:基本架构解析
    • 2.DRAM入门:历史回顾 (DRAM 尚可缩放的时代)
    • 3.DRAM基础知识:DRAM扩展停滞时期


  • 三、DRAM扩展的短期策略
    • 1.短期扩展策略:4F²布局与垂直沟道晶体管(VCT)


  • 四、当前DRAM类型及优劣势分析
    • 1.DRAM基础知识:主要DRAM类型


  • 五、HBM发展路线及未来趋势
    • 1.HBM发展路线图
    • 2.HBM础知识:HBM定制


  • 六、新兴内存技术


  • 七、存内计算 (CIM)
    • 1.存内计算: 基本概念
    • 2.存内计算:释放存储体的潜能
    • 3.存内计算:挖掘DRAM的全部潜能
    • 4.存内计算:前进路径与潜在赢家


  • 八、3D DRAM技术
    • 1.3D DRAM:基础知识
    • 2.3D DRAM:挑战者
    • 3.3D DRAM:三大巨头
    • 4.3D DRAM:制造与设备


核心观点
  1. DRAM密度增长停滞,已成为计算性能发展的瓶颈,AI对HBM的需求加剧了成本和制造难题。
  2. 电容器和感测放大器面临物理限制,DRAM缩小面临极高的工艺难度。
  3. HBM虽然是AI加速器的首选,但高成本、容量和扩展性问题限制了其长期应用。
  4. 新兴内存技术如FeRAM和MRAM,尽管有潜力,但因成本和技术限制,短期内难以挑战DRAM市场主导地位。
  5. 3DDRAM的制造转向先进刻蚀和沉积工艺,推动设备制造商的技术创新和行业进步。
  6. 存内计算(CIM)将有望突破传统DRAM架构的效率瓶颈,释放其潜力。
  7. 3DDRAM通过垂直堆叠突破扩展瓶颈,结合CIM技术将进一步提升性能。


突破内存墙
一、短期策略:优化现有架构
1.4F²单元布局和垂直通道晶体管(VCT):这种方案的优势在于能够在不改变最小特征尺寸的情况下提高约30%的理论密度,技术较为成熟,可以较快地应用于量产。然而,实际效益可能低于理想的30%,因为纯单元布局并非密度扩展的唯一限制因素。此外,VCT制造难度更高。
2.改进HBM路线图:HBM作为目前AI加速器内存的主流方案,改进其路线图可以进一步提升性能并降低成本。
a.提高HBM堆叠层数和数据速率:HBM4预计将支持16层堆叠,数据速率达到每根导线8Gbps,带宽达到1.5TB/s。然而,随着堆叠层数的增加,良率和成本控制将面临更大的挑战。
b.定制HBM基础芯片:采用FinFET工艺制造HBM基础芯片,并根据客户需求进行定制,可以优化内存接口性能和功能。但这需要与代工厂合作,增加了供应链的复杂性。
c.混合键合技术:采用混合键合技术可以进一步降低HBM堆叠厚度,提高堆叠层数至16-20层以上,并改善散热和功耗。然而,大规模量产高良率的混合键合HBM堆叠仍面临巨大的挑战,需要进一步的技术突破。
3.优化内存接口:通过采用高速接口标准和将部分控制逻辑移至内存侧,可以有效降低数据传输延迟和能耗。
a.采用高速接口标准:例如UCIe和Eliyan的Nulink,可以显著提高数据传输速率和能效。然而,这需要与CPU/GPU厂商密切合作,JEDEC标准的制定过程可能较为缓慢。
b.将部分控制逻辑移至内存侧:将部分控制逻辑从主机侧移至HBM基础芯片或3D DRAM的CMOS层,可以减少数据传输延迟和能耗。这需要对DRAM芯片进行重新设计,并开发新的软件生态系统。
二、长期策略:3D DRAM与存内计算
1.3D DRAM:将DRAM单元垂直堆叠,类似于3D NAND,可以突破水平扩展的限制,大幅提升内存容量和带宽。然而,3D DRAM制造工艺复杂,良率和成本控制是关键挑战。目前,三星、SK海力士和美光都在积极布局3D DRAM,预计将在2030年左右实现量产。
a.垂直Bitline架构:SK海力士认为垂直Bitline架构更具优势,因为它能提供更大的感测裕度。
b.混合键合技术:3D DRAM的CMOS层可以通过混合键合技术集成到存储单元堆叠的顶部或底部。
2.存内计算(CIM):将计算单元集成到DRAM芯片中,可以大幅减少数据移动,提高计算效率。然而,CIM需要新的芯片架构和软件生态系统支持,技术成熟度还有待提高。
a.利用DRAM存储体的潜能:每个DRAM存储体都具有很高的带宽潜力,CIM可以充分利用这些潜力。
b.3D DRAM与CIM的结合:3D DRAM的CMOS层为集成计算单元提供了理想的平台。
存储器技术
  • DRAM:是一种易失性存储器,其基本存储单元由一个晶体管和一个电容器(1T1C)构成。晶体管控制对存储单元的访问,而电容器则以电荷的形式存储信息。由于电容器存在电荷泄漏问题,DRAM需要定期刷新以维持数据完整性。DRAM的核心架构包括:
    • 存储单元阵列:按网格状排列,每个单元存储一位信息。
    • WL:连接同一行的所有存储单元,控制每一行的访问晶体管。
    • BL:连接同一列的所有存储单元,与访问晶体管的源极相连。
    • 感应放大器(SA):用于检测来自存储单元的微弱电荷并将其放大至可用强度。
  • DRAM的扩展在近年来遇到了瓶颈,主要体现在以下方面:
    • 电容器:对图案化和多层薄膜沉积的工艺要求极高。
    • 感应放大器:随着尺寸缩小,其敏感性降低,更易受到变化和泄漏的影响。


  • SRAM:是一种易失性存储器,与逻辑工艺技术兼容,通常集成在CPU或GPU上。由于其制造成本高昂,SRAM通常仅用于小容量的缓存等应用。
  • NAND闪存:是一种非易失性存储器,其成本低廉,但速度较慢,主要用于大容量存储应用,例如固态硬盘。NAND闪存已成功实现了从水平布局到垂直堆叠的3D结构转型,其层数已从最初的32层发展到目前的近1000层。

  • HBM:是一种高性能DRAM,其特点是超宽的总线宽度和垂直堆叠的存储芯片。HBM主要用于AI加速器等对带宽和能效要求极高的应用。HBM的核心特点包括:
    • 超宽总线:单个HBM芯片的I/O总线宽度为256位,远高于其他DRAM类型。
    • 垂直堆叠:多个HBM芯片垂直堆叠,通常为8层或更多,以提供更高的带宽和容量。
    • TSV:通过硅通孔(TSV)用于连接堆叠的芯片,实现电力和信号的路由。
  • HBM的高成本主要源于堆叠芯片和TSV的复杂性,其良率也是一大挑战。


  • DDR5:是一种高容量DRAM,通常以DIMM的形式封装。DDR5主要用于服务器等对容量需求较高的应用。
  • LPDDR5X:低功耗DDR5增强版(LPDDR5X)是一种低功耗DRAM,适用于对功耗敏感的移动设备和笔记本电脑等应用。LPDDR5X的容量受到与CPU连接距离和电容的限制。
  • GDDR6X:图形双倍数据速率6代增强版(GDDR6X)是一种高带宽DRAM,主要用于游戏GPU等图形应用。GDDR6X具有较高的延迟和功耗。
  • FeRAM:铁电RAM是一种非易失性存储器,其存储单元使用铁电材料代替传统的电介质材料。FeRAM具有非易失性、高耐久性和低功耗等优点,但其制造
  • 成本较高。
  • MRAM:磁阻RAM是一种非易失性存储器,其存储单元利用磁性隧道结(MTJ)来存储数据。MRAM具有非易失性、高速度和高耐久性等优点,但其密度和成本仍有待提高。
  • CIM:存内计算(CIM)是一种将计算功能集成到DRAM芯片中的技术。CIM的目标是通过将控制逻辑与存储单元靠近,减少数据传输的延迟和能耗。

  • 3D DRAM:是一种将DRAM存储单元垂直堆叠的技术,其目标是通过增加层数来提高存储密度。3D DRAM的制造工艺与传统的DRAM不同,其重点从光刻转向刻蚀和沉积。3D DRAM的核心特点包括:
    • 垂直堆叠:DRAM存储单元垂直堆叠,而不是像传统DRAM那样水平排列。
    • 高纵横比结构:制造过程中需要刻蚀和沉积高纵横比的孔洞和通道。
    • 混合键合:可用于将CMOS电路与存储单元堆栈连接。
  • 3D DRAM的制造工艺对刻蚀和沉积设备提出了更高的要求,预计将推动相关设备市场的增长。

核心组件与技术
  • 1T1C存储单元:现代DRAM的基础,由一个晶体管和一个电容器构成,每个存储单元存储一位信息,晶体管控制对存储单元的访问,电容器以电荷形式存储数据。由于电容器会发生电荷泄漏,因此需要定期刷新以维持数据完整性。
  • Wordline:连接DRAM存储单元阵列中同一行的所有存储单元。当一条Wordline被激活时,该行中所有存储单元的访问晶体管都会开启,允许数据在Bitline和存储单元之间传输。
  • Bitline:连接DRAM存储单元阵列中同一列的所有存储单元,并与访问晶体管的源极相连。当Wordline和Bitline同时被激活时,只有位于两者交叉点的存储单元才能进行数据的读写。
  • 感应放大器(Sense Amplifiers, SA):由于DRAM存储单元的电容值极小,读取时产生的信号非常微弱。Sense Amplifier位于Bitline的末端,用于检测这些微弱信号并将其放大至可识别水平。此外,Sense Amplifier还参与了DRAM的刷新过程,在读取数据的同时,将刷新后的数据重新写入存储单元。
  • 存储体(Bank):DRAM构建的基本单元,由多个子存储体(Sub-Bank)组成。每个子存储体包含一定数量的存储单元,例如8k行x8k位。每次激活和刷新一行存储单元,但I/O操作只能传输其中一部分数据,例如256位。单个Bank的峰值读写能力可达到256Gb/s,但实际性能受限于接口瓶颈,远低于理论值。
  • 刷新(Refresh):由于DRAM的存储电容存在电荷泄漏问题,因此需要定期进行刷新操作以维持数据的完整性。刷新操作会读取存储单元内容,将Bitline电压调整至理想水平,然后将刷新后的数据重新写入电容。该过程完全在DRAM芯片内部进行,无需外部数据参与,最大限度地降低了能耗,尽管如此,刷新操作仍消耗DRAM总功耗的10%以上。
  • 4F²布局:一种DRAM存储单元布局方案,其单元面积以最小特征尺寸(F)的平方来表示。4F²布局的单元尺寸仅为传统6F²布局的2/3,理论上可提高30%的密度,但实际效益可能低于理论值,受其他因素限制。4F²布局需要采用垂直沟道晶体管(VCT)。
  • 6F²布局:自2007年以来DRAM主流的存储单元布局方案,单元尺寸比4F²布局更大,密度更低。
  • 垂直沟道晶体管(VCT):一种新型晶体管结构,其源极、通道和漏极垂直堆叠,而非传统晶体管的水平排列。VCT的占地面积更小,能够满足4F²布局对晶体管尺寸的要求,但制造工艺更为复杂。例如,Samsung在其VCT制造工艺中采用了晶圆键合技术。
  • 硅通孔(TSV): 在芯片内部垂直方向穿透硅晶圆的导线技术,用于实现芯片内部不同层级之间的互联,广泛应用于HBM等高性能封装技术。
  • UCIe: 芯片互连标准,旨在实现不同芯片之间的高速互联,可用于提高DRAM与其他芯片之间的通信效率。
  • 混合键合(Hybrid Bonding): 先进的芯片封装技术,能够实现芯片之间更紧密的互联,有助于提高芯片性能和降低功耗。

01 DRAM困境


1. 3D DRAM革命中的赢家和输家

尽管关于摩尔定律是否已经终结的讨论日益激烈,但实际上,这一规律早在十多年前便已悄然失效,且未引起广泛关注。公众的注意力通常聚焦于逻辑芯片,但摩尔定律同样适用于DRAM领域。
如今,DRAM已难以继续缩小尺寸。在其鼎盛时期,内存位密度每18个月便能翻一番,甚至超越了逻辑芯片的进步速度。这意味着每十年内存密度能够增长超过百倍。然而,在过去十年间,DRAM的缩小速度显著放缓,密度仅提升了两倍。
随着AI技术的蓬勃发展,行业平衡进一步被打破。尽管逻辑芯片在密度和每晶体管功能成本方面持续取得显著进步,但DRAM的速度提升却极为有限。尽管存在诸多恐惧、不确定性和怀疑(FUD,Fear, Uncertainty, and Doubt),但在台积电3nm和2nm节点上,每晶体管成本仍在不断下降,而DRAM的带宽提升则主要依赖于昂贵的封装技术。
作为加速器内存的核心,HBM的每GB成本是标准DDR5的三倍甚至更高。客户不得不接受这一现状,因为若想要制造具有竞争力的加速器封装,他们几乎别无选择。然而,这种平衡状态难以为继——未来的HBM产品代际将通过增加层数而变得更加复杂。随着AI模型权重规模接近TB级,AI对内存的需求正呈爆炸式增长。以H100为例,HBM约占制造成本的50%以上;而在Blackwell上,这一比例将攀升至60%以上。
换言之,DRAM行业已遭遇“内存墙”。尽管计算能力的提升速度有所放缓,但仍远超内存的改进速度。如何加速DRAM的创新步伐?未来有哪些技术能够提升带宽、容量、降低成本并提高能效?
可能的解决方案众多。鉴于AI领域数千亿美元的资本支出,业界拥有强大的动力推动这些解决方案的发展。
从DRAM的背景与历史出发,我们将深入剖析当代“内存墙”的构成,并探讨潜在的解决方案。我们将讨论相对简单的短期策略,例如扩展HBM路线图;以及更为复杂的长期方案,如存内计算(Compute-in-Memory, CIM)、新型内存(如铁电RAM [Ferroelectric RAM, FeRAM] 和磁性RAM [Magnetic RAM, MRAM])、4F² DRAM,以及3D DRAM的到来。
2.DRAM入门:工作内存
计算机中运用了多种类型的内存。速度最快的是SRAM,它兼容逻辑工艺技术,通常位于CPU或GPU之上。由于SRAM被集成在逻辑芯片中,因此其成本是所有内存类型中最高的——每字节成本约为DRAM的100倍以上。因此,SRAM通常仅以小容量形式使用。另一端则是非易失性存储器,如NAND固态硬盘、机械硬盘和磁带。这些存储介质的成本较低,但速度过慢,无法满足许多任务的需求。DRAM则位于SRAM与闪存之间的“最佳位置”,在性能与成本之间达到了良好的平衡。
内存层次架构
在非AI服务器系统中,DRAM可能占总成本的一半。然而,在过去十年中,它却是所有主要逻辑和存储器中扩展速度最慢的。16Gb的DRAM芯片自8年前开始大规模量产以来,至今仍是最常见的产品。其推出时的成本约为每GB 3美元,随后上涨至接近5美元的峰值,并又回落到过去12个月内的每GB 3美元左右。在速度方面几乎没有提升。而在功耗方面,则主要得益于LPDDR的兴起。LPDDR通过缩短导线长度和提高能效实现了一定程度的进步,但整体进展仍然有限。DRAM缩放停滞已成为制约计算性能和经济性的关键因素。

02 DRAM架构及发展历史


1.DRAM入门:基本架构解析
从构造原理而言,DRAM的结构颇为简洁。它由按网格状排列的存储单元阵列所构成,每个单元负责存储一位信息。当下所有现代DRAM均采纳1T1C(即一个晶体管搭配一个电容)的单元架构,其中晶体管掌控存取操作,而电容则以微小的电荷形式来存储信息。
基础的DRAM电路由一系列存储单元组成,这些单元经由每行的Wordline与每列的Bitline相互连接。通过激活特定的Wordline与Bitline,即可对二者交点处的存储单元执行读写操作。
Wordline(WL)负责将同一行的所有存储单元连接起来,进而控制每个单元的访问晶体管。Bitline(BL)则连接同一列的所有存储单元,并与访问晶体管的源极相接。当某条Wordline被激活时,该行中所有单元的访问晶体管会随之开启,使得电流能够顺畅地从Bitline流入存储单元(执行写入操作)或从存储单元流向Bitline(执行读取操作)。在任一时刻,仅有一条Wordline和一条Bitline处于激活状态,这意味着只有活动Wordline与Bitline交汇处的单个单元会进行数据的读写。
当晶体管因Wordline激活而导通时,电荷能够在Bitline与电容器之间流通。
DRAM归类于易失性存储器,其存储电容存在电荷泄漏的问题,所以需要定期进行刷新操作(一般大约每隔32毫秒)以确保数据的完整性。每次刷新操作会读取单元内容,将Bitline电压调整至理想水平,然后将刷新后的数据重新存入电容。这一过程完全在DRAM芯片内部自主完成,无需外部数据的参与,从而有效降低了能耗。尽管如此,刷新操作还是会消耗DRAM总功耗的10%以上。
电容的尺寸已被缩减至纳米级宽度,并且具备极高的纵横比,高度可达约1000nm,但直径仅为数十纳米,其纵横比接近100:1,电容值约为6-7fF(飞法拉,femto-Farad)。每个电容所能存储的电荷量极少,新写入时大约为40000个电子。
存储单元通过Bitline来输入和输出电子,但Bitline上的电压会因同一Bitline上其他存储单元的存在而有所降低。Bitline总电容可能超过30fF,降低幅度可达5倍。同时,由于Bitline非常纤细,电子的流动速度相对较慢。此外,若单元在近期内未被刷新,其电荷量可能已大幅减少,仅能提供部分电量。
上述因素导致存储单元在放电以读取数据时产生的信号极为微弱,因此必须进行放大处理。为此,Bitline末端配备了感应放大器(Sense Amplifiers, SA),它们能够检测到来自存储单元的微弱电荷并将其放大至可用强度。这些经过放大的信号能够被系统的其他部分识别为二进制1或0。
感应放大器采用了巧妙的电路设计:它将活动Bitline的电压与一个相邻的未使用Bitline进行比较。初始时,两条Bitline的电压相近。感应放大器通过检测活动Bitline与邻近Bitline之间的电压差异,将差异进行放大并反馈至活动Bitline,从而实现了信号的放大,并同时将完整的新电压值(高或低)重新写入仍与Bitline相连的存储单元。这一设计实现了双重功效:既完成了单元的读取,也同步完成了单元的刷新。
在读取或刷新存储单元后,数据可以被复制出芯片或通过写入操作进行覆盖。写入操作会忽略刷新后的数据,通过更强的信号将Bitline强制设置为新值。读写操作完成后,Wordline会被关闭,访问晶体管被禁用,从而将存储电容中的电荷锁定。
2.DRAM入门:历史回顾 (DRAM 尚可缩放的时代)
现代DRAM的实现离不开两项至关重要且相辅相成的发明:1T1C存储单元和感应放大器。
1T1C存储单元由IBM的Robert Dennard博士于1967年发明,他还因其提出的MOS晶体管缩放定律(Dennard Scaling)而广为人知。DRAM和这一缩放定律均建立在MOS晶体管(即金属氧化物硅,晶体管栅极中的层结构)的基础之上。
1T1C(即一个晶体管搭配一个电容)存储单元架构的首个专利由Dennard提出。
尽管1T1C存储单元的结构早已问世,但Intel在1973年推出的早期DRAM产品仍采用每单元3个晶体管的架构,其中中间晶体管的栅极作为存储电容使用。这种“增益单元”(Gain Cell)通过中间和末端晶体管对存储电荷进行放大,使得读取操作既轻松又不会对存储值造成干扰。
从理论层面来看,1T1C存储单元具有更高的优越性:所需器件数量更少,布线更为简单,占用空间也更小。那么,为何它未能被立即采用呢?原因在于当时的技术水平还不足以实现对此类单元的实用化读取。
1T1C单元的低电容特性使得其操作变得不切实际,直到第二项关键发明——感应放大器——的出现才有所改观。
1971年,Siemens的Karl Stein研发出了首款现代感应放大器,并在加州的一场会议上进行了展示,但几乎无人问津。当时1T1C架构尚未被广泛接纳,Siemens也未认识到这一发明的巨大潜力。随后,Stein被调往其他项目,在非DRAM领域取得了显著成就。
感应放大器的首个专利则出自Stein之手。
这种设计与Bitline间距高度契合,并且能够与存储单元尺寸的缩放保持同步。感应放大器在非工作状态下会完全断电,这使得芯片上能够容纳数百万个放大器而不会增加功耗,堪称一项微型奇迹。
感应放大器的实际应用等待了五年多的时间。Mostek的Robert Proebsting独立地重新发现了这一概念,并于1977年推出了采用1T1C+SA架构的16kb DRAM,从而成为了市场领导者。这一成功的组合方案自此一直沿用至今,DRAM架构在近50年内几乎未发生根本性的变化。
3.DRAM基础知识:DRAM扩展停滞时期
在20世纪,半导体行业深受摩尔定律(Moore's Law)与登纳德缩放定律(Dennard Scaling)的驱动。在其鼎盛时期,DRAM的密度增长超越了逻辑芯片。每隔18个月,DRAM的单片容量便能实现翻倍,这一趋势推动了日本晶圆厂的崛起(其市场份额在1981年首次超越美国,并在1987年达到约80%的峰值),随后韩国企业也开始崭露头角(其市场份额在1998年超过了日本)。这种基于相对简单工艺的晶圆快速迭代,为有能力建设下一代晶圆厂的新入行者提供了契机。
在DRAM发展的“黄金时期”,单位存储成本在短短20年内骤降了三个数量级。
然而,这种快速扩展并未持续太久。从20世纪末至21世纪,逻辑芯片的扩展速度显著超过了存储芯片。近期,逻辑芯片的扩展速度已放缓至每两年密度提升30%-40%。与之相比,DRAM的扩展速度更是相形见绌——目前需要大约10年才能实现密度翻倍,与其巅峰时期相比,速度慢了一个数量级。
尽管“今时不同往日”的说法屡见不鲜,但内存行业的周期性波动实则已延续50载。
这种扩展放缓对DRAM的价格动态产生了连锁反应。尽管存储器行业历来具有周期性,但由于密度扩展缓慢,供应受限时成本下降难以抵消价格上涨的压力。增加DRAM供应的唯一途径是建设新晶圆厂。剧烈的价格波动和高资本支出(CAPEX)导致只有规模最大的公司能够生存:20世纪90年代中期,超过20家公司生产DRAM,市场份额前10名占据了80%;而当下,前三大供应商掌控了超过95%的市场份额。
由于DRAM属于标准化产品,其供应商相较于逻辑芯片或模拟芯片供应商,更易受到价格波动的影响。在市场低迷时期,供应商主要通过产品价格进行竞争。逻辑芯片通过增加成本来维持摩尔定律,但DRAM并不具备这一优势。DRAM的成本衡量相对简单,即每千兆比特($/Gb)的成本。与早期相比,过去10年DRAM价格的下降速度明显放缓——价格下降一个数量级的时间从过去的5年延长至了10年。尽管如此,这种周期性价格波动的特征依然显著。
DRAM的密度扩展速率已放缓至每十年翻两番,而其价格变动则更多地受到周期性因素的左右。
进入10纳米节点后,DRAM的比特密度增长陷入了停滞。即便Samsung在其1z工艺中及SK hynix在其1a工艺中采用了极紫外光刻(EUV),也未能显著提升密度。它们面临的主要挑战在于电容器与感测放大器。
电容器在多方面均面临挑战。首先,图案化过程的要求极高,因为需要紧密排列的孔具有严格的关键尺寸(CD)和叠层控制,以接触下方的存取晶体管,并避免桥接或其他缺陷。电容器具有极高的纵横比,蚀刻出既直又窄的孔形状极为困难,同时还需要更厚的硬掩模来支持更深的蚀刻,但更厚的掩模又需要更厚的光刻胶,这无疑增加了图案化的难度。
其次,需要在孔壁上均匀沉积几层仅几纳米厚的无缺陷薄膜以形成电容器。这几乎每一步都触及了现代工艺技术的极限。
DRAM的存储电容器需在纵横比高达100:1的深孔内构建多层精密结构(非等比例绘制,实际电容值或比图示高出10倍)。
感测放大器面临的挑战与逻辑芯片的互连结构类似。过去被视为次要的组件,如今其难度已与“主”功能(如逻辑晶体管和存储单元)相当甚至更高。感测放大器面临多重限制:一方面,其面积需随着Bitline的缩小而缩小,导致其敏感性降低,更易受到变化和泄漏的影响;另一方面,随着电容器变小,储存的电荷减少,使得感测需求更高,读取更为困难。
此外,还有其他诸多挑战。总体而言,使用传统方法经济性地扩展DRAM正变得越来越困难。这也为新思路的出现提供了契机——让我们来探讨一些可能的解决方案。

03 DRAM扩展的短期策


1.短期扩展策略:4F²布局与垂直沟道晶体管(VCT)
在短期内,DRAM的扩展将继续沿袭传统路径。架构上的重大变革需要数年时间才能开发和实施。在此期间,行业必须回应性能改进的需求,即便这些改进只是微小的。
短期路线图包含两项创新技术:4F²单元布局和垂直沟道晶体管(Vertical Channel Transistor, VCT)。
Samsung DRAM技术路线图概览。
需要注意的是,包括Samsung在内的一些公司在其路线图中将VCT归类为“3D”范畴。尽管从技术上讲这并无不妥,但这种分类容易引发误解,因为VCT与通常所说的“3D DRAM”存在显著差异。
标准的6F²布局与采用垂直沟道晶体管的4F²布局之间的对比。
4F²指的是存储单元面积以最小特征尺寸F的平方来表示,类似于标准逻辑单元高度的轨道指标(如“6T单元”)。最小特征尺寸通常是线宽或间距宽度,在DRAM中通常是Wordline或Bitline宽度。这是一种简洁明了的表示单元布局密度的方法,便于比较——4F²单元仅为6F²单元的2/3大小,理论上可以在不缩小最小特征尺寸的情况下提高30%的密度。然而,纯单元布局并非密度扩展的唯一限制因素,因此实际效益可能低于理想的30%。
4F²是单比特单元的理论极限。需要注意的是,特征尺寸是线宽或间距宽度(即半间距),因此线加间距图案的间距为2F,而非F,所以最小可能单元面积是4F²而非F²。因此,一旦实现这种架构,横向扩展的唯一途径就是缩小F本身——但这已迅速变得不切实际甚至完全不可能。
自2007年以来,DRAM一直采用6F²布局,而在此之前使用的是8F²(有趣的是,现代NAND已经采用了4F²单元,但其特征尺寸F显著更大。SRAM则约为120F²,密度低了约20倍!)。
一个显著的例外是CXMT(长鑫存储),这家中国厂商在其2023年底发布的突破制裁的18纳米DRAM中采用了VCT和4F²布局。由于Samsung、SK hynix和Micron能够通过缩小单元实现扩展,它们并未像CXMT那样被迫采用这些架构。CXMT的早期采用也传递出一个重要信号——他们可能在缩小F方面遇到了困难,因此选择了更为激进的单元和晶体管架构变革。
实现4F²单元的关键在于垂直沟道晶体管。这一技术的必要性在于晶体管必须缩小以适应单元布局,同时Bitline和电容器的两个接触点也必须纳入这一占地面积中。因此,垂直沟道成为必然选择。在这些尺寸范围内,晶体管必须从水平布局改为垂直布局,从而将占地面积缩减至约1F,大致与其上方的电容器匹配,同时保持足够的通道长度以确保晶体管正常工作。目前的DRAM使用的是水平通道和水平分离的源/漏结构。这种架构成熟且已被充分理解。而VCT则将源极(连接至下方Bitline)、通道(被栅极及控制栅极的Wordline包围)和漏极(连接至上方电容器)顺序堆叠。在制造上存在权衡,一些步骤变得更简单,而另一些则变得更复杂,但总体而言,VCT的制造难度更大。
Samsung的工艺因采用晶圆键合而备受瞩目。这一工艺类似于逻辑芯片的背面电源传输,存取晶体管与Bitline在顶部形成后翻转晶圆并与支撑晶圆键合,这样Bitline便被埋入。值得注意的是,键合的基底似乎无需与VCT精确对齐,但披露的文件并未明确外围CMOS会置于翻转的芯片上还是新键合的基底上。顶部经过减薄处理以暴露晶体管的另一端,从而在其上方构建存储电容器。EVG和TEL将从这种对晶圆键合工具的新需求中获益。

04 当前DRAM类型及优劣势分析


1.DRAM基础知识:主要DRAM类型
DRAM种类繁多,每种均针对特定目标进行优化。目前最新一代的主要类型涵盖DDR5、LPDDR5X、GDDR6X和HBM3/E。它们的差异主要体现在外围电路上,而存储单元本身在各类型中较为相似,制造工艺也基本一致。以下是对这些不同类型的DRAM及其作用的简要介绍。
DDR5提供最高的内存容量,通常以双列直插内存模块(DIMM)的形式封装。
LPDDR5X(Low Power DDR5,X代表增强型)实现了低功耗操作,但要求与CPU的距离较近,连接电容较低,因此其容量有所限制。它主要应用于手机和笔记本电脑,适用于对功耗要求较高且布局限制可接受的场景。
近期,LPDDR的更高容量封装已被用于某些AI加速器、Apple的专业工作站以及如Grace这样的AI馈送CPU。这些新用途的驱动因素是对高带宽和低功耗数据传输的需求。
在加速器中,LPDDR已成为一种“第二层”内存的理想选择,能够以更低成本提供容量,但速度较慢。虽然在容量和可靠性特性上不及HBM,但LPDDR比DDR5 DIMM的能耗低一个数量级。LPDDR5X的封装容量高达480GB(例如Nvidia的Grace处理器所支持),约为GDDR配置(受电路板布局规则和芯片封装限制)的10倍,与中型DDR服务器配置相当。更大的DDR5容量可通过使用超过128GB的R-DIMM实现,但由于封装复杂性和DIMM上的额外寄存器(Registers,一种缓冲芯片),成本较高。
LPDDR5X在功耗方面相较于DDR具有显著优势,同时在成本上优于HBM,但其每位能耗仍无法与HBM匹敌,且需要更多的通道(与CPU的连接),在更高容量下会造成电路板布局的拥挤。此外,在大容量场景下,ECC的重要性提升,而LPDDR5X的错误校正能力相对较弱。这通常需要分配一部分容量用于支持额外的ECC。例如,Grace CPU的每个计算托盘配备512GB LPDDR5X,但似乎保留了32GB用于可靠性特性,仅有480GB可用。
即将推出的LPDDR6标准改进有限,仍维持每芯片高通道数,仅有轻微的速度提升,对错误校正的支持也较为有限。LPDDR6难以成为HBM的有力竞争者。
GDDR6X(Graphics DDR6X)专注于图形应用,提供高带宽且成本较低,但延迟和功耗较高。虽然适用于游戏GPU,但由于电路板容量和功耗的限制,其在AI应用中的适用性有限。
HBM3E(High Bandwidth Memory 第三代增强版)优先考虑带宽和能效,但成本高昂。HBM的两个显著特点是超宽总线宽度和垂直堆叠的存储芯片。单个HBM芯片具有256位I/O总线宽度,比LPDDR(每芯片16位)高出16倍。通常,每堆叠包含8层或更多芯片,每4层芯片共享I/O,总封装提供1024位的带宽。HBM4将这一数值提升至2048位。
HBM的高成本主要源于堆叠芯片的需求。典型HBM堆叠包含8到12个DRAM芯片(16及以上在规划中),通过硅通孔(TSV)实现电力和信号的路由。TSV是穿过芯片的导线,与传统的线键合方法相比,具有更高的密度、性能和成本。每个HBM堆叠中超过1200根信号导线通过TSV路由。这种复杂性导致良率下降,例如,Samsung因使用落后的1α节点而在HBM良率上遭遇显著挑战。而SK hynix通过MR-MUF封装技术成功生产HBM3E,成为当前的市场领导者,Micron则仍需大幅提升产能。
尽管成本高昂且良率具有挑战性,HBM3E目前仍是内存行业最有价值且利润率最高的产品。主要原因是,对于大型模型AI加速器,没有其他DRAM类型可以替代。即使Samsung改进良率,Micron提升产能,AI加速器对内存的需求仍将持续增长,在一定程度上抵消新增供应的影响。
HBM在带宽与封装密度方面占据领先地位。
总结而言,HBM3E凭借其高带宽、高带宽密度、最佳能效和完整的ECC能力,暂时成为AI加速器的首选。这也是Nvidia H100和AMD MI300X等产品采用HBM3E的原因。而GDDR6/X尽管在某些指标上排名第二,但容量极小。LPDDR5和DDR5则更不适合加速器的需求。
然而,当前的HBM解决方案成本高昂,且未来扩展性将更加困难。我们是如何发展到这一步的?

05 HBM发展路线及未来趋势


1.HBM发展路线图
HBM是一种基于传统DRAM理念的封装解决方案,通过提高密度和邻近性来解决AI和其他高性能计算的带宽与功耗问题。
所有主流AI GPU目前均使用HBM作为内存。2025年的规划包括12-Hi的HBM3E,单芯片容量32Gb,每堆叠总容量48GB,数据速率达到每根导线8Gbps。GPU服务器已经推出首批具有支持CPU的统一内存版本,如AMD MI300A和Nvidia Grace Hopper。
Grace CPU使用高容量LPDDR5X,而GPU使用高带宽HBM3。然而,CPU和GPU分别封装,通过NVLink-C2C以每秒900GB的速度连接。这种模式集成较为简单,但在软件方面难度较大。连接到另一芯片的内存延迟更高,可能影响大量工作负载。因此,这种内存并非完全统一,仍面临自身的挑战。
HBM4将在几年后问世,Samsung和Micron预计将支持16-Hi堆叠,每堆叠带宽达到1.5TB/s,是当前的两倍多,而功耗仅增加1.3到1.5倍。这种扩展仍不足以满足需求,因为内存的总体功耗持续上升。HBM4将采用每堆叠2048位的总线宽度,以降低数据速率(至7.5Gbps),改善功耗和信号完整性。预计HBM4E或类似产品会将数据速率提升至HBM3E的水平。
HBM的基础芯片也将发生重大变化,从当前的平面CMOS技术转向FinFET工艺。对于Micron和SK hynix这些不具备逻辑能力的厂商,其基础芯片将由代工厂生产,TSMC已宣布将为SK hynix提供支持。此外,基础芯片可能会根据客户需求进行定制。
2.HBM础知识:HBM定制
HBM4预计将使用至少两种不同形式的基础芯片,使内存接口针对不同的速度和长度进行优化。DRAM状态机的控制功能可能移至基础芯片,以更高效地管理DRAM芯片。未来可能通过垂直连接降低每位能耗。
定制HBM还可能引入多种封装架构,超越当前的CoWoS(Chip-on-Wafer-on-Substrate)装配模式。例如,可能引入中继PHY来串联多排HBM,但超过两排的效果会递减。
HBM4及后续版本可能采用混合键合(Hybrid Bonding)技术。这将消除芯片间的间隙,降低堆叠厚度,并改善散热。此外,堆叠层数可能增加到16-20层以上,信号的物理传输距离减少,也可能略微降低功耗。然而,制造16层以上的高良率堆叠在短期内仍是巨大的挑战,量产能力尚需时日。
首批HBM4不会采用混合键合,这种技术的广泛应用仍需很长时间。
CPU、GPU或加速器与内存的连接集中在基础芯片上。改进这一连接可能是克服内存限制的一个途径。例如,Eliyan公司提出了一种由Micron、Intel等资助的UMI(Unified Memory Interconnect)定制接口。
UMI接口配合ASIC芯片使用,该芯片既充当HBM堆叠的基础芯片,也可作为其他类型内存的模块控制器。该芯片包含内存控制器和与内存芯片的物理互连(PHY)。UMI通过先进的“Nulink”协议与主机连接,并将内存控制器从主机硅片中移除。
Eliyan的封装技术即使在标准基板上也可运行,其连接距离远超常规高级封装。这或许可以让HBM不必紧邻ASIC芯片,而是隔开更远,从而容纳更大的容量。这种方式还减少了主机芯片的面积占用,使通道宽度得以增加。标准化的UMI内存芯片可能允许HBM、DDR、CXL等内存类型灵活切换,显著提高了灵活性。尽管这种方式可能在短期内带来改进,但并未解决HBM的基本成本问题。

06 新兴内存技术


尽管DRAM与NAND长期占据市场主导地位,但科研人员始终在不懈探索更佳的替代技术,这些技术统称为“新兴内存”。该命名或许并不十分贴切,因为截至目前,尚未有任何一项技术能够真正实现大规模量产。然而,鉴于人工智能(AI)带来的全新挑战与激励机制,这些新兴技术无疑值得深入探讨。
在离散应用内存中,FeRAM(铁电随机存储器)展现出巨大前景。与传统存储电容所采用的电介质(绝缘材料)不同,FeRAM采用的是铁电材料(在电场作用下会发生极化)。其最大优势在于非易失性,即关机后仍能存储数据,且无需刷新,从而显著节省功耗与时间。
在2023年的IEDM会议上,Micron展示了具有D1β DRAM密度的铁电存储器,该存储器展现出良好的耐久性与保持性能。这预示着FeRAM在AI/ML应用中具有广阔潜力。然而,高昂的成本仍是其面临的主要问题。FeRAM的制造流程复杂,需使用更多特殊材料,因此在当前市场环境下难以形成竞争优势。
MRAM(磁阻随机存储器)是另一极具前景的研究领域。该技术通过磁性手段而非电荷来存储数据,其中大多数设计采用磁隧道结(MTJ)作为位存储单元。
磁隧道结存储器(Magnetic Tunnel Junction RAM)则利用磁性机制而非电学机制来存储信息。
在2022年的IEDM会议上,SK hynix与Kioxia展示了具有45nm间距和20nm关键尺寸的单选择器MTJ单元,实现了迄今为止最高的MRAM密度(0.49 Gb/mm²),超越了Micron的D1β DRAM(0.435 Gb/mm²)。该单元甚至采用了4F²设计,旨在以离散封装形式实现产品化,进而替代DRAM。
目前,所有替代内存技术均未能有效撼动DRAM的市场地位。部分替代方案存在单元体积大、速度慢、工艺昂贵、耐久性有限或良率较低等问题。现阶段,出货的磁性或相变存储器产品通常以MB为单位,而非GB。这一现状可能会发生改变,尤其是在巨大市场利益的驱动下,但设备与规模化生产的改进仍需付出大量努力。

07 存内计算(CIM)


1.存内计算: 基本概念
DRAM自其架构设计之初便存在固有局限。它作为简单的状态机,不包含任何控制逻辑,这有助于降低成本,但也意味着其必须依赖主机(CPU)进行控制。
这种范式已根深蒂固:现代DRAM制造工艺经过高度优化与专业化,几乎无法实际生产控制逻辑。此外,行业组织JEDEC(联合电子器件工程委员会)在制定新标准时,也严格限制了逻辑功能的引入。
“哑”DRAM:控制逻辑与存储单元相互独立,因此指令需通过一个缓慢且效率较低的接口进行传输。
DRAM芯片完全依赖于主机:所有命令均通过一个共享接口传输,为内存中的多个存储体(Bank)以及主机中的多个线程提供服务。每条命令需经过四个或更多步骤,并以精确的时序发出,以确保DRAM正常工作。甚至避免冲突的逻辑也不存在于DRAM芯片中。
情况因DRAM使用的过时半双工接口而进一步恶化:DRAM芯片可以读取或写入数据,但不能同时进行。这要求主机对DRAM进行精确建模,并预测每个时钟周期接口是读取还是写入。命令与数据通过独立线路发送,这降低了时序复杂性,但增加了线路数量,并加剧了CPU或GPU上的“接口空间”拥堵问题。总体来看,与逻辑芯片使用的PHY接口相比,内存接口在比特率、空间密度和效率方面已落后一个数量级。
这些劣势的直接后果是,DDR5 DIMM(服务器上最常见的内存模块)在读取或写入操作中,超过99%的能量消耗在主控制器和接口上。其他类型的内存情况略有改善——HBM的接口能量消耗约占95%,而内存单元读/写能耗仅占5%——但仍远未充分发掘DRAM的潜力。
显然,当前的功能分配存在问题,而解决方案则是将相关功能转移到正确的位置:控制逻辑应与内存集成在同一芯片上,这正是“存内计算”(Compute in Memory,CIM)的理念所在。
2.存内计算:释放存储体的潜能
DRAM存储体(Bank)具备巨大的性能潜力,但由于接口限制而几乎被完全浪费。
存储体是DRAM构造的基本单元。每个存储体由8个子存储体组成,每个子存储体包含64Mb(8000行×8000比特)的内存。存储体一次激活和刷新一行8000比特,但每次I/O操作仅能传输其中的256比特。这一限制源于感应放大器(Sense Amplifier)的外部连接:尽管每行由8000个感应放大器支持,但每个子存储体仅有1/32的感应放大器(即256个)与外部相连,导致读写操作受限。
(a) 紧凑的高电容结构限制了感应放大器的访问。(b) 一幅采用聚焦离子束(FIB)技术拆解DDR4 DRAM感应放大器区域的图像。(c) 一幅1β DRAM中Mat区域边缘结构的示意图。
感应放大器被高大的电容所包围。在ETH Zurich提供的FIB剖析图中,可以清晰看到较高层的布线需通过较长的贯通孔(via)与感应放大器接触。
即便在这种接口受限的情况下,每个存储体的峰值读写能力仍可达256Gb/s,但由于至少50%的时间用于切换新激活的行,平均速率更接近128Gb/s。对于一个16Gb的芯片而言,其32个存储体的总潜能可达4TB/s。
在更高层次的连接中,存储体通过存储体组(bank group)连接到DRAM芯片的外部接口。以HBM为例,每个晶粒有256条数据线,峰值吞吐量为256GB/s。但这一瓶颈仅能利用存储体潜能的1/16。
更糟糕的是,传输一比特数据出芯片需耗费2皮焦耳(pJ)的能量,是在内存单元中移动该比特所需能量的20倍。绝大部分能量消耗发生在DQ(数据线,用于读写操作)线两端的接口,以及主机端的控制逻辑中。
面对如此低效的架构,人们必然会寻求利用更多潜在性能的方法。
3.存内计算:挖掘DRAM的全部潜能
即便是简单的理论模型,也能揭示DRAM蕴藏着巨大的潜力。例如,采用UCIe(通用芯粒互连标准)可实现的吞吐量高达每毫米边缘11Tbps,这一数值比HBM3E高出近12倍。同时,每比特的能耗也将从2pJ显著降低至0.25pJ。值得注意的是,UCIe并非最先进的解决方案,例如Eliyan的专有Nulink标准据称能带来更为显著的改进。
然而,这一过程并非易事:若将主机结构扩展至接口,DRAM侧就必须处理部分结构指令集。这意味着每个存储体都需在本地实现状态机(涵盖预充电、地址选择、激活、读/写、关闭等功能)。为此,需要将相对复杂的逻辑集成到DRAM芯片之中。
4.存内计算:前进路径与潜在赢家
为DRAM芯片增加逻辑功能并非易事,但有一个好消息是,HBM已经内置了一个CMOS基底芯片。随着3D DRAM技术的问世,高性能CMOS逻辑与内存堆栈进行键合几乎成为必然。从架构角度来看,在内存中嵌入计算变得切实可行,且芯片制造商将积极推动这一发展。
一些较易实现的改进值得关注。例如,若HBM采用GDDR7的32Gbps数据线速率,就表明DRAM芯片能够制造出速度足够快的晶体管。此外,通过TSV(硅通孔)到基底堆栈的垂直距离不足1毫米,这有助于将能耗保持在约0.25pJ/比特范围内。这不禁让人产生疑问:为何JEDEC不推动制定更优的标准?
基底芯片的外部接口可以通过现代化设计实现显著升级,每毫米边缘带宽可超过1TB/s,每比特能耗更是低至分数皮焦耳。这场知识产权竞争势必会催生巨大的赢家。尽管JEDEC可能会采用某种标准,但更可能的情况是,内存和GPU供应商会迅速推进相关技术,因为JEDEC的标准制定过程通常较为漫长。
我们已经看到HBM4通过接纳第三方基底芯片展现了巨大潜力,这必将催生出更多的实验。未来可能实现的改进包括:将通道控制外包、纯扩展互连结构、降低跨厘米距离的数据能耗,以及与更远存储体或LPDDR等第二层内存的菊链连接。
通过这种方式,设计可以绕过内存堆栈内计算的功耗限制,并利用基底芯片上的现代化接口,为邻近芯片提供接近存内计算级的带宽和低能耗。
接下来,我们将探讨DRAM的革命性变化——3D技术。这一技术将为内存制造商和晶圆制造设备带来颠覆性的变革。我们将深入剖析其基础、制造工艺以及可能的赢家与输家。

08 3D DRAM技术


1.3D DRAM:基础知识
与新兴的存储器架构不同,3D DRAM基于成熟的1T1C Dennard单元(即1个晶体管加1个电容)设计。它继承了数十年传统DRAM研究和实践的精髓,唯一的重大变化在于制造工艺的革新。同时,3D DRAM通常与CIM架构相兼容,因此被视为长期来看风险最低的选择。
如前所述,当前的DRAM单元采用6F²设计,并有望向4F²转变。这些架构通常通过增加垂直方向的占用空间来减少水平方向的面积占用。尽管它们可能在速度上有所提升,但由于电容密度并未直接受到影响,因此总体存储密度可能变化不大。
3D DRAM则采取了截然不同的路径。它不再极力压缩水平面积,而是将电容旋转并垂直堆叠起来。其扩展方式并非通过缩小单元尺寸来实现,而是通过在器件中叠加更多层来达成。
这种垂直转型在NAND领域已有成功先例。十年前,NAND首次实现了从水平布局向垂直堆叠的过渡,从最初的32层产品发展至如今接近1000层的技术水平。当然,DRAM的1T1C架构比NAND更为复杂,但核心原则相同,即先铺设没有复杂结构的廉价层,然后通过顶层刻蚀和化学处理并行形成所有晶体管和电容。
用于感应放大器(Sense Amplifier)和外围电路的CMOS将集成在存储单元堆栈的顶部或底部。顶部集成可能通过混合键合技术实现,而底部集成则可能通过芯片翻转和减薄技术,利用背面的硅表面并通过贯通孔(via)连接到垂直线路。无论是哪种方式,这些电路都将不再受限于低速晶体管。随着每芯片位数的增加,将有更大的动力去提升接口的功能和效率。这些芯片可能会采用全新类别的接口标准。
2.3D DRAM:挑战者
3D DRAM是对DRAM生产方式的颠覆性变革,当前市场领导者能否继续保持主导地位尚不确定。尽管小型厂商在研发实力和快速规模化生产能力上处于劣势,但在3D DRAM领域仍存在一定的竞争机会。
Macronix在IEDM 2022上展示了3TOC(3晶体管无电容)DRAM,这是一种类似1973年Intel增益单元(gain cell)的技术,并展示了向3D堆叠和GAA(环绕栅极)架构发展的路径。若保持相同的特征尺寸,其堆叠版的单元尺寸为21F²,仅需4层就能超越当前的存储密度。
此外,还有其他小型厂商提出了各种概念。然而,大规模生产所需的巨额资本支出以及现有专利的障碍(大多数掌握在主要内存制造商手中)为这些小厂商带来了极大的挑战。目前尚不清楚这些小厂商是否能够实现生产上的颠覆性突破。
3.3D DRAM:三大巨头
Samsung近期在Memcon 2024大会上正式公布了其技术路线图,其中3D DRAM首次被纳入规划之中,这标志着该技术正逐步从实验室走向实际生产的阶段。
Samsung将其3D DRAM命名为“VS-DRAM”,即“垂直堆叠DRAM”。目前,其公开的研究仍处于早期阶段,展示了垂直Wordline(vertical wordline)和垂直Bitline(vertical bitline)两种潜在方案。尽管已有功能芯片的电学特性数据,但实际样品的图像细节仍较为有限。这些研究成果虽为一年前的工作,但仍反映出技术发展尚处于初级阶段,距离量产还有一定距离。
SK Hynix则在0a节点上率先表明了态度。他们在VLSI 2024上详细展示了五层垂直Bitline(BL)集成的成果,并表示在即将到来的1c和1d节点之后,工艺整合和缩放的挑战将促使0a节点引入3D技术。这一转型预计需要大约5年的时间。
SK Hynix认为,垂直Bitline是更合理的架构选择,因为它能提供更大的感测裕度。他们展示了一个完全集成的设备,其中包括通过混合键合连接的存储阵列和外围电路。然而,SK Hynix也坦言,这方面仍需大量工作,预计架构和整合方案在量产前会持续进行优化。尽管目前展示的五层堆叠芯片令人印象深刻,但要实现高产量制造工艺,仍需接近10倍的堆叠层数。
Micron在面临2D DRAM缩放挑战时,同样得出了需要3D DRAM的结论,但在这一领域尚未展示明显的公开进展。有迹象表明他们正在进行相关研发,例如在IITC 2024的主题演讲中提到了生产高质量Si/SiGe层堆栈的难度。然而,除此之外,相关信息甚少。在IEDM 2023上,Micron的Dr. Tran指出“光刻成本正在飙升”,这自然引向了通过3D技术降低成本的路径。他们可能认为3D转型的时间表更长,例如,其1β节点无需使用EUV光刻就已实现了行业领先的密度,因此可能在进入3D技术前,还能在10nm以下的节点上再挖掘几代潜力。
4.3D DRAM:制造与设备
从水平缩放向垂直缩放的转型,通常意味着制造设备将发生变革。在NAND、DRAM和逻辑芯片这三大主要应用领域,水平缩放的核心驱动力是光刻技术。这一逻辑清晰明了:要制造更小的器件,就需要打印出更小的特征。而3D DRAM的垂直缩放则主要依赖于材料加工技术。光刻要求的水平尺寸基本保持不变,制造的挑战转移到了沉积、刻蚀等领域。例如,如何刻蚀出纵横比高达100:1的深孔?如何在没有直线视线的情况下,在硅通道底部沉积高质量的1nm薄膜?这些问题层出不穷。
在2D NAND时代,由于需要最大程度地减小水平尺寸,这一领域在光刻间距缩放上长期处于领先地位。密度的提升主要通过存储单元的水平缩小来实现。而向3D NAND及层数扩展的转型,则将光刻缩放从技术路线图中解耦出来,因为密度的提升仅需增加垂直层数,而存储单元的尺寸保持不变。
3D NAND的重大机遇集中在材料领域。例如,适用于高纵横比刻蚀的低温设备已成为关键。可以预见,DRAM转向3D的过程中也将出现类似的动态。
在2y和10nm代工艺阶段,DRAM的光刻层数增长速度相对缓慢。然而,随着水平缩放的推进,这些层逐渐转向更昂贵的设备。目前,低数值孔径(low-NA)的EUV设备已被应用于少量关键层。如果没有3D转型,高数值孔径(high-NA)的EUV设备也会进入技术规划。
深入探讨常规DRAM与3D DRAM的制造流程,不仅有助于理解两者之间的工艺差异,还能验证从光刻向刻蚀和沉积转移的理论。这一转变对设备制造商的价值创造具有重要意义,因为能够支持扩展的技术通常能够获得更高的溢价。
常规DRAM的结构较为复杂,通过一系列巧妙设计提高了密度。电流流动呈“U”形,从Bitline出发,经由一个马鞍状通道(由栅极环绕),再进入存储节点电容。
传统DRAM制造工艺流程概述。
其制造过程通常遵循自下而上的流程:
首先形成具有栅极和Wordline的有源硅区域,这些区域被“埋”在器件的其他部分之下,以减少Wordline与Bitline之间的寄生电容。接下来,在有源区域上方建立接触点,这些点连接访问晶体管的源极和漏极。随后,Bitline以线/间距的形式排列,形成连续行并连接到一半的接触点。最后,在另一半的接触点上方构建存储节点电容。
对于10nm级别的DRAM,这些特征的间距最多为48nm,这接近甚至低于领先逻辑工艺中最先进的栅极间距。这要求光刻设备具有卓越的对准性能,尤其是在使用多重图形化(multi-patterning)方案时,也因此需要使用最昂贵的光刻设备。更重要的是,关键特征的定位和定义主要依赖光刻技术。
相比之下,3D DRAM的结构相对简单直观(以下描述基于最具前景的垂直Bitline方案)。一条垂直Bitline从顶部延伸至底部,水平通道从Bitline连接至通道的顶部和底部,顶部与Wordline和栅极相连,而通道的另一端连接到电容,这些电容水平堆叠在阵列中。Bitline与电容之间的电流由其间的栅极/Wordline控制。
3D DRAM的结构涵盖垂直Bitline(VBL)、水平Wordline(WL)及水平电容阵列。在第二张图片中,垂直Bitline以圆柱体形态呈现,浅蓝色通道贯穿其中,而深蓝色的Wordline则分布在这些通道的顶部与底部。
尽管为简化描述而省略了一些细节,但以下为代表性的工艺流程:
制造始于一组交替的Si/SiGe层堆叠,这与环绕栅极晶体管(GAA)的起始工艺相似。通过刻蚀形成的隔离柱用介电材料填充,这些隔离柱既用于隔离Bitline,又为硅层在后续工艺中提供支撑。随后,在避开隔离柱的网格中刻蚀出孔洞,这些孔洞将形成垂直Bitline和电容阵列。
通过这些开口,去除牺牲性的SiGe层,留下由隔离柱支撑的水平Si层。这些Si层最终将作为连接Bitline与电容的通道。随后,沉积一层氮化物覆盖通道,并在剩余空间中填充绝缘材料,以防止相邻通道的电流泄漏。
电容孔用临时材料填充以进行封堵,而Bitline孔则保持开放。通过这些开孔,可以稍微刻回通道周围的氮化物,并替换为栅极和金属Wordline。
接下来,在Bitline孔中填充金属以形成Bitline。最后,移除电容孔中的临时填充材料,并用电容性材料替换以完成电容的构建。
尽管我们省略了Bitline到通道以及通道到电容的接触设计细节,但总体流程已较为清晰:3D DRAM的光刻步骤较少,而刻蚀和沉积步骤却极为复杂。
目前的顶尖工艺已能实现纵横比为10:1至100:1的孔洞刻蚀。然而,3D DRAM工艺的要求更高:刻蚀和沉积工艺不仅要进入高纵横比孔洞的底部,还需横向进入高纵横比的通道,且在没有直线视线的情况下进行。这需要结合低温刻蚀处理垂直方向和湿法刻蚀处理水平方向的综合工艺,挑战巨大。
3D DRAM的制造过程需要运用能实现非直线视线的高纵横比刻蚀工艺。
总体而言,与常规DRAM中光刻设备占生产总成本约25%的比例相比,3D DRAM中这一比例可能降至约一半,而这些成本将转移至刻蚀和沉积设备。尽管多数厂商公开表示3D DRAM将在2030年左右实现量产,但AI需求的快速增长可能会加速这一时间表。
----------
参考资料:Patel, Dylan, Koch, Jeff, Bennett, Tanj, Chu, Wega, and Ahmad, Afzal. "The Memory Wall: Past, Present, and Future of DRAM Winners & Losers in the 3D DRAM Revolution." SemiAnalysis, September 3, 2024. https://semianalysis.com/2024/09/03/the-memory-wall/.

—END—


点击下方名片


即刻关注我们


算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
 最新文章