随着人工智能(AI)大模型的出现,海量数据集的生成量显著增加,导致对快速建模的需求不断增长。人工智能、自动驾驶和智能服务等新技术的激增进一步推动了对高性能计算能力的需求,特别是以ChatGPT为代表的AI大模型领域竞争的加剧,对超高性能计算的需求越来越明显。因此,对针对高容量数据处理进行优化的内存解决方案的需求显著增加。为了满足这一需求,高带宽内存(HBM)已迅速崛起,成为一种关键的内存解决方案。
市场预测,预计HBM 2024年出货量7Eb,2028年出货量可达28Eb,年均45%成长;预估HBM 2024年营收90亿美金,2028年240亿美金,年均成长21%。单价每Gb 1美金左右,逐年下降。
HBM使用先进的封装方法(如TSV硅通孔技术)垂直堆叠多个DRAM,与GPU通过中介层互联封装在一起。HBM的优点在于打破了内存带宽及功耗瓶颈,CPU处理的任务类型更多,且更具随机性,对速率及延迟更为敏感,HBM特性更适合搭配GPU进行密集数据的处理运算,英伟达新一代AI芯片,均搭载HBM内存。
HBM的旅程始于2014年的HBM1,128GB/s的速度和最多4个2Gb Die堆叠,总容量1GB。HBM持续发展,在最近生产的HBM3E中达到了顶峰,在不到十年的时间内拥有超过1.18TB/s的带宽,最高12个24Gb Die的堆叠。未来2026年,将会有更多堆叠、更大容量和更高带宽的HBM4出现,HBM从此成为推向市场的全新HPC加速器的基石。
2023年,主流市场需求从HBM2e转向HBM3,HBM3需求占比提升至39%,随着使用HBM3 的AI芯片陆续放量,预计2024年HBM3的市场需求占比将达到60%。
应用层面,以英伟达为例,HBM3已广泛应用于H100、GH200、H20 GPU卡上,96GB总容量;HBM3E将应用于H200、B100、GB200 GPU卡上,分别为141GB、192GB及192GBx2总容量。
英伟达2023年的高端AI芯片(采用HBM3)的既有产品为A100、A800和H100、H800。2024年,除了上述型号外,该公司还将推出使用6个HBM3e的H200和8个HBM3e的B100(24GB/HBM),并同步整合自家基于Arm架构的CPU,推出GH200和GB200。
往后发展,HBM面临的挑战有:IO数和带宽的提升,功耗和散热、容量和密度增加的挑战。
关于容量和密度增加的挑战,将DRAM单元放入单个核心芯片中,或将更多核心芯片堆叠在一个堆栈中。第一代HBM2的芯片密度为8Gb,HBM3E已将其增加到24Gb,12H堆栈达到36GB,16H堆栈达到48GB。然而,由于技术规模化的挑战,芯片密度的增加变得缓慢,并且堆叠需要处理薄芯片。HBM堆栈的高度限制为750um,因此随着更多堆栈需要更薄的芯片,否则会出现更多问题。每个DRAM Die芯片的厚度接近30um,是人类头发厚度(约100um)的三分之一。此外,在硅中介层上放置更多的HBM会受到硅中介层尺寸、加工工具和生产良率的限制。
参考:
2024 Chiplet Summit:《Chiplet Markets Are Rising: Where and When?》Yole
IMW 2024:《Present_and_Future_Challenges_of_High_Bandwith_Memory_HBM》