训练生成式 AI模型所需的巨大计算能力依赖于100,000个甚至 100万个 XPU的大规模集群。这些 XPU需要越来越复杂的计算、内存和I/O功能集成,以实现必要的性能,同时最大限度地降低功耗和成本。摩尔定律和工艺扩展等传统方法难以满足这些需求。因此,先进的系统级封装(SiP)集成对于下一代XPU至关重要。在过去十年中,2.5D集成(涉及在中介层上集成多个芯片(面积高达2500平方毫米的硅片)和HBM模块(高达 8个 HBM)已被证明对 XPU开发很有价值。然而,随着新的和越来越复杂的LLM的推出,它们的训练需要3D硅片堆叠,以实现更好的尺寸、功率和成本。因此,将3D硅片堆叠与2.5D封装相结合的3.5D集成有望成为未来十年下一代XPU的首选技术。
Broadcom 12月5日宣布推出其 3.5D eXtreme Dimension系统级封装 (XDSiP™)平台技术,使AI客户能够开发下一代定制加速器(XPU)。3.5D XDSiP在一个封装设备中集成了超过6000平方毫米的硅片和多达12个高带宽内存(HBM)堆栈,可实现大规模AI的高效、低功耗计算。
与正面对背(F2B)方法相比,Broadcom的 3.5D XDSiP平台在互连密度和功率效率方面实现了显著改进。这种创新的F2F堆叠直接连接顶部和底部芯片的顶部金属层,从而提供密集可靠的连接,同时将电气干扰降至最低,并具有出色的机械强度。Broadcom的 3.5D平台包括 IP和专有设计流程,可高效地对电源、时钟和信号互连的 3D芯片堆叠进行正确的构造。
那么之前为什么不用F2F方法呢?
1)F2F堆叠需要精确对准和粘合两个芯片的顶部金属层,这在技术上具有挑战性。另一方面,F2B堆叠可以更轻松地集成芯片。2)虽然 F2F堆叠由于粘合凸块较小而提供更高的互连密度,但 F2B堆叠在互连设计和制造工艺方面更加成熟和优化。厂商依赖支持 F2B堆叠的现有技术和基础设施,使其成为更直接的选择。3)由于F2B堆叠的成熟度以及现有技术和材料的可用性,其制造工艺通常成本较低。相比之下,F2F技术需要新材料和新工艺,这会增加生产成本,直到它们得到更广泛的采用。4)F2B堆叠可以提供更好的热管理选项,因为热量可以通过芯片背面更有效地消散。
Broadcom 3.5D XDSiP的主要优势
互连密度增强:与F2B技术相比,堆叠芯片之间的信号密度提高了7倍。
功率效率卓越:通过使用3D HCB代替平面芯片到芯片PHY,将芯片到芯片接口的功耗降低10倍。
降低延迟:最大限度地减少3D堆栈内计算、内存和I/O组件之间的延迟。
外形尺寸紧凑:支持更小的中介层和封装尺寸,从而节省成本并改善封装翘曲。
Broadcom领先的 F2F 3.5D XPU集成了四个计算芯片、一个I/O芯片和六个HBM模块,利用了台积电的尖端工艺节点和2.5D CoWoS®封装技术。Broadcom专有的设计流程和自动化方法建立在行业标准工具之上,尽管芯片非常复杂,但仍确保了一次通过的成功。3.5D XDSiP已在关键 IP模块(包括高速 SerDes、HBM内存接口和芯片间互连)中展示了完整的功能和卓越的性能。这一成就凸显了博通在设计和测试复杂3.5D集成电路方面的专业知识。
台积电业务高级副总裁Zhang博士表示:“台积电和博通在过去几年中密切合作,将台积电最先进的逻辑工艺和3D芯片堆叠技术与博通的设计专业知识结合在一起。我们期待将该平台产品化,以释放AI创新并实现未来增长。”
富士通高级副总裁表示:“富士通和博通拥有十多年的合作伙伴关系,已成功将多代高性能计算ASIC推向市场。博通最新的3.5D平台使富士通的下一代2纳米 Arm处理器 FUJITSU-MONAKA能够实现高性能、低功耗和更低成本。”
目前,博通有五种以上的3.5D产品正在开发中,大多数AI客户都采用了3.5D XDSiP平台技术,并将于2026年 2月开始生产出货。