博通3.5D F2F技术：定义AI XPU的未来

科技 2024-12-14 20:33 北京

博通（Broadcom）推出的3.5D F2F（Face-to-Face）技术，为AI加速器（XPU）的下一代设计提供了革命性的系统封装解决方案。这项创新结合了3D堆叠与2.5D封装的优势，使得单一封装内的硅片面积达到6000平方毫米，整合多达12个HBM（高带宽内存）堆栈。

这种技术不仅显著提升了芯片的互连密度、功率效率和性能，同时为AI集群和生成式AI模型的训练需求提供了更高效的解决方案。在摩尔定律趋于极限的背景下，3.5D F2F技术的推出标志着先进封装时代的加速到来。

本文将深入剖析这一技术的核心特点、驱动因素，以及其对未来市场的影响和博通的战略布局。

01 3.5D F2F技术：趋势解析与核心驱动因素

什么是3.5D F2F技术？

博通的 3.5D F2F（Face-to-Face）技术是一种创新性的系统级封装（SiP）解决方案，它巧妙地融合了 3D 硅片堆叠与 2.5D 封装技术的精髓。

在传统的芯片封装架构中，芯片之间的通信往往受到诸多限制，而 3.5D F2F 技术通过直接连接顶部和底部芯片的顶部金属层，构建起了一种极为密集且可靠的连接方式。

这种独特的连接模式显著提高了堆叠芯片之间的信号密度，相较于传统的正面对背（F2B）技术，信号密度提升了高达 7 倍之多。

同时，通过采用 3D HCB（Hybrid Copper Bonding，混合铜键合）代替平面晶粒到晶粒 PHY（Physical Layer，物理层），成功地将晶粒到晶粒接口的功耗降低了 10 倍，极大地提升了功率效率。

在数据传输延迟方面，该技术也展现出了卓越的性能，能够最大限度地减少 3D 堆栈内计算、内存和 I/O 组件之间的延迟，为 AI 计算中对实时性要求极高的数据处理流程提供了有力保障。

此外，紧凑的尺寸设计是 3.5D F2F 技术的又一亮点，它不仅实现了更小的中介层和封装尺寸，有效节省了成本，还显著改善了封装翘曲问题，提高了芯片的整体稳定性和可靠性。

简单来说，3.5D F2F技术是3D硅片堆叠与2.5D封装的结合，F2F技术通过直接连接顶部与底部芯片的金属层，极大地提升了互连密度和功率效率，核心创新包括：

● 高互连密度：芯片之间的信号密度提高了7倍，支持更高速的数据交换。

● 卓越功率效率：晶粒到晶粒接口的功耗降低10倍，减少了能源消耗。

● 更低延迟：3D堆栈内的计算、内存和I/O组件之间的延迟显著降低。

● 紧凑设计：中介层和封装尺寸进一步缩小，降低了成本，同时优化了机械强度。

规模生成式 AI 模型（如 GPT 系列等）的兴起，对计算能力的需求呈现出了爆炸式增长。训练这些复杂的模型往往需要庞大的计算资源，动辄依赖于 100,000 个甚至 100 万个 XPU 的大规模集群。

在这种背景下，传统的摩尔定律和工艺扩展方法逐渐难以满足日益增长的性能、功耗和成本要求。

◎ 一方面，随着芯片制程工艺逐渐逼近物理极限，单纯依靠缩小晶体管尺寸来提升芯片性能的难度越来越大，成本也越来越高；

◎ 另一方面，AI 应用对芯片的计算、内存和 I/O 功能集成度提出了更高的要求，需要在有限的空间内实现更强大的功能。

因此，先进的系统级封装技术成为了突破这些瓶颈的关键所在。

3.5D 集成技术通过将 3D 硅堆叠与 2.5D 封装相结合，能够在不单纯依赖制程工艺提升的情况下，实现芯片性能的显著提升、功耗的有效降低以及成本的合理控制，从而成为了下一代 XPU 发展的必然趋势。

● 从2.5D到3.5D的演进：2.5D封装技术通过中介层整合多芯片，为XPU的性能提升奠定了基础。

然而，随着生成式AI模型的计算需求指数级增长，2.5D方案的带宽和功耗限制变得愈发明显。3.5D技术的出现，通过在封装内堆叠更多的芯片模块，实现了性能、功耗和成本的最佳平衡。

● AI XPU设计的复杂性提升：新一代XPU不仅需要支持大规模矩阵计算，还需整合更多的内存和I/O模块，以应对生成式AI和大型语言模型（LLM）的训练需求。3.5D F2F技术为XPU的模块化设计提供了更高的灵活性。

晶体管缩放逐渐逼近物理极限，单一硅片工艺节点的提升已无法满足计算需求。

多芯片堆叠成为解决这一挑战的最佳方案。生成式AI模型的训练需要大规模集群支持，而这对计算密度、功耗和延迟提出了更高要求。包括F2F互连、TSV（硅通孔）优化以及自动化设计流程在内的技术创新，使得复杂的3.5D集成芯片设计得以实现一次成功。

02 趋势展望：3.5D技术如何改变AI与芯片行业格局？

博通的 3.5D F2F 技术将对未来芯片设计与制造格局产生深远的影响。

在芯片设计方面，为设计师提供了更大的灵活性和创新空间。以往，由于受到芯片尺寸、功耗和互连限制，设计师在芯片功能布局和性能优化上往往面临诸多权衡。

而 3.5D F2F 技术的出现，使得设计师可以将不同功能的芯片模块（如计算核心、I/O 模块、内存控制器等）分别采用最适合的工艺节点进行制造，然后通过 3.5D 封装技术进行集成。

例如，计算核心可以采用最先进的制程工艺以追求极致的性能，而其他逻辑模块和接口模块则可以根据成本和功能需求选择相对成熟的工艺节点。

这种异构集成的设计理念将推动芯片设计向更加模块化、专业化和高性能化的方向发展。在芯片制造领域，该技术将促使芯片制造企业与封装测试企业之间的合作更加紧密。

传统的芯片制造和封装测试往往相对独立，而 3.5D F2F 技术的复杂性和高精度要求需要双方在整个产业链上进行深度协同，从芯片设计阶段就开始共同规划和优化制造与封装流程，以确保最终产品的性能和质量。

这将促使芯片制造产业链的整合和升级，形成更加高效、协同的产业生态系统。

3.5D技术的引入将显著提升AI集群的计算密度和功耗效率，使得数据中心能够以更低的能耗处理更大的工作负载。这对于应对生成式AI模型的指数级增长需求至关重要。

通过将不同功能模块（计算核心、内存和I/O）整合到一个封装内，3.5D技术将推动模块化芯片的普及，降低整体设计和生产成本。3.5D技术将成为AI芯片市场的关键竞争因素，能够率先掌握这一技术的企业将在性能与成本竞争中占据优势。

博通的F2F方案无疑为其在高性能计算和AI市场中奠定了领先地位。从晶圆制造到封装测试，3.5D技术对供应链的协同性提出了更高要求。企业需要与代工厂（如台积电）和EDA工具供应商（如Cadence和Synopsys）紧密合作，共同解决复杂设计的挑战。

作为率先推出 3.5D F2F 技术的企业，博通在该领域具有显著的先发优势。

博通将继续深化与台积电等合作伙伴的合作关系，充分利用台积电先进的逻辑工艺和 3D 芯片堆叠技术，结合自身在芯片设计和系统集成方面的专业知识，不断优化和完善 3.5D XDSiP 平台技术。

通过持续的技术创新，博通有望进一步提高 3.5D F2F 技术的性能指标，如更高的互连密度、更低的功耗以及更小的延迟等，巩固其在高性能 AI 芯片封装领域的技术领先地位。

在市场拓展方面，博通已经取得了令人瞩目的成绩，目前有超过五款 3.5D 产品正在开发中，并且大多数消费级 AI 客户都已采用 3.5D XDSiP 平台技术，生产出货量也已从 2026 年开始逐步提升。

博通将继续加大市场推广力度，针对不同客户的需求，提供定制化的 3.5D XPU 解决方案。

例如，对于云计算服务提供商，博通可以提供具有超高计算密度和大规模内存集成的 3.5D XPU，满足其在大规模数据中心中运行复杂 AI 应用的需求；对于人工智能初创企业，博通可以提供更加灵活、成本可控的 3.5D XPU 开发平台，帮助其快速推出具有竞争力的 AI 产品。

此外，博通还将积极参与行业标准的制定，推动 3.5D F2F 技术在整个行业的广泛应用，构建以博通为核心的 3.5D AI 芯片生态系统。

03 小结

博通推出的用于 AI XPU 的 3.5D F2F 技术无疑是半导体行业的一项重大创新突破，精准地把握了人工智能时代对高性能、低功耗和低成本芯片的迫切需求。

通过独特的技术架构和卓越的性能表现，为 AI 芯片的发展开辟了新的道路。在技术原理层面，其高密度互连、低功耗设计、多功能集成以及紧凑尺寸与稳定性等核心要素相互协同，构成了强大的技术竞争力。

—END—

点击下方名片

即刻关注我们

算力猩

隶属于智猩猩，关注计算芯片创新，解读中国算力突破。

算力网（络），应该是什么

先进封装技术解读 | 台积电

IBM 的大规模 A100/H100 GPU 集群 Infra 建设

22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】

AI数据中心：网络设计和选型标准

突破内存墙：DRAM技术演进及3D DRAM革命

SC24｜谷歌AI加速器：TPU v6e Trillium技术解析

公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

揭秘 AWS 10p10u 最新网络架构！

AI时代的以太网：应对大规模GPU集群网络挑战

智算中心正在CDN化

博通3.5D F2F技术：定义AI XPU的未来

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

AI数据中心历史、技术与关键企业

揭秘！世界第一个采用CXL 3.1交换机的AI集群

公开课预告：大模型时代的智算GPU集群｜阿里云智能集团智算集群产品专家陈祎主讲

GPU服务器支持的“卡数”由哪些因素决定？

HBM制裁加码下的困境与出路

Meta 万卡 GPU 集群稳定性剖析与最佳实践

通往万亿晶体管GPU之路

亚马逊芯片帝国背后的功臣

比GPU快20倍？d-Matrix推理性价比分析

AWS最强AI芯片，深度解读！

功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告

公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

NVIDIA GH200 内部架构探究

UEC 和 UAL 应该合并吗？

AI Infra峰会与大模型峰会议程全公布！2024中国生成式AI大会上海站本周举行，报名即将截止！

公开课预告：针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨｜硅芯科技创始人赵毅主讲

一文看懂Infinity Fabric

大模型时代：交换机衡量指标、技术演变及性能分析

爱芯元智吴炜：多模态大模型在端侧的创新实践与挑战｜GenAICon 2024上海站演讲预告

智算中心：现状、挑战、策略与未来机遇

GenAICon 2024上海站主会场议程公布！34位学者专家全景式解构大模型与AI Infra

追赶NVIDIA，国产AI芯片需努力的5个方面

光羽芯辰创始人周强：通向个人大模型之路｜演讲预告

从UALink近期发展再看GPU Scale Up的互连方向

无问芯穹首席科学家戴国浩教授：软硬协同与多元异构，共筑大模型算力底座｜演讲预告

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

大规模AI计算时代的存储：挑战与优化

聊一聊算力调度

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性｜GMI Cloud 亚太区总裁 King.Cui演讲预告

中国系统级封装大会SiP China 2024周三开启！免费报名～

面向大规模AI计算的高性能网络架构：Enfabrica ACF-S解决方案深度解析

近30家大模型与AI Infra企业来了！年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

高性能GPU服务器硬件拓扑及集群组网

GPU互连新标准：UALink联盟能否打破NVIDIA垄断？

高性能智算集群设计思考与实践｜阿里云智算集群产品解决方案负责人丛培岩演讲预告

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？｜GMI Cloud 亚太区总裁 King.Cui演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉