2024谷歌复盘:PaaS先行,领导开源

科技   2024-11-06 07:44   四川  

本文参考自“全球云厂商复盘:AI驱动新一轮开支周期”,第一篇参阅“亚马逊:2024全球云计算市场复盘”。

谷歌最早提出云计算概念,由于前期战略摇摆、To B 经验不足,同微软 Azure 云差距逐渐拉大;谷歌自 19 年开始发力云业务,通过大幅增加资本开支、开源生态等方式,谷歌云市占率逐步提升,同 AWS、Azure 差距缩小。

2008年发布标志性 PaaS 产品——Google App Engine,其是一个开发、托管网络应用程序的平台,可提供快速开发和部署,管理简单,可轻松实现拓展性。

后续谷歌陆续推出 Google Docs、Google Calender 等 SaaS 产品。2012 年发布 Google Compute Engine 预览版,谷歌开始进入 IaaS 业务,2013 年 5月产品正式发布,谷歌完成 PaaS+SaaS+IaaS 全产品布局

1)战略层面:18 年制定“追赶”战略,云业务战略重要性进一步提升,19 年公司任命前甲骨文 CEO Kurian 为谷歌云 CEO,大力发展云计算业务。

2)硬件层面:谷歌决定了一项为期 5 年 200 亿美金的预算计划,用于大力扩张谷歌云数据中心,同时自研 TPU 芯片,谷歌云收入开始快速增长。

3)开源生态领导者:谷歌宣布了基于开源软件、工作负载可移植性,以及与竞争对手坦诚合作的“开放云”远景,目标是让谷歌成为软件厂商们最容易合作的科技巨头,采用的方式包括更低的佣金、联合营销、合作销售等,并承诺不与伙伴们直接展开业务竞争。

4)积极拥抱 AI:一方面,公司积极自研大模型(例如 PaLM 2、Gemini、Gemini 1.5 Pro 等产品),用户可以通过谷歌云 Vertex 调用模型 API;另一方面,谷歌自研 AI 算力芯片TPU,24 年 5 月谷歌发布第六代 TPU 芯片——Trillium,较上一代(TPU v5e)峰值计算性能提升 4.7 倍,能效比提升 67%,内存容量、带宽提升 1 倍,主要部署在谷歌云上使用。整体来看,该时期谷歌云业务快速发展,根据Synergy Research Group 披露数据,23Q4 谷歌云市占率为 11%,相较于 18Q4,提升 4 个 pct。

硬件维度:自研芯片云厂商领导者。Google Cloud 在使用 Intel、AMD 等大厂芯片的同时,发力自研芯片,15 年开始发力自研 TPU 芯片,后持续迭代,24 年发布第六代 TPU-Trillium;同时,24 年发布基于 Arm 的 CPU 芯片 Axion,全面布局服务器处理器芯片领域。

CPU处理器

1)Intel:Google Cloud 成立之初便采用 Intel CPU,且一直为 Google Cloud 主流处理器,包括 C3、M3、VE2 等实例。

2)AMD:19 年,Google Cloud 基于 AMD EPYC 系列芯片的算力实例面向客户开放,后陆续发布 C2D、T2D、C3D 等产品。

3)自研芯片:2024 年发布 Arm Neoverse 2 架构的 CPU 芯片——Axion,专为数据中心设计,旨在提高广泛应用的处理效率,如开源数据库、Web 和应用程序服务器、内存缓存、数据分析引擎、媒体处理及 AI 训练等,与同时期基于 X86 的同类实例相比,性能提高了 50%,能源效率提高了 60%;此外,Axion 的开放架构使得客户可以无需任何修改,即可将现有的 Arm 工作负载迁移到谷歌云。

GPU 处理器(AI 算力卡):

1)英伟达:20 年 7 月,Google Cloud 发布基于英伟达 A100 GPU 的 VM A2 实例,是公有云中第一款基于 A100 GPU 的产品;23 年 5 月,Google Cloud 发布基于英伟达 H100 GPU 的 A3 实例,9 月正式上线。

2)自研芯片:谷歌 2015 年发布 TPU v1,与使用通用 CPU 和 GPU 的神经网络计算相比,TPU v1 带来了 15~30 倍的性能提升和 30~80 倍的能效提升,其以较低成本支持谷歌的很多服务,仅可用于推理;17 年发布 TPU v2,用于加速大量的机器学习和人工智能工作负载,包括训练和推理;

18 年发布 TPUv3,算力和功率大幅增长,其采用了当时最新的液冷技术;20 年和 21 年分别发布 TPU v4i 和 v4,应用 7nm 工艺,晶体管数大幅提升,算力提升,功耗下降;23 年 8 月和 12 月分别发布 TPU v5e、TPU v5p,24 年 5 月谷歌发布第六代 TPU 芯片——Trillium,较上一代(TPU v5e)峰值计算性能提升 4.7倍,能效比提升 67%,内存容量、带宽提升 1 倍,产品持续迭代,性能稳步提升。

谷歌资本开支与AWS收入增长复盘:资本开支呈现阶梯状增长,谷歌云收入稳定增长。从谷歌历史数据来看,公司资本开支增长可分为 4 个阶梯,具体如下:

第一阶梯(2010 年-2012 年)10 年美国联邦政府制定了“云优先”的发展战略,云计算开始进入快速发展期,谷歌亦开始加大资本开支,抢占云计算领先位置。

第二阶梯(2013 年-2017 年)13 年谷歌将 App Engine 重新命名为 Cloud Platform,正式有 SaaS、PaaS 切入 IaaS 领域,开始大幅增加资本开支,用于 IaaS 业务基础设施建设,拉动谷歌云业务增长。

第三阶梯(2018 年-2023 年):18 年制定“追赶”战略,云业务战略重要性进一步提升,同时谷歌决定了一项为期 5 年 200 亿美金的预算计划,用于大力扩张谷歌云数据中心,同时自研 TPU 芯片,谷歌云收入开始快速增长。

第四阶梯(2024 年-至今)谷歌发力 AI 算力建设,采用英伟达 GPU+自研TPU 双算力卡方案,同时训练自研大模型(Palm 2、Gemini 等),24 年 H1谷歌资本开支为 252 亿美金,同比+91%。
下载链接:
《云计算白皮书(2024年)合集》
1、云计算白皮书(2024年) 
2、解读:云计算白皮书(2024年)
2024年AI原生路由器白皮书
大模型时代数据库技术创新
云计算白皮书(2024年)
《国密算法的设计与实现合集》
1、SeChain  基于国密算法的RISC-V安全启动机制设计与实现 2、国密SM4算法CBC模式的高效设计与实现

面向超万卡集群的新型智算技术白皮书

面向AI大模型的智算中心网络演进白皮书

网络系列报告之交换机概览:IB性能占优,以太网开放占优

中国分布式存储产业未来发展空间广阔(2024)

面向超万卡集群的新型智算技术白皮书

面向AI大模型的智算中心网络演进白皮书

网络系列报告之交换机概览:IB性能占优,以太网开放占优

中国分布式存储产业未来发展空间广阔(2024)

《智算数据中心基础设施技术合集》


本号资料全部上传至知识星球,更多内容请登录全栈云技术知识星球下载全部资料。

‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧  END  ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。

温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。

全栈云技术架构
涵盖微服务架构、云计算、边缘计算、高性能计算、云边协同和训练推理。
 最新文章