【海外科技巨头季报回顾:不变的Scaling Law和变化的大模型场景与供应商】天风计算机缪欣君团队

文摘   财经   2024-09-03 12:43   上海  

天风计算机团队

作者 | 缪欣详细信息请联系 | 刘鉴 


摘要


微软、Google、Meta与Google等企业发布了新一季度财报,在电话会中对AI的表现与AI算力需求持续乐观


微软、Google、Meta与Google四家企业陆续发布了新一期的财报,我们认为这4家企业在生成式AI上取得了较大的进展。微软在Copilot与Azure云表现出色,目前拥有超60,000名Azure AI用户,有超过77,000 家组织采用了 Copilot;Google计划推出第六代AI加速器Trillium,与TPUv5e相比,它的单芯片峰值计算性能提高近5倍,能效提高67%,同时在Gemini与Google Cloud上也进步较大;Meta预计在下一代大语言模型相较于LLaMA3有10倍的算力提升,且Meta AI、推荐算法与广告系统也取得了进展;Amazon持续在Rufus AI助手等产品上迭代,也在自研芯片上不断加码。在芯片的上游,台积电也对未来AI的需求保持了积极乐观的展望。


AI芯片或迎来更多参与者与行业竞争


苹果在最新用于Apple Intelligence的端侧与云端大模型训练中主要使用了Google的TPU,Anthropic也使用谷歌Cloud TPU v5e芯片为其大语言模型Claude提供硬件支持;此外,AMD的MI300芯片销量持续超预期,最新季度预测全年收入45亿美金,相较于上个季度的40亿美金持续上调,微软积极使用了这一款芯片。我们认为除Nvidia之外的AI芯片或许也会迎来市场机会。


展望未来,训练与推理端的算力需求有望持续增长

训练侧,Meta推出LLaMA3.1 405B模型,在1.6万张H100基础上完成训练,而Meta预计LLaMA4模型有望比上一代模型提升10倍训练量,我们预计以Meta为首的海外互联网公司依然在积极追逐新一代模型。此外我们观察到以Meta为首的互联网厂商,有望迎来推荐算法的升级,Meta在推荐算法上逐步完成了CPU到GPU的转变,我们预计这也有望带来大量的推理算力需求。


建议关注:

1)四小龙:寒武纪、海光信息、神州数码、中科曙光

2)华为:  软通动力、烽火通信、广电运通、拓维信息

3)英伟达:浪潮信息、智微智能


风险提示:

AI算力景气度下降的风险、AI芯片竞争加剧的风险、政策落地不及预期风险



01

海外科技公司季报回顾:Capex维持高增长,应用与内部提效并举


1.1. Google在Gemini、谷歌云和AI芯片等领域持续发力


2024财年Q2,Google在Gemini、AI芯片、AI手机与云服务侧表现亮眼。目前有超150万开发人员使用Gemini,并有超过20亿的谷歌直接与间接使用量,该产品得到了广泛的市场认可,UberWPP在客户体验和营销等领域使用Gemini Pro 1.5Gemini Flash 1.5。芯片侧,谷歌推出第六代AI加速器Trillium,与TPUv5e相比,它的单芯片峰值计算性能提高近5倍,能效提高67%。手机侧,谷歌推出了新款Pixel 8a,搭载谷歌最新的Google Tensor G3芯片。谷歌云服务侧,谷歌为云客户提供的AI基础设施和生成式AI解决方案已创造了数十亿美元的收入,并广泛被开发人员使用。此外,谷歌在VertexAI概览、Circle to search等业务中均取得了良好进展,正在逐步打开市场。Circle to search经推出以来已在1亿台安卓设备上使用。


谷歌围绕组织效率和结构,以及产品和流程优先级,进而设计成本基础,这反映在其员工人数逐年下降。其将设备和服务产品领域与平台和生态系统产品领域结合起来,以提高速度和效率。近期谷歌已预订40万颗GB200芯片,布局其AI蓝图。



1.2. 微软Azure AI表现优秀,Copilot继续保持高增长

2024财年Q4,微软在Copilot与Azure云表现出色,目前拥有超60,000名Azure AI用户,且已有超过 77,000 家组织采用了 Copilot。微软通过如CopilotAI驱动提升了开发者和企业用户的工作效率,从而间接提升公司的整体运营效率,其中已有超过77,000 家组织采用了Github Copilot,同比增长 180%。此外,微软继续扩大数据中心覆盖范围,通过推动市场份额的增长,提升了未来的工作效率,Azure使用了来自AMD和英伟达的AI加速器以及自研的Azure Maia和Cobalt 100,拥有超过60000Azure AI用户,同比增长60%Microsoft Fabric侧,本季度引入了实时智能功能,客户可以对大量时间敏感的数据进行洞察,并累计拥有超14,000名付费客户;同时,这个季度微软新推出了全新的Copilot+电脑。

1.3. Meta在推荐算法与广告系统继续投入、Meta AI崭露头角

Meta在内部推荐算法和广告系统发力并取得一定效果,大模型变现有望实现。2024财年Q2,Facebook方面,Meta推出了全屏视频播放器和统一视频推荐服务,将Reels、长视频和直播整合为一,拓展了Meta的人工智能系统,并且相较于最初从CPUGPU的转变,该举措已经增加了Facebook Reel的用户粘性。Meta希望朝着一个统一的推荐系统发展,这个系统支持提供所有的内容,包括用户可能认识的人。6月推出的新视频播放器和排名系统表现出色,预计将提高视频推荐的相关性。LLaMA模型侧,Meta计划将LLaMA 4的计算量提升至LLaMA 3的十倍,同时继续开源后续版本。

此外,Meta正在优化广告插入时间,增加用户会话期间的广告转化率,而不增加广告数量。广告系统方面,Meta Lattice人工智能架构使广告性能和效率得以提升,且美国的广告客户在使用Advantage+购物广告系列后,广告支出回报率提升了22%。最后,Meta AI自推出以来,用户已进行了数十亿次查询,展示了其广泛的使用和认可。Meta通过人工智能上取得的进步缩短产品的开发周期,并通过供应链标准化,节省项目资金花费,提高了资金回报率。

1.4. 亚马逊AWS自研芯片加速,AI辅助购物等场景逐步落地

2024财年Q2,亚马逊旗下产品AWS在生成式AI领域取得显著进展,其提供多层次的解决方案并投资于自家定制芯片。AWS推出了Amazon SageMaker,简化了模型构建和部署的过程,并提供了Amazon Bedrock中间层服务,Amazon Q通过其代码转换功能,成功将30,000多个Java JDK应用程序在几个月内完成迁移,为公司节省了2.6亿美元和4,500名开发人员的时间。芯片方面,AWS开发了Graviton系列定制硅片,为客户节省了约30%40%的成本,进一步增强了其市场竞争力。Rufus AI助手则通过辅助购物决策,模拟试穿服装并改善购买体验,提升了用户的购物体验。

1.5. AI推动大厂Capex持续上行,台积电对AI景气度中长期乐观

在大模型推动下,海外互联网大厂的Capex支出同比明显加速增长。从刚刚发布的季报和交流可以看到,最新一个季度谷歌、微软、Meta和亚马逊4家公司的Capex总和为570亿美金,同比增长54%,环比增长22%,且我们观察到无论是同比还是环比增速都处于加速状态。具体来看,Google最新季度的CAPEX130亿美元,预计未来三四季度的capex不低于120亿美元;微软的CAPEX2024年第二季度大幅上涨到190亿美元,预计2025财年将高于2024财年,且capex呈环比增长。亚马逊的CAPEX先上升再下降后上升,在2024财年迅猛上升,在2024年第二季度达到165亿美元,且预计下半年高于上半年。MetaCAPEX2024二季度达到85亿美元,在二季度预计24财年该值处于370-400亿水平,而先前预期值为350-400亿。

四家互联网公司都在积极的投资AI基础设施,近期谷歌继续预订40万颗GB200芯片,布局其AI蓝图,Meta预计2025年的资本支出将大幅增长,主要投资支持人工智能研究和产品开发工作。

从AI芯片上游看,台积电也对中期AI的景气度展望乐观。整体业绩上看,得益于市场对台积电领先的3纳米和5纳米技术的需求,二季度台积电营业收入额为6735亿台币,环比增长13.6%,同比增长40.1%。此外,台积电上调四年预期,并预计以美元计算下的2024年收入增长将略高于20%。行业收入侧,2024第二季度,高性能计算平台收入颇丰,营业收入达3502亿台币,同比增长66%,占比52%。回顾近十季度发展,高性能计算业务收入稳步增长;除个别季度外,同比均保持增长态势;在2024财年的一二季度同比增长尤其显著。此外,智能手机业务收入可观,营业收入达2223亿台币,同比增长40%,占比33%

制程工艺侧,2024第二季度5纳米工艺技术贡献35%的晶圆收入,而 3纳米和 7纳米工艺收入分别占总营业收入额的15%17%。近十季度,5nm制程保持稳定增长,占比逐渐提升,逐步成为台积电收入的主要贡献者。3nm制程于2023年三季度贡献收入,但增长迅速,展现出较强的市场需求和潜力。反观7nm制程,其收入和占比均呈现下降趋势。

展望未来,台积电预计到2024年第三季度,公司整体业务将受到智能手机和人工智能相关需求的强劲支持,展望2024年全年,公司预测不包括内存的整体半导体市场将增长约10%

02

AI芯片行业或迎来更多参与者

2.1. 苹果训练Apple Intelligence大模型积极拥抱Google TPU

Apple公司发布了一篇论文《Apple Intelligence Foundation Language Models》。文中描述了苹果为支持Apple Intelligence功能而开发的基础语言模型,包括一个30亿个参数的设备端的模型,以及一个为云端大型语言模型。根据论文,其并未采用英伟达H100 GPU训练Apple Intelligence基础模型,转而选择谷歌自研的 TPU。苹果在TPUv4 TPUv5p 集群的硬件上训练两个基础模型:一个是参数规模达到30亿的设备端模型AFM-on-device,使用 2048 TPU v5p 训练而成,本地运行在苹果设备上;一个是参数规模更大的服务器端模型 AFM-server,使用 8192 TPU v4 芯片训练,运行在苹果自有数据中心里。

此外,Anthropic、Midjourney、Salesforce、Hugging Face和AssemblyAI等知名AI创企在大量使用 Cloud TPU。其中,Anthropic使用谷歌Cloud TPU v5e芯片为其大语言模型Claude提供硬件支持,以加速模型的训练和推理过程。此外,许多科研、教育机构等也在使用谷歌TPU芯片来支持其AI相关的研究项目。这些机构可以利用TPU芯片的高性能计算能力来加速实验过程,从而推动前沿科研和教育进展。

2.2.AMD的MI300销量持续超预期

AMD于本季度上调数据中心收入,从四月预测的40亿美元增加至45亿美元。MI300AMD2024财年Q2季度收入首次超过10亿美元,其中微软扩大对MI300X 加速器的使用,为GPT-4 Turbo 和多个产品服务(包括 Microsoft 365 ChatWord Teams)提供支持。微软成为本季度第一家宣布全面推出公共MI300X 实的大型超大规模企业。

AMD将持续代和推出新AI芯片产品,MI325与MI350系列规划表明确。AMD将于今年末尾推出MI325X MI325X使用了与 MI300 相同的基础设施,并通过提供双倍的内存容量和 1.3 倍的峰值计算性能实现在Gen-AI领域的领先。AMD计划在2025年推出基于新CDNA 4 架构的 MI350 系列,该架构有望将推理性能提高 35倍。


03

展望未来:下一代大模型算力需求将10倍增长,推荐算法有望迎来生成式重大革新

3.1.  Meta正式发布LLaMA3.1,正在迈向LLaMA4

Meta正式发布了最新的开源模型LLaMA3.1,推出405B参数的密模型。模型训练侧,Meta使用了约15.6Ttokens,且这些tokens8K的上下文长度,这远超LLaMA 2使用的1.8T个语料库,LLaMA 3旗舰模型具有4050亿个参数,并使用了3.8×10^25次浮点运算(FLOPs)进行预训练,超LLaMA 2的最大版本近50 倍。Pre-training完成后,模型进行了监督微调和Direct Preference Optimization,在这个过程中模型集成了包括使用工具和代码、推理能力上的增强。在训练侧,405B模型是在1.6万张H100GPU上完成,每张GPU大概TDP700W,配备了80GHBM3,训练时使用了MetaGrand Teton AI server 平台。

LLaMA3.1是目前最领先的开源大语言模型之一。模型功能侧,其支持多种语言,并在大量任务中的完成质量与先进的语言模型(GPT-4)相当。LLaMA 3.1可以支持8种语言(英语,德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语),适用于多语言对话智能体和翻译场景等用途;在上下文长度上,比起LLaMA 2LLaMA 3LLaMA 3.1系列模型中所有上下文增加了16倍,为128KMeta强调,LLaMA 3.1还在工具使用方面得到了改进,支持零样本工具使用,包括网络搜索、数学运算和代码执行基于长上下文,模型不仅知道何时使用工具,还能理解如何使用以及如何解释结果。此外,通过微调,LLaMA 3.1在调用自定义工具方面提供了强大的灵活性。

在Meta最新的业绩交流会上,Meta预计LLaMA 4训练将加倍消耗算力,约为LLaMA 3的训练所消耗算力的十倍。鉴于LLaMA3.1是基于16kH100集群训练而来,预计下一代LLaMA 4模型需要的训练集群扩大接近10倍。

3.2.  推荐算法或迎来大升级,从深度学习推荐迈向生成式推荐

Meta在推荐算法和广告系统上不断升级,推出了包括Advantage+、广告排名架构Meta Lattice等在内的应用,此外Meta在推荐算法上也在发布了新的论文,推出了生成式推荐并已经正式使用。

3.2.1  Advantage+与Meta Lattice等颇见成效

Meta为广告主们提供更加自动化的服务。通过Advantage+ 产品组合,广告商可以自动执行广告系列设置流程的一个步骤。在今年第二季度,Meta进一步更新Advantage+ Shopping,广告客户在一个广告中可以上传多张图片和视频,该产品根据广告投放场景与上传资料自动生成广告样式,以达到最佳宣传效果。5月,Meta开始在Advantage+ Creative 中推出完整的图像生成功能。Meta继续投资Conversion API,帮助企业与他们的营销数据关联,使其广告效果更佳。

Meta不断深入理解用户观看广告的偏好,以对正确的对象在合适的时间与场景下有效地展示广告。例如,Meta正在优化在Facebook Instagram 的用户会话期间展示广告的内容与时机。

此外,Meta利用AI提高广告营销效果。其正在不断改进广告模型,为广告客户提供更好的效果。具体来说,Meta正广泛推广其广告排名架构Meta Lattice,其可以访问颗粒度较小的数据,推动广告客户的表现。此外,该模型可以跨目标和界面概括学习,而非仅针对单一目标和界面进行优化。这说明即使可供学习的数据较少,用户们也可以在界面上收到更相关的广告推荐。

Meta Lattice可处理延迟性反馈。Meta Lattice 不仅可以从新鲜信号中捕捉到人的实时意图,还可以从缓慢、稀疏和延迟的信号中捕捉到长期兴趣。

Meta Lattice可以平衡多个领域和目标。其能够平衡多个领域和目标之间的性能,并达到在不损害其他目标的情况下无法进一步改进任何目标的状态(即帕累托最优)。

Meta Lattice具有高级模型扩展性。Meta Lattice拥有数万亿个参数,经过数千亿个示例的训练,这些示例来自数千个数据域,包括Meta 的平台界面和面向广告商的产品。

Meta Lattice可最大化AI 资本支出效率。以前数百个模型需要单独训练、服务和优化。目前Meta引入了两个级别的资源共享:(1)通过联合优化实现跨领域、跨目标、跨排名阶段的横向共享;(2)从大型高容量上游模型到轻量级下游垂直模型的分层共享。通过资源共享增强,可以显著减少计算需求量。

Instagram 上部署Meta Lattice的早期结果表明,在Instagram 的不同界面(例如 Feed、Story 和 Reels)以及各种广告客户目标(例如点击次数、视频观看次数和转化次数)上进行知识共享,提高了约8%的广告效果。

3.2.2  从DLRM到GR,生成式推荐算法或迎来突破

Meta发表了名为《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》的论文,提出了一个已经在企业内大规模使用的新一代推荐算法。根据Meta公开论文,其研发团队设计基于生成式推荐系统的全新广告推荐架构,将推荐任务重新表述为生成式建模框架内的顺序传导问题。其提出HSTU(分层顺序传导单元);HSTU修改传统的注意力机制,针对常见的大型、非固定的推荐数据进行优化。该模型已成功部署于大型互联网平台的多个层面,并将在线A/B测试的关键指标提升12.4%。基于HSTU 的模型比现有模型速度更快、效率更高,在合成数据集与公共数据集上,其性能远超传统深度学习推荐模型,在NDCG值中高达65.8%。在传统模型还具有可扩展性其质量随着训练计算的而呈现幂律分布,而非线性关系。

论文提出DLRM(深度学习推荐模型)通常将交互视为独立事件,而不是序列的一部分。这使得在处理复杂的用户操作序列方面存在局限性,可能难以应对用户偏好和商品受欢迎程度随时间变化的动态特性。而在GR(生成推荐系统)中使用的顺序传导方法使模型能够更好地捕捉用户行为的时间动态,并以更结构化的方式对项目之间的依赖关系进行建模。GR利用Transformers 等架构,这些架构处理序列表现优异,并且可以生成具有上下文感知的推荐。此外,GR 统一了特征空间,在顺序框架内处理分类和数值特征。这与DLRM 中对这些特征的传统分离不同。

论文结果指出在低计算状态下,DLRM可能会优于GR,这证实了特征工程在传统DLRM中的重要性。然而,GR表现出更好的可扩展性,而DLRM则出现瓶颈,与以前的工作中的调查结果一致。GR在嵌入参数与非嵌入参数上都表现出了较好的可拓展性,GR能够到1.5万亿个参数模型,而DLRM性能在大约2000亿个参数处饱和。

此外,论文指出,在一个合理的范围内,与应用的训练计算总量相比,精确的模型超参数起的作用较小。序列长度在GR中起着明显更重要的作用,并且重要的是串联放大序列长度和其他参数。这也许是论文提出的方法最重要的优点,第一次证明了LLM的缩放定律也可以应用于大规模推荐系统。


04

建议关注

(1)四小龙:寒武纪、海光信息、神州数码、中科曙光

(2)华为:  软通动力、烽火通信、广电运通、拓维信息

(3)英伟达:浪潮信息、智微智能


05


风险提示

(1)AI算力景气度下降的风险

算力支出与下游应用息息相关,若AI应用需要更长期才能突破,则算力支出的高景气可能不可持续

(2)AI芯片竞争加剧的风险

AI芯片领域有较多参与者,未来市场竞争可能加剧

(3)政策落地不及预期风险

地方政府智算中心主要依靠各地政策推动,如政策落地不及预期,则可能影响智算中心算力建设相关公司


证券研究报告:《海外科技巨头季报回顾:Scaling law不变,变化在推荐算法在内的AI场景有望跑通与巨头开始考虑NV外的第二选择

对外发布时间    2024年9月1日
报告发布机构    天风证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)
本报告分析师:
缪欣君 SAC 执业证书编号:S1110517080003

计算机 牛骨挖掘机
追求最极致的用户体验,追求最快的市场响应速度!
 最新文章