英伟达最新调研纪要

文摘   2024-12-17 06:25   新西兰  
文章精彩,防止走失,可关注、转发、投币打赏。
专注分享财经信息的专业社区,喜欢请点击下方名片关注。


最近因为ASIC的新闻,导致英伟达回撤,A股天孚通信、中际旭创等一众小弟也是应声大跌。同时因为AEC的应用,导致CPO产业链也是风声鹤唳,尤其是A股CPO概念第一股罗博特科直接一根绿巨人。这个时候应该考虑的是基本面变化了吗?未来预期还有吗?其实冷静思考一下,似乎什么都没变,变的是短期情绪。CPO依旧在按部就班的发展。


下面我们来看一下近期英伟达的调研纪要,看看英伟达这个美股的老大发生了什么变化。看完之后,相信有一些疑虑就会被打消。


问1: FY4Q25 (2025/01) 财报预测毛利率下滑情况? Networking相关的收入减少原因?未来情况?

答1: 是的,所以对于FY4Q25 (2025/01),我们预计毛利率将适度降至low 70s。其中的动态是我们将在客户现场投入大量工作,以帮助他们建立Blackwell基础设施。客户该基础设施的需求非常高,因此,我们正在优化速度,成本在FY1Q26会更高,之后将提高效率,随着效率的提高,我们应该会看到毛利率的方向性上升,因此一旦Blackwell完全部署,预计毛利率将回升至mid 70s%。

FY3Q25 Networking相关的收入减少系因出货时间问题,而不是需求相关 Networking产品的定位优秀且正在加强。预期FY4Q25将恢复QoQ增长。


问2: 哪些新客户的机会?采购哪些设施? GB200出货情况? FY1Q26是否占比50%?

答2: 客户对于整个数据中心基础设施都保持兴趣,Blackwell正在按预期加速,从我们的角度来看预计FY4Q25的Blackwell收入将比上一季度更高。NVIDIA从未承诺过出货占比,无法提供进一步信息。


问3: 2H25 GB200到GB300,可能是Rubin之前的过渡期吗?

答3: 是的,但NVIDIA实际上还没有宣布任何具体产品规格,因此,不幸的是,我无法评论,但我会提醒你不要只关注单个半导体芯片的特定性能,无论是浮点运算或其他指标。随着摩尔定律的终结,晶体管缩减基本上已经结束,因此未来真正需要扩展的方式是在系统级别,这正是您从我们这里看到的。因此,它是从网络、互联网互联、存储带宽、软件的改造这些因素结合起来,导致我们看到的性能大幅提升。


举两个例子:

Meta是最公开的:几年前,Meta将推荐模型和工作负载一般从CPU转移到NVIDIA GPU,Meta看到了巨大的性能提升和ROI。并且他们继续扩建他们的GPU基础设施,不仅仅是为了为驱动其核心业务的推荐模型提供动力,而且还为了训练下一代模型。因此,在社交媒体网站上进行了大量的推理(inference),不仅仅是Meta,还有许多社交媒体知名品牌正在使用NVIDIA基础设施来为他们的推理提供动力。

最大的电商企业:正在由NVIDIA基础设施提供支持,以推动这些商业模式,这些商业模式由推理(Inference)提供支持。这有助于推动我们在财报电话会议上披露的超过40%的数字。未来最重要的是生成式AI代理。AI大型语言模型的推理仍然处于早期阶段,观察OpenAI的收入或CSP公布的生成式AI相关的收入披露来追踪,他们需要更多的AI基础设施。


问4: 能否评论一下中东的客户?在这些地区增加了更多的GPU需求?这是正确的吗?那个地区的市场有多大?有没有特别为其他国家客户定制产品的机会(ASIC)?

答4: 我们没有特别评论中东。我们遵守那里的所有法律法规。因此,我们将继续这样做,但这不是我们经常谈论的地理区域。只对中国定制特规版的GPU,这只是因为出口管制。NVIDIA认为中国是一个重要的市场,我们打算继续参与其中。NVDIA不会开发ASIC芯片。我们可以在ASIC芯片发挥作用的是如果客户想要一个特定的IP模组连接到他们的定制化解决方案,我们会乐意帮助他们。


问5: Scaling-law模式正在达到顶峰,建模似乎以前每三个月就会翻倍? 后训练或推理方面,NVIDIA相较过往更有优势?


答5: 是的,这就是媒体所说的。如果你真的听那些经营AI Lab和主要AI公司并做出资本决策的人的话,他们都会说扩展定律仍然正确,NVIDIA是唯一一家与所有其他AI公司合作的AI公司,NVIDIA对接下来会发生什么以及客户如何考虑扩展其计算能力具有无可争议的独特视野。因此,我们看不到放缓。实际上有三种扩展定律:pre-training、post-training和利用Test-Time Inference。

预训练(pre-training)已经进行一段时间,并会继续下去。目前只是在开发模型的能力基线。这个基线将继续提高。对于大多数企业来说,需要为特定专业领域定制模型(customizing),使其对自己的专业领域,这部分处于初期阶段。

后训练(post-training)例如:将LLama模型转变为药物发现模型。有许多技术可以帮助缩放,例如强化学习(reinforcement learning)、人类反馈(human feedback)、AI反馈、合成数据生成等。因此,这基本上是行业扩展的第二种方式,我们看到它会继续下去。

最后一种Test-Time Inference在秋季随着OpenAI的01模型的发布而引入的,从推理的角度来看,该模型多次循环,然后才实际提供答案给用户。推理计算密集度要高得多,从扩展的角度来看,需求驱动因素的数量实际上已经增加,根据OpenAI、Anthropic、Meta和运行Google Gemini Frontier Model Program的人的公开评论。扩展定律短期内看不到天花板。

后训练或推理方面NVIDIA相较过去更有优势,高吞吐量和低延迟的效果决定了基础设施的经济性。延迟决定CSP服务质量,NVIDIA提供最高性能的解决方案。以MLPerf基准测试,NVIDIA远远领先好几倍,在特定的推理工作负载上,NVIDIA领先2 ~ 3倍,即代表货币化token收入贡献将领先2 ~ 3倍。

当CSP考虑所有成本,包括能源消耗时,使用速度快2 ~ 3倍的解决方案来大规模部署基础设施实际上会花费更多的钱,在50亿美元的基础设施上,若CSP采用其他竞争对手的方案,实际将花费更多的钱来部署一个20%或2 ~ 3倍的解决方案。

因此,推理(inference)方面,每个人都在使用我们进行推理(inference)。NVIDIA是世界上最大的推理(inference)平台,并将在未来几年继续保持这种定位。NVIDIA在每个云中。我们是本地部署的得到了非常大的生态系统的支持。

ASIC只能在该特定云中使用它,运行应用程序时会受到诸多限制。


问6: robotic system outlook for 2025 ~ 2027?

答6: 我们在自动驾驶(AD)和机器人领域拥有~3000亿美元的长期机会,自动驾驶(AD)是机器人的一个子集。但长期的机会实际上分为三个领域:(1)数据中心中的computer来训练AI,这将成为机器人的大脑。(2)机器人内部的计算能力,即NVIDIA AGX Orin平台Orin是一种SoC,将成为机器人内部的computer。第三台是Omniverse computer —一个用于构建数字孪生和协作设计和工程的平台。Omniverse在数字孪生虚拟世界中训练机器人大脑和机器人,并随着机器人学习而循环,提供有关它需要改进的事物的反馈。当机器人进入现实世界执行任务时,它会收集数据。这些数据然后被传输回数据中心以重新训练AI,然后它回到Omniverse进行测试和验证,然后再被推回。因此,有三个平台运算、三套软件堆栈,都在一个连续的循环中运行。


问7: AI受电力消耗的限制? NVIDIA对于电源标准观点以及对电池单元的需求?

答7: 是的,简短的回答是有一些领域电力紧张。但数据中心运营商通常提前采购电力,今天看到的规划和部署是在几年前采购的电力。因此,在短期到中期内,我们不认为电力会成为我们强劲增长的阻碍。而训练用的数据中心,将持续被放置在能源丰富的地方,分布式训练技术被采用,不需要将100,000个GPU集群全部放在一个位置。可以在任何一个地点分配的电力量的另一个解决方案。因此,从长远来看,是的,我们将需要更多的电力,我们将需要更多的场地,无论是清洁能源、核能还是其他,以满足未来很长时间的强劲需求长期来看,我们认为这些问题是可以解决的。


问8: NVIDIA与各国主权AI发展?合作模式?中国地区数据中心收入前景?

答8: 是的,主权AI仍然相对较新。2023年基本上没有主权AI收入,而2024年成长非常好因应用方式不同。一种是正在构建和建立的区域云,我们的机会本质上与该国的GDP规模相关。因此,国家的GDP越大,该国的主权AI机会就越大。例如,印度为例,NVIDIA与像Yotta的区域云合作,以帮助建立NVIDIA基础设施,印度CSP正在非常快速地扩张今年的GPI-J容量将是之前的10倍。Tata、惠普和Infosys合作建立基础设施。区域电信公司东南亚的新加坡电信Singtel正在与NVIDIA和政府合作,GPUaaS将透过Nvidia H100 GPU驱动的群集进行部署。该群集在新加坡电信现有的升级资中心内运作。中国的数据中心收入仍然远低于出口管制法颁布之前的水平 20%-25%。中国的季度约为15%,2025年中国将持续下降百分比。


问9: 预期RTX 50系列GPU 2025年对于Gaming的贡献?

答9: 我们还未有宣布任何消息。


问10: 怎么看CSP厂商扩大ASIC的采用大于10万颗晶片的串联规模?NVIDIA的GPU与Networking的优势在哪?

答10: 是的,就像我之前说的那样,无论是训练还是推理,MLPF基准测试进行验证NVIDIA都是性能最好的解决方案,Google最早发展ASIC。我们知道在训练和推理方面,我们仍然远远优于他们。Google在过去18个月内更加积极地拥抱NVIDIA产品。ASIC可能会有利基市场,但长期来看,市场将是巨大的,TPU出现并浸有水准慢NVIDIA的发展速度,将与ASIC共存,且不会影响NVIDIA GPU的增长率,因为ASIC根据定义,它们是固定功能的,它们只能解决一个工作负载,而市场发展非常迅速,因此当ASIC推出时,市场已经有了很大的发展,因此很难用ASIC来解决快速变化的市场。一直都是这样。第二件事是ASIC只能在特定的云中使用,例如TPU只能在Google中使用,Tranium只能在AWS中使用。若企业希望能跨云运行工作负载,或者混合他们希望能在本地云运行,NVIDIA GPU是唯一可以在任何地方运行的AI平台上执行此操作,这就是我们迄为止所看到的,也是我们对未来的期望。


注分享财经信息的专业社区,喜欢请点击下方名片关注。


免责声明:本文材料整理于公司公告、新闻、机构公开研报及社交媒体网络等,对文中所涉专业及个股均不构成投资建议。市场有风险,投资需谨慎。图文如有侵权或违反信批规则请后台留言联系删除。


文章精彩,防止走失,可关注、转发、投币打赏。




 最新文章