Lex Fridman 带来了一场长达5小时的AI深度对话,涵盖了从DeepSeek到o3-mini,从NVIDIA到AI Agent,从中美竞争到AGI,几乎覆盖了当前AI领域所有关键议题。
这场Lex Fridman 与Dylan Patel 和Nathan Lambert 的对话超出了常规播客时长,但每一分钟都充满了关键信息。
两位嘉宾都是AI硬件和研究领域的重量级人物,一个运营着备受业内关注的半导体研究公司,另一个则在Allen人工智能研究所担任研究科学家。
其中的Dylan Patel 有人可能会有些眼熟,其刚刚发布了一份分析报告称DeepSeek 训练成本远超600万美元,见前文:《美分析机构称DeepSeek V3 成本远超600 万美元,实际达13亿美元!》
在播客中,Dylan透露了DeepSeek 背后不为人知的故事:这家公司的母公司Highflyer (幻方)原本是一家量化对冲基金,早在2021年就已经拥有了10000个A100 GPU的集群。他们将这些原本用于量化交易的算力资源,转向了语言模型训练。
「很多人可能不知道,DeepSeek的CEO梁文峰在2021年就宣布他们是中国拥有最大A100集群的公司。」
Dylan表示:
「这些资源最初主要用于量化交易的自然语言处理,但现在他们将目光投向了更宏大的目标。」
而Nathan Lambert 则分享了一个有趣的观察:
「所有重大的AI突破都离不开两个关键要素:模仿学习和试错学习。 目前看来,试错学习的潜力可能更大,这也是为什么DeepSeek和其他公司在推理模型上取得了令人惊讶的进展。」
在谈到AI基础设施时,Dylan提到了一个惊人的数字:
「下一代AI集群的能耗将达到2.2吉瓦,这比一些城市的用电量还要大。 这就是为什么像OpenAI的Stargate项目这样的大规模集群建设如此重要。」
对于OpenAI的Stargate项目,Dylan表示这个5000亿美元的计划确实令人震撼,但目前实际落地的资金可能远低于这个数字。「第一期项目大约需要1000亿美元,其中包括500亿美元的服务器支出,以及数据中心、维护和运营成本。」
在AI人才竞争方面,Nathan指出:
「现在最热门的岗位是推理训练工程师,这个领域的人才极其稀缺。 因为推理模型需要非常专业的知识和经验,而且这个领域还在快速发展。」
对于未来的AI发展,两位嘉宾都持谨慎乐观态度。Dylan认为:
「未来2-3年内,我们可能会看到更多令人惊讶的突破,但真正的挑战在于如何平衡发展速度和安全性。」
而Nathan 也补充道:
「开源AI的重要性正在上升。尽管像Anthropic这样的公司在安全性方面投入巨大,但开源社区的创新速度也不容忽视。我们需要在保持创新活力的同时,确保AI发展的透明度。」
这场长达5小时的对话,不仅涵盖了技术层面的深度讨论,还包含了对AI未来发展的深刻思考。
有网友称:
这不仅仅是一场谈话,更像是一份关于AI未来的详细路线图。
下为视频内容概要:
开场导览 [0:00]
嘉宾Dylan Patel是Semi Analysis的创始人,专注于半导体和AI硬件分析。Nathan Lambert则是Allen人工智能研究所的研究员,同时也是著名AI博客Interconnects的作者。
DeepSeek模型解析 [3:33]
DeepSeek的R1和V3是采用了专家混合(Mixture of Experts)架构的语言模型。
V3是基础模型,而R1则是在此基础上添加了推理能力的特殊版本。两者都采用了创新的MLA注意力机制,大幅降低了内存使用。
低成本训练之谜 [25:07]
DeepSeek能够实现低成本训练的关键在于两大创新:
专家混合架构(MoE)让模型可以只激活部分参数 创新的多头延迟注意力机制(MLA)降低了内存开销
算力集群规模 [51:25]
DeepSeek拥有约50,000个GPU的计算集群,这些算力部分来自其量化交易业务。公开数据显示他们在2021年就拥有10,000个A100 GPU。
对华出口管制 [58:57]
美国政府对中国实施了严格的GPU出口管制。H800被禁后推出了H20,但功能受限。这些限制正推动中国加速发展本土化替代方案。
AGI 时间表预测 [1:09:16]
专家们对AGI实现时间有不同预测:
部分AI公司CEO预计2-3年内可能实现 更谨慎的预测则认为可能需要2030年之后
中国制造能力评估 [1:18:41]
中国在工业基础设施方面具有显著优势,特别是在供电能力上。「一个钢铁厂的用电量就相当于美国整个行业的总和。」
新冷战态势 [1:26:36]
AI技术正成为新一轮中美竞争的焦点。出口管制可能会推动技术发展轨道分化,形成「平行宇宙」式的发展模式。
台积电与台湾 [1:31:05]
台积电在全球半导体产业链中占据核心地位:
控制着全球大部分高端芯片制造 拥有独特的制造工艺和人才优势 成为地缘政治的重要因素
AI最佳GPU选择 [1:54:44]
目前市场上主要的AI训练GPU选择:
NVIDIA H100/H800系列 新发布的H20系列(针对中国市场) 即将推出的下一代产品
DeepSeek低成本秘密 [2:09:36]
成本优势主要来自:
高效的模型架构设计 创新的训练方法 成熟的基础设施复用
产业间谍问题 [2:22:55]
技术泄露主要通过三种方式:
人才流动 开源项目 商业合作
审查制度影响 [2:31:57]
不同地区对AI的监管方式存在差异,这可能影响模型的训练数据和行为表现。
Karpathy论RL魔力 [2:44:52]
Andrej Karpathy强调:AI进步主要来自两种学习方式:
模仿学习(预训练、监督微调) 试错学习(强化学习)
o3-mini对比r1 [2:55:23]
OpenAI和DeepSeek的最新模型各有优势:
o3-mini注重效率和稳定性 r1展现出更强的推理能力
NVIDIA地位分析 [3:14:31]
NVIDIA在AI硬件市场的主导地位来源于:
完整的软件生态系统 持续的硬件创新 成熟的开发者工具
GPU走私现象 [3:18:58]
存在多种GPU非正常流通渠道:
通过第三国转运 借助云服务规避限制 小规模个人走私
OpenAI 数据训练争议 [3:25:36]
DeepSeek被指使用OpenAI的API输出进行训练,引发了数据使用伦理的讨论。
AI 超级集群 [3:36:04]
未来的AI集群规模惊人:
单个集群用电量将达到2.2吉瓦 投资规模可能达到数千亿美元 散热和供电成为关键挑战
AGI 竞赛胜者 [4:11:26]
竞赛的关键因素包括:
计算资源获取能力 顶尖人才储备 技术创新能力
AI Agent 展望 [4:21:39]
AI Agent是下一个重要发展方向,但面临诸多挑战:
任务规划能力 环境适应性 安全性控制
编程与AI [4:30:21]
AI 将重塑软件开发行业:
提高开发效率 降低入门门槛 改变工程师角色定位
开源发展 [4:37:49]
开源在AI 发展中扮演重要角色:
促进技术创新 降低研发成本 提升行业透明度
Stargate 项目 [4:47:01]
OpenAI 的Stargate 项目规模宏大:
总投资可能达5000亿美元 第一期需要1000亿美元 将建设全球最大AI集群
AI未来展望 [4:54:30]
未来发展将围绕几个关键方向:
计算基础设施升级 模型架构创新 应用场景拓展 安全伦理建设
完整视频见:
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!