首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Lex Fridman 最新播客：Deepseek与o3-mini，芯片管制与中美竞争、AI Agent与AGI……

旅行 2025-02-04 00:03 中国香港

Lex Fridman 带来了一场长达5小时的AI深度对话，涵盖了从DeepSeek到o3-mini，从NVIDIA到AI Agent，从中美竞争到AGI，几乎覆盖了当前AI领域所有关键议题。

这场Lex Fridman 与Dylan Patel 和Nathan Lambert 的对话超出了常规播客时长，但每一分钟都充满了关键信息。

两位嘉宾都是AI硬件和研究领域的重量级人物，一个运营着备受业内关注的半导体研究公司，另一个则在Allen人工智能研究所担任研究科学家。

其中的Dylan Patel 有人可能会有些眼熟，其刚刚发布了一份分析报告称DeepSeek 训练成本远超600万美元，见前文：《美分析机构称DeepSeek V3 成本远超600 万美元，实际达13亿美元！》

在播客中，Dylan透露了DeepSeek 背后不为人知的故事：这家公司的母公司Highflyer （幻方）原本是一家量化对冲基金，早在2021年就已经拥有了10000个A100 GPU的集群。他们将这些原本用于量化交易的算力资源，转向了语言模型训练。

「很多人可能不知道，DeepSeek的CEO梁文峰在2021年就宣布他们是中国拥有最大A100集群的公司。」

Dylan表示：

「这些资源最初主要用于量化交易的自然语言处理，但现在他们将目光投向了更宏大的目标。」

而Nathan Lambert 则分享了一个有趣的观察：

「所有重大的AI突破都离不开两个关键要素：模仿学习和试错学习。 目前看来，试错学习的潜力可能更大，这也是为什么DeepSeek和其他公司在推理模型上取得了令人惊讶的进展。」

在谈到AI基础设施时，Dylan提到了一个惊人的数字：

「下一代AI集群的能耗将达到2.2吉瓦，这比一些城市的用电量还要大。 这就是为什么像OpenAI的Stargate项目这样的大规模集群建设如此重要。」

对于OpenAI的Stargate项目，Dylan表示这个5000亿美元的计划确实令人震撼，但目前实际落地的资金可能远低于这个数字。「第一期项目大约需要1000亿美元，其中包括500亿美元的服务器支出，以及数据中心、维护和运营成本。」

在AI人才竞争方面，Nathan指出：

「现在最热门的岗位是推理训练工程师，这个领域的人才极其稀缺。 因为推理模型需要非常专业的知识和经验，而且这个领域还在快速发展。」

对于未来的AI发展，两位嘉宾都持谨慎乐观态度。Dylan认为：

「未来2-3年内，我们可能会看到更多令人惊讶的突破，但真正的挑战在于如何平衡发展速度和安全性。」

而Nathan 也补充道：

「开源AI的重要性正在上升。尽管像Anthropic这样的公司在安全性方面投入巨大，但开源社区的创新速度也不容忽视。我们需要在保持创新活力的同时，确保AI发展的透明度。」

这场长达5小时的对话，不仅涵盖了技术层面的深度讨论，还包含了对AI未来发展的深刻思考。

有网友称：

这不仅仅是一场谈话，更像是一份关于AI未来的详细路线图。

下为视频内容概要：

开场导览 [0:00]

嘉宾Dylan Patel是Semi Analysis的创始人，专注于半导体和AI硬件分析。Nathan Lambert则是Allen人工智能研究所的研究员，同时也是著名AI博客Interconnects的作者。

DeepSeek模型解析 [3:33]

DeepSeek的R1和V3是采用了专家混合(Mixture of Experts)架构的语言模型。

V3是基础模型，而R1则是在此基础上添加了推理能力的特殊版本。两者都采用了创新的MLA注意力机制，大幅降低了内存使用。

低成本训练之谜 [25:07]

DeepSeek能够实现低成本训练的关键在于两大创新:

专家混合架构(MoE)让模型可以只激活部分参数
创新的多头延迟注意力机制(MLA)降低了内存开销

算力集群规模 [51:25]

DeepSeek拥有约50,000个GPU的计算集群，这些算力部分来自其量化交易业务。公开数据显示他们在2021年就拥有10,000个A100 GPU。

对华出口管制 [58:57]

美国政府对中国实施了严格的GPU出口管制。H800被禁后推出了H20，但功能受限。这些限制正推动中国加速发展本土化替代方案。

AGI 时间表预测 [1:09:16]

专家们对AGI实现时间有不同预测:

部分AI公司CEO预计2-3年内可能实现
更谨慎的预测则认为可能需要2030年之后

中国制造能力评估 [1:18:41]

中国在工业基础设施方面具有显著优势，特别是在供电能力上。「一个钢铁厂的用电量就相当于美国整个行业的总和。」

新冷战态势 [1:26:36]

AI技术正成为新一轮中美竞争的焦点。出口管制可能会推动技术发展轨道分化，形成「平行宇宙」式的发展模式。

台积电与台湾 [1:31:05]

台积电在全球半导体产业链中占据核心地位:

控制着全球大部分高端芯片制造
拥有独特的制造工艺和人才优势
成为地缘政治的重要因素

AI最佳GPU选择 [1:54:44]

目前市场上主要的AI训练GPU选择:

NVIDIA H100/H800系列
新发布的H20系列(针对中国市场)
即将推出的下一代产品

DeepSeek低成本秘密 [2:09:36]

成本优势主要来自:

高效的模型架构设计
创新的训练方法
成熟的基础设施复用

产业间谍问题 [2:22:55]

技术泄露主要通过三种方式:

人才流动
开源项目
商业合作

审查制度影响 [2:31:57]

不同地区对AI的监管方式存在差异，这可能影响模型的训练数据和行为表现。

Karpathy论RL魔力 [2:44:52]

Andrej Karpathy强调：AI进步主要来自两种学习方式:

模仿学习(预训练、监督微调)
试错学习(强化学习)

o3-mini对比r1 [2:55:23]

OpenAI和DeepSeek的最新模型各有优势:

o3-mini注重效率和稳定性
r1展现出更强的推理能力

NVIDIA地位分析 [3:14:31]

NVIDIA在AI硬件市场的主导地位来源于:

完整的软件生态系统
持续的硬件创新
成熟的开发者工具

GPU走私现象 [3:18:58]

存在多种GPU非正常流通渠道:

通过第三国转运
借助云服务规避限制
小规模个人走私

OpenAI 数据训练争议 [3:25:36]

DeepSeek被指使用OpenAI的API输出进行训练，引发了数据使用伦理的讨论。

AI 超级集群 [3:36:04]

未来的AI集群规模惊人:

单个集群用电量将达到2.2吉瓦
投资规模可能达到数千亿美元
散热和供电成为关键挑战

AGI 竞赛胜者 [4:11:26]

竞赛的关键因素包括:

计算资源获取能力
顶尖人才储备
技术创新能力

AI Agent 展望 [4:21:39]

AI Agent是下一个重要发展方向，但面临诸多挑战:

任务规划能力
环境适应性
安全性控制

编程与AI [4:30:21]

AI 将重塑软件开发行业:

提高开发效率
降低入门门槛
改变工程师角色定位

开源发展 [4:37:49]

开源在AI 发展中扮演重要角色:

促进技术创新
降低研发成本
提升行业透明度

Stargate 项目 [4:47:01]

OpenAI 的Stargate 项目规模宏大:

总投资可能达5000亿美元
第一期需要1000亿美元
将建设全球最大AI集群

AI未来展望 [4:54:30]

未来发展将围绕几个关键方向:

计算基础设施升级
模型架构创新
应用场景拓展
安全伦理建设

完整视频见：

https://www.youtube.com/watch?v=_1f-o0nqpEI

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

关注AGI 的沿途风景！

最新文章

从DeepSeek R1看推理模型的四种进化路线

对DeepSeek的五大误解！

重磅！Gemini 2.0全家桶发布：Flash免费用，Pro会写代码，还有一个便宜货

传言称Grok-3延迟！但马斯克仍手握最强算力

Deep Research 开源版来了！立省200美元

魔幻现实之：美国人下载DeepSeek 将坐牢20年？！

爆料：Anthropic 有比o3 更强的模型，但不敢放出来

Lex Fridman 最新播客：Deepseek与o3-mini，芯片管制与中美竞争、AI Agent与AGI……

华为突围：910C芯片性能达H100的60%！DeepSeek 已验证

OpenAI Deep Research上线：人类研究员失业倒计时？

基于o3-mini 的浏览器agent，打造属于自己的Operator

伯克利教授：AI思考的越多，越容易出错

o3-mini 的10 大疯狂应用案例！

指责DeepSeek 的OpenAI 们才是真正的賊！

特斯拉：This robot sucks!

Yann LeCun 痛批硅谷精英的优越感！

o3-mini 发布，但仍未走出DeepSeek 阴影

美分析机构称DeepSeek V3 成本远超600 万美元，实际达13亿美元！

OpenAI 最强模型o3 今晚发布！

重现Deepseek R1 「Aha Moment」的完整教程来了！

当马斯克的脑机接口卷到了书法界，我们正在见证史上最硬核的意念书法大赛！

Stable Diffusion 创始人：DeepSeek 没有抄袭！

Anthropic CEO：DeepSeek 为落后的追随者，需进一步加强中国芯片管制！

OpenAI 称有证据证明DeepSeek违规使用其模型！

Grok 重磅推出推理能力，Grok 3 或指日可待！

DeepSeek严正声明：警惕虚假账号冒充！

手把手教学：40000 元在家跑顶级DeepSeek R1的完整方案！

重磅！OpenAI 推出美国政府专用版ChatGPT Gov！

Meta 或成开源竞赛中最大输家！

DeepSeek 入场，Meta 或成开源竞赛中最大输家！

终于，Sam Altman 正面迎战DeepSeek！

量化压缩80%！160GB就能运行671B的DeepSeek R1

炸裂！DeepSeek 的新春礼物——多模态模型Janus-Pro 详解

DeepSeek 爆火遭Scale AI 华裔 CEO Alexandr Wang 痛批：美国必须加强对中国AI 管制！

继Operator 之后，Perplexity 推出多模态助手！

马斯克：OpenAI 星门计划将流产！

DeepSeek R1 6百万美元训练成本是否真实？

试用完 OpenAI 的新代理工具，以下是我们的发现

哈佛医学院：AI 将治愈癌症，Sam Altman 没在吹牛！

重磅！字节发布UI-TARS大模型，三句话搞定电脑操作！碾压GPT-4！

Perplexity发布Sonar API，提供实时信息搜索功能，一举超越所有搜索引擎和LLM！

Perplexity发布Sonar API，一举超越所有搜索引擎和LLM

重磅！OpenAI 宣布5000亿美元启动Stargate项目，「星门计划」再起波澜！

Anthropic发布 Agent 最佳实践指南！

重磅！Anthropic CEO 称将于2025年推出数字员工！

Perplexity CEO：印度应向中国学习模型研发！

DeepSeek R1 训练方法解析

超便携AI超算来了！这台「公文包」竟能塞下一台超级计算机

以小博大，DeepSeek-R1-Distill-Qwen-1.5B 开源模型击败GPT-4和Claude 3.5!

爬虫工程师将失业！Firecrawl 能让你一句话抓取全网数据！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉