王炸!王炸!王炸!重要的事情说三遍! 春节期间,DeepSeek,这家带着神秘东方力量的AI新贵,扔出了一颗重磅炸弹!开源的DeepSeek-R1和DeepSeek-V3,性能直逼GPT-4,价格却低到令人发指! 什么概念?这就是降维打击!这就是王道!
还记得当初那个高喊着“为了全人类福祉”的OpenAI吗?如今却躲在资本的怀抱里瑟瑟发抖,将“Open”二字抛诸脑后,彻底沦为了金钱的奴隶! 而DeepSeek,这家来自中国的AI新贵,却选择了另一条路——一条充满挑战、充满争议,但也充满希望的开源之路!
想知道DeepSeek凭什么敢和OpenAI叫板?想知道AI的未来究竟路在何方?别急,非子爱今天就带你扒一扒这场AI风暴背后的真相!
这次,Lex Fridman这个“AI网红”请来了两位重量级嘉宾:一位是SemiAnalysis的首席分析师Dylan Patel,这家伙对半导体行业了如指掌,堪称“芯片活字典”;另一位是Allen Institute for AI (AI2)的资深研究员Nathan Lambert,妥妥的AI技术大牛。 这两个人凑在一起,简直就是王炸组合!他们和Lex Fridman一起,把DeepSeek的技术、战略、乃至整个AI行业的未来都聊了个底朝天!
这场对话,信息量爆炸!干货满满! 非子爱我熬夜爆肝,把里面的精华内容都给你们提炼出来了!准备好迎接这场AI盛宴了吗?系好安全带,发车了!
DeepSeek:开源的“异教徒”,AGI的“破壁人”!
1. DeepSeek-R1与DeepSeek-V3:技术王炸,性能怪兽!
DeepSeek这次扔出的王炸,就是DeepSeek-V3和DeepSeek-R1这两款开源大模型。V3,基础模型,能写会画,样样精通;R1,专精推理,逻辑怪兽,复杂问题,迎刃而解!
1.1 技术硬核:MoE、MLA,还有“祖传”底层优化,一个都不能少!
• 混合专家模型(MoE):如果把AI模型比作一个团队,那么MoE就是“精英团队”模式。每个“专家”各司其职,只负责自己擅长的领域。DeepSeek-R1的MoE架构,拥有数百个专家,每次推理却只需激活极少部分专家!省时!省力!省钱! Dylan Patel直言:“DeepSeek的MoE可能是目前世界上最先进的实现!”
• 多头潜注意力机制(MLA):这是DeepSeek的独门秘籍!传统的注意力机制就像是一个“管家”,一次只能关注一个地方。而MLA则像是一个“八爪鱼”,可以同时关注多个地方,还能把这些信息融会贯通! Nathan Lambert赞叹道:“MLA能节省80%-90%的内存!这在处理长文本时简直是救星!”
• “祖传”底层优化: DeepSeek的工程师们可不是吃素的!他们甚至深入到CUDA底层,像庖丁解牛一样,把代码一行一行地优化到了极致! 为了榨干GPU的每一滴性能,他们还开发了自定义的通讯库,简直是把“压榨”精神发挥到了极致!这种对技术的极致追求,令人叹服!
1.2 DeepSeek-R1:会思考的AI,才是真的AI!
DeepSeek-R1最牛的地方,就是它的推理能力!它不仅仅是简单地回答问题,而是像人类一样,会思考、会推理、会反思! 不信?你给它出一个刁钻的问题:“关于人类的一个真正新颖的见解”。
R1会怎么做?它会像一个智者一样,先深入分析问题,然后列出几个可能的答案,再逐一推敲,最后,它会给你一个让你拍案叫绝的答案:“人类本能地将自私的欲望转化为合作系统,通过集体假装抽象规则、金钱、法律、权利是真实的。这些共同的幻觉充当了“游戏”,竞争被暗中重定向以使群体受益,将冲突转化为社会的燃料。”
这还是AI吗?这简直就是哲学家在世啊! 更重要的是,R1的思考过程完全透明!你可以看到它是如何一步步得出结论的,这种感觉就像是和一个智者在对话,而不是面对一个冷冰冰的机器!
1.3 DeepSeek-V3:样样精通的全能选手!
R1擅长推理,V3则是全能选手。写文章、编代码、做翻译……就没有它不会的! V3的强大,源于其庞大的参数规模和海量的训练数据。DeepSeek团队用海量的互联网文本数据训练V3,让它掌握了各种语言的精髓。
2. 开源:DeepSeek的“阳谋”!
DeepSeek选择开源,这步棋走得可谓是“阳谋”!一方面,开源可以迅速扩大DeepSeek的影响力,吸引全球的开发者参与进来,共同完善DeepSeek的生态。另一方面,开源也展现了DeepSeek的自信和格局,他们不怕竞争,反而希望通过开放合作来推动整个行业的发展。
正如Nathan Lambert所说:“开源可以避免AI技术被少数公司垄断,让更多人受益。” DeepSeek R1 采用的 MIT 协议, 是非常宽松的协议,允许用户在任何场景下使用模型,包括商业用途,甚至可以使用模型的输出来创建合成数据。 这为开发者提供了极大的自由度,但也增加了模型被滥用的风险。
2.1 开源的风险与机遇:一把双刃剑!
开源是一把双刃剑,既有机遇,也有风险。最大的风险莫过于模型被滥用,例如被用来制造虚假信息、开发恶意软件等等。此外,开源AI的商业模式也 এখনও探索之中,如何盈利,如何持续发展,都是摆在DeepSeek面前的难题。
2.2 DeepSeek的底气:强大的技术实力和清晰的战略
DeepSeek敢于开源,底气何在?首先,当然是其强大的技术实力。MoE、MLA、底层代码优化,这些都是DeepSeek的“独门绝技”,也是其在AI领域立足的根本。其次,DeepSeek背后有着雄厚的算力支持,这为其模型的训练和迭代提供了坚实的保障。最后,DeepSeek有着清晰的战略规划,他们不仅要做最好的AI模型,更要做最开放的AI平台。
算力:AI竞赛的入场券,更是决胜的关键!
1. High-Flyer:DeepSeek背后的算力巨鳄
DeepSeek的背后,站着一个神秘的巨人——High-Flyer,一家业内领先的高频交易公司。这家公司,才是DeepSeek真正的算力来源! 早在2021年,High-Flyer就豪掷千金,购买了1万块NVIDIA A100 GPU,并在之后的几年里持续扩充算力。如今,DeepSeek拥有的GPU数量,估计已经达到了惊人的5万块!
High-Flyer的CEO梁文锋,更是一位传奇人物。他不仅是金融界的精英,更是一位高瞻远瞩的战略家。他看到了AI的巨大潜力,并毅然决然地将公司资源向AI领域倾斜。可以说,没有梁文锋的远见卓识,就没有今天的DeepSeek。 High-Flyer长期使用AI和GPU进行量化交易,他们在自然语言处理方面有着深厚的技术积累。该公司很早就意识到AI的巨大潜力,并开始将其在高频交易领域积累的算力优势和技术经验应用于AI模型的训练。DeepSeek的算力集群规模足以与Meta、Anthropic等美国AI巨头相媲美,甚至可能超过了OpenAI。
2. AI超级集群:一场没有硝烟的战争!
DeepSeek的崛起,只是全球AI算力竞赛的一个缩影。如今,各大科技巨头都在疯狂建设AI超级集群,这是一场没有硝烟的战争,也是一场关乎未来的战争!
• OpenAI的Stargate项目:计划耗资千亿美元,构建一个拥有数百万GPU的超级集群。预计将消耗高达2.2GW的电力。
• Meta的AI集群:已拥有数十万GPU,并计划进一步扩大规模。目前Meta已经拥有约15万块H100级别的GPU算力。他们正在路易斯安那州建设大型天然气发电厂。
• Google的TPU集群:Google拥有全球最大的TPU集群,用于支持其内部的AI研究和应用。他们在爱荷华州和内布拉斯加州拥有多个大型数据中心。
• Elon Musk的xAI:在孟菲斯建立了一个拥有20万块GPU的数据中心,并计划进一步扩建。伊隆马斯克还计划在孟菲斯建设自己的天然气发电厂。
这场算力竞赛的背后,是各大公司对AI未来发展趋势的判断。他们认为,算力是AI发展的核心驱动力,拥有更强大的算力,就意味着在未来的AI竞争中拥有更大的优势。正如Dylan Patel所说:“这是一场‘军备竞赛’,各大公司都在争相建设更大规模的AI超级集群。”
3. 电力:比黄金还贵的“新石油”!
AI超级集群的建设,也带来了巨大的能源挑战。正如Dylan Patel所指出的:“数据中心的能耗占比将会大幅提升,电力将成为AI时代的‘新石油’。” 据估计,到2030年,美国数据中心的耗电量将达到惊人的10%,其中大部分都将用于AI计算。
以OpenAI的Stargate项目为例,该项目预计将消耗高达2.2GW的电力,这相当于一座大型城市的用电量。如此巨大的能耗,对电力供应和基础设施都提出了严峻的挑战。未来,谁掌握了电力,谁就掌握了AI的命脉!
4. 数据中心:寸土寸金的“新战场”!
数据中心是AI时代的“新工厂”,它们为AI模型的训练和推理提供了必要的算力支持。未来,数据中心的建设将成为各国竞争的焦点。目前,美国在数据中心建设方面处于领先地位,但中国也在积极追赶。
5. 从芯片到系统:这是一场全方位的“军备竞赛”!
AI领域的竞争不仅仅是模型的竞争,更是算力、算法、数据、人才等全方位的竞争。从芯片设计制造到数据中心建设运营,再到AI模型的训练和应用,每一个环节都至关重要。
5.1 芯片:AI的“心脏”
芯片是AI系统的核心,其性能直接决定了AI模型的训练速度和推理效率。目前,NVIDIA的GPU在AI芯片市场占据主导地位,但其他公司也在积极研发自己的AI芯片,例如Google的TPU、Amazon的Trainium和Inferentia、Meta的MTIA,以及Intel的Gaudi等。
5.2 算法:AI的“大脑”
算法是AI模型的灵魂,它决定了AI模型如何学习和推理。近年来,深度学习算法取得了重大突破,特别是Transformer模型的出现,极大地推动了自然语言处理和计算机视觉等领域的发展。
5.3 数据:AI的“食物”
数据是AI模型的“食物”,模型的性能很大程度上取决于训练数据的质量和数量。拥有大规模、高质量的数据集是训练出强大AI模型的关键。
5.4 人才:AI的“创造者”
人才是AI产业发展的核心要素。AI领域需要大量的工程师、科学家和研究人员,他们负责开发新的算法、设计新的模型、构建新的系统,并推动AI技术的应用。
开源 VS 闭源:AI发展的十字路口
1. DeepSeek的开源策略:是“馅饼”还是“陷阱”?
DeepSeek选择将其模型开源,这一策略既带来了机遇,也带来了挑战。开源可以促进AI技术的普及和创新,让更多人参与到AI的开发和应用中来。但同时,开源也存在安全风险,例如模型可能被用于恶意目的,或者被嵌入难以察觉的后门。
正如Nathan Lambert所说:“开源AI并不一定比闭源AI更安全,开源模型也可能被恶意利用。” DeepSeek R1 采用的 MIT 协议, 是非常宽松的协议,允许用户在任何场景下使用模型,包括商业用途,甚至可以使用模型的输出来创建合成数据。 这为开发者提供了极大的自由度,但也增加了模型被滥用的风险。
2. 商业模式之争:开源如何赚钱?
开源AI的商业模式也是一个亟待解决的问题。目前,大多数开源AI项目都依靠捐赠或提供付费服务来维持运营。但这种模式是否可持续,仍然是一个未知数。
3. OpenAI的商业化之路:API与订阅模式能否走通?
OpenAI则选择了另一条道路:商业化。OpenAI通过提供API接口和订阅服务,将其AI模型商业化。这种模式可以为OpenAI带来稳定的收入来源,支持其持续的研发投入。然而,OpenAI的商业化模式也引发了一些争议,例如其与微软的合作关系,以及其模型的封闭性。
4. 闭源的围城:保护主义还是画地为牢?
闭源模式可以更好地保护知识产权,并控制模型的使用方式。但是,闭源模式也限制了AI技术的普及和创新。
5. 未来的平衡:开源与闭源的共舞
未来,开源和闭源模式可能会长期共存,并相互补充。开源模式可以促进AI技术的普及和创新,而闭源模式则可以更好地保护知识产权,并控制模型的使用方式。正如Nathan Lambert所说:“我们需要探索出一条既能保护创新又能兼顾安全的道路。”
超越“人工智障”:AI的无限可能
1. AI智能体:从“工具”到“伙伴”的进化
AI智能体是指能够自主执行任务的AI系统,被认为是AI未来发展的重要方向。目前,AI智能体还处于初级阶段,但其潜力已经开始显现。例如,AI智能体可以用于自动化客户服务、驾驶、甚至科学研究等领域。
正如Dylan Patel所预言的:“软件工程的成本将会大幅下降,企业将可以快速构建定制化的解决方案,而无需依赖平台化的SaaS服务。” 这将深刻改变软件产业的格局。Nathan Lambert则预测:“未来几年,大量简单AI智能体将被开发出来,它们将能够胜任各种简单任务。”
然而,开发真正强大的AI智能体仍然面临着巨大的挑战。AI智能体需要具备感知、理解、推理、决策、执行等多种能力,并且能够在复杂、动态的环境中可靠地运行。
2. 编程革命:AI将如何改变程序员的命运?
AI的快速发展也引发了人们对程序员未来职业发展的担忧。一些人认为,AI将取代程序员的工作。但也有人认为,AI将成为程序员的得力助手,帮助他们更高效地编写代码。
Nathan Lambert 认为:“软件工程师的数量会趋于稳定甚至减少,但他们不会消失。”未来,程序员的角色可能会发生转变,他们需要更多地与AI协作,并专注于更高层次的软件设计和架构工作。同时,程序员也需要不断学习新的技能,以适应AI时代的发展需求。
Dylan Patel 进一步指出:“程序员需要成为某个领域的专家,并将AI技术应用到该领域。” 例如,在航空航天领域或半导体领域,工程师可以利用AI工具来提升工作效率,解决复杂问题。
3. 算力竞赛与技术突破:永无止境的“摩尔定律”
AI的发展离不开算力的支撑,也离不开技术的不断突破。未来,我们有望看到更多创新的AI模型架构、更高效的训练方法,以及更强大的AI芯片的出现。正如Nathan Lambert所说:“这是一个激动人心的时代,每天都有新的突破。”
4. AI的“七宗罪”:伦理与安全的警钟
AI技术的发展也带来了一系列伦理和安全问题。例如,AI模型可能会产生偏见或歧视性的内容,AI系统可能会被用于恶意目的,AI的决策过程可能缺乏透明度等等。这些问题都需要我们认真思考和解决。
正如Dylan Patel所担忧的:“具有超级智能的AI,如果被少数人掌握,可能造成严重的社会问题。” 因此,我们需要制定相应的法律法规和伦理准则,确保AI技术的发展符合人类的利益。
5. DeepSeek-R1与OpenAI o3-mini:各有千秋的“华山论剑”
在播客录制后,OpenAI发布了其o3-mini模型。根据Lex Fridman的测试,在开放式哲学问题上,o1-pro表现最佳,其次是DeepSeek-R1, 然后是Gemini Flash 2.0,最后是o3-mini。 但是在其他方面,o3-mini表现非常出色,甚至超过R1。这表明不同的模型各有优势,在不同的任务上表现也不同。在播客中,Lex Fridman本人亲自体验了o3-mini和DeepSeek-R1,并对它们的表现进行了比较。他认为,o3-mini在处理一些需要创造力和想象力的任务时表现得更好,而DeepSeek-R1在处理一些需要逻辑推理的任务时表现得更好。
6. 英伟达:稳坐钓鱼台的“AI霸主”
当前,英伟达在AI芯片领域占据绝对的领先地位,其GPU是训练AI模型的事实标准。然而,随着AI芯片市场的不断扩大,越来越多的公司开始进入这一领域,试图挑战英伟达的霸主地位。
例如,谷歌的TPU已经在其内部的AI应用中得到了广泛应用,并且谷歌也在不断提升TPU的性能。此外,亚马逊、Meta等公司也在开发自己的AI芯片。
尽管目前还没有一家公司能够在性能上完全超越英伟达,但这些公司的努力无疑给英伟达带来了一定的压力。未来,英伟达能否继续保持领先地位,将取决于其自身的创新能力以及市场竞争格局的变化。
7. 算力之外:模型优化的无尽潜力
除了强大的算力之外,模型优化也是提升AI性能的关键因素。DeepSeek-R1之所以能够在性能上与GPT-4相媲美,很大程度上得益于其在模型架构和训练方法上的优化。
例如,DeepSeek-R1采用的MoE架构和MLA机制,都有效地提升了模型的效率,降低了对算力的需求。这表明,通过模型优化,可以在有限的算力条件下实现更高的AI性能。
8. 人机协同:AI时代的“最优解”
尽管AI技术发展迅速,但人类在AI发展中仍然扮演着至关重要的角色。人类需要负责定义AI的目标、设计AI的架构、训练AI的模型,并监督AI的运行。
正如Nathan Lambert所强调的:“人类的判断力和创造力仍然是AI无法替代的。” 未来,人机协作将成为AI发展的主要模式,人类和AI将共同推动社会进步。
中美AI竞赛:没有硝烟的“新冷战”
中美两国在AI领域的竞争日益激烈,这场竞争既有合作,也有对抗。
1. 美国的优势与挑战
美国在AI领域拥有先发优势,其在芯片设计、软件开发、人才储备等方面都处于领先地位。然而,美国也面临着一些挑战,例如数据隐私保护、AI伦理规范等问题。
2. 中国的机遇与挑战
中国在AI领域的发展速度非常快,其在数据资源、应用场景等方面具有独特的优势。然而,中国也面临着一些挑战,例如芯片制造、基础研究等方面与美国还存在差距。
3. 未来的合作与竞争
中美两国在AI领域的竞争将是一个长期过程。未来,两国可能会在一些领域展开合作,例如共同制定AI伦理规范、推动AI技术的应用等。但在另一些领域,两国也将会展开激烈的竞争,例如争夺AI人才、抢占AI市场等。
AI的未来,人类的未来!
DeepSeek的崛起只是AI浪潮中的一朵浪花,未来的AI世界将更加精彩纷呈。正如Nathan Lambert所说:“如果我们能够让更多人理解AI,参与到AI的建设中来,那么AI的未来将更加美好。” 让我们拥抱AI时代的无限可能,共同创造一个更加美好的未来!
推荐阅读
• DeepSeek官网: https://www.deepseek.com/
• Lex Fridman(#459)期播客: https://lexfridman.com/deepseek-dylan-patel-nathan-lambert-transcript
2024 年度 AI 报告(一):Menlo 解读企业级 AI 趋势,掘金 AI 时代的行动指南 2024年度AI报告(二):来自Translink的前瞻性趋势解读 - 投资人与创业者必看 2024年度AI报告(三):ARK 木头姐对人形机器人的深度洞察 2024年度AI报告(四):洞察未来科技趋势 - a16z 2025 技术展望 2024年度AI报告(五):中国信通院《人工智能发展报告(2024)》深度解读 2025 AI 展望 (一):LLM 之上是 Agent AI,探索多模态交互的未来视界 2025 AI 展望 (二):红杉资本展望2025——人工智能的基础与未来 2025 AI 展望(三):Snowflake 洞察 - AI 驱动的未来,机遇、挑战与变革 2025 AI 展望(四):OpenAI 的 AGI 经济学