知乎10W赞:国内外这么多 AI 大模型,为什么是 DeepSeek 击败百度字节跳动和ChatGPT火了?

职场   2025-01-29 14:47   重庆  

近日,名为 DeepSeek(深度求索)的中国 AI 初创公司在短短 30 天的时间内先后发布了 DeepSeek-V3、R1、Janus-Pro 等多款大模型,火爆全网,持续引发热议。

每一款新模型发布当天,知乎都会聚集大量科技从业者答主展开丰富专业的分析讨论。
一起来看看大模型话题优秀答主
@段小草 和英伟达 AI 计算架构技术总监@杨军 的专业回答吧~



国产之光 DeepSeek 把 AI 大佬全炸出来了,对 AI 行业竞争格局有何影响?


| 答主:段小草

今天在忙过年前最后的工作,刚看到这道题,简单提几句吧。

DeepSeek 这次引发的讨论度很大,而且这波讨论更多的是技术圈自发的讨论,PR 商稿的水分不多,我觉得这里面其实是很多种因素叠加在一起的。


第一点在于 DeepSeek 开源。


开源在当前是一种正义的大旗,OpenAI 的模型再强,大家也是雾里看山,OpenAI 从 GPT-3 开始就变成了彻头彻尾的 ClosedAI。


可以说除了引爆这一轮生成式大语言模型的浪潮外,给大家提供一个模糊的图景外,对开源社区几乎没有帮助。


而 DeepSeek 则不然,DeepSeek 不仅完全开源,而且放出了详细的技术报告;不仅开源了自己最大的 671B R1 模型,还「顺带手」帮大家蒸馏量化好了 1.5B~70B 多个尺寸的模型;不仅是面子上开源,甚至选择了最宽松的 MIT License 协议,允许任何人免费使用、修改、分发,包括用于商业用途。


国外很多人为 DeepSeek 举大旗,愿意拥护 DeepSeek 为真正的 OpenAI。

LeCun 在蹭 DeepSeek 热度的时候发了这么一篇贴子[1]:

对于那些看到 DeepSeek 表现出色并认为「中国在人工智能上超越了美国」的人,你们理解错了。正确的理解应该是:


开源模型正在超越私有模型。
DeepSeek 受益于开放研究和开源(例如 Meta 的 PyTorch 和 Llama)。他们提出了新想法,并在他人的基础上进行构建。因为他们的工作是公开发布并开源的,每个人都能从中获益。

这就是开放研究和开源的力量。


第二,DeepSeek 的训练成本出乎意料的低。


这一点来自于 DeepSeek V3 的技术报告中[2]:

DeepSeek V3 总训练成本为 278.8 万 H800 GPU 小时,仅 557.6 万美元。


这是什么概念呢?一个 Meta 的内部员工匿名爆料说,Meta 的生成式 AI 部门对 DeepSeek 感到恐慌,原因是他们随便一个管理人员的薪资就超过了 DeepSeek V3 的总训练成本,他们根本无法向高管解释这件事。


这也是一些人所说的,DeepSeek V3 很大程度上改变了大模型市场的根本逻辑,过去以为非常烧钱的现在发现未必需要。

而这背后是来自于 DeepSeek 在架构和 AI Infra 上的创新工作。


第三是 DeepSeek 模型的性能确实强。


模型评测具有相当的选择性,好用不好用也视使用场景而定,不能有某几个具体的问题去肯定或否定某个模型。DeepSeek V3 能赢 GPT-4o,R1 能赢 o1 也都是某些评测结果。


但我还是要说,考虑到 DeepSeek 免费提供使用,且 API 价格非常便宜,那么综合考虑用户使用成本,DeepSeek 的体验就是 T1 级别的。


这一点有大模型竞技场 Arena 佐证,不过由于 DeepSeek R1 的打分数据量尚少,所以其置信区间相对较大,也意味着成绩可能还不太稳定。


第四,DeepSeek 来自幻方量化而不是传统互联网大厂,更具理想主义气息。


DeepSeek 创始人梁文锋这几天也是关注的焦点,大家说他上新闻联播,翻出来他以前的发言逐字解读,颇有种造神的意味。



但 DeepSeek 相比于其他模型,确实商业气息更少一些,也更像一个小而美的研究机构,而非功利性的 AI 企业。这就天然地带来了话题上的反差,更容易引起讨论。


对于科研组织这一条,有几个方向可供展开。


一是和 OpenAI 特别是早期的 OpenAI,以及商业化后的 OpenAI 作类比,小而精的组织可以快速演进,快速发布,而不像大厂那样有商誉负担,比如 Google 早期研究出大模型后由于幻觉问题以及生成式 AI 对搜索业务的影响而影响了对大模型的研究决策,最终导致延迟发布,错失了先机;而 DeepSeek 现在被幻方包养,暂时没有营收压力,所以看上去也不会像 OpenAI 那样市侩功利。

二是 Meta 员工在匿名发贴中说,生成式 AI 部门本应是一个小而精的部门,但因为 AI 的热度被塞进来太多人而变得臃肿。组织的臃肿当然就会带来效率问题。


三是有人把 DeepSeek 比作幻方量化内部的 Skunk Works(臭鼬工厂)[3],强调其积极的创新能力。


第五,DeepSeek 来自中国。


同样一个模型,同样一句话,国内国外滋味截然不同。


美国现在已经明牌要挑起 AI 军备竞赛了,特朗普在宣布 5000 亿美元投资的星际之门时说,这些投资如果不流向美国,就很可能会流向中国。


这里非此即彼的竞争意味非常明确,不少人把星际之门解读为新星球大战计划。

不论是白宫对芯片的禁令,还是 OpenAI 等 AI 企业联合起来的呼吁,都在明确一件事,就是遏制中国的 AI 发展,确保美国的领先地位。


在这个关键时刻,中国企业做出了 DeepSeek,这对于国内来说就是很振奋的事情。叠加上前面讲到的 DeepSeek 训练成本极低,在一定程度上也削弱了对高性能显卡的依赖。


这对于美国来说是不可接受的。但是这件事的的确确真真正正地发生了,这有很有趣了,下一步走向会很微妙,也许 DeepSeek 会成为我们手中的关键一招。



| 答主:杨军


我个人的观点是,硬核技术的发展历程里,任何结果的形成都不是一蹴而就的。

我比较认同梁自己所说的,DeepSeek 目前的成果,以国际行业标准来看,确实是取得了不错的成绩,值得认可,但如果放大时空,相似成绩放在美国科技行业,相当于只不过是诸多不错的技术创新中的一个。


我们既不应该因为美国科技领先的优势(目前这还是一个我认为的客观现实)而觉得中国人就只能做 follower,不能做太多硬核创新;也不应该只是因为一个来自中国公司的单点的技术成果就把制作这个成果的团队和公司捧到天上。这两种极端作法一体两面,对于硬核技术创新都有着极大的破坏性。


曾经有机会听一位行业里非常资深的华人前辈在介绍其创立的公司的组织设计理念时,他专门 highlight 说会在美国物色从事基础模型技术研究的人才,国内的团队做偏应用层的模型技术研究。


虽然自己的从业经验并不能直接对于大模型的建模技术提出很强的洞见,也会承认整体来说美国的科技水准要领先于中国,特别是 IT 技术领域(包括芯片和人工智能)。但对于这种让美国团队从事基础技术,中国团队从事应用技术的职能设定,还是让自己非常的不舒适,因为这隐含了一种强烈的价值能力的推断。

特别是看到一位资深前辈有这样的认知,还是让自己有些感叹,因为这样的人往往对行业资源的分配有着更强的影响力。


当时自己的感觉是如果按这个逻辑,OpenAI 的那帮人在微软或 Google 的资深大佬面前就是一堆小屁孩,完全不应该拿到那么多的社会资源来做出现在的 OpenAI。DeepSeek 的工作成果某种程度上,以一个非常直接的示例来证伪了这种技术判断的不合理性,也给中国的技术圈带来了一些潜在的影响,我自己是非常欣慰的。


我没有直接的一手经验,但从一些草蛇飞线的背景链路,加上自己的一些从业经验来看,我会倾向于认为 DeepSeek 的成果很大程度上取决于他们的核心决策流程能够基于足够 hands-on 的技术细节,在不需要考虑短期 KPI 压力的情况下,进行着有清晰远大终端目标(AGI)设定的技术探索。


有清晰的宏大目标来提供反馈指引,又不像是纯基础科学那样完全不能规划(我本人认为大模型技术突破本质上还是工程技术的突破,而不是自然科学的突破,所以虽然具备很强的不确定性,但其实是那种通过工程技术组织实施可以解决的不确定性,而并不是那种人类历史上小概率产生的天才人物才能推进的自然科学进步),再加上有足够 hands-on 的核心决策流程和团队,同时又有着足够开放包容的工作氛围,就能让技术团队不断地一点点根据外部反馈来调整策略,逼近设定目标。当然在这个过程中,能够超越当前主流建模技术,提出新的模型基础部件,是值得称赞的工作。


但如果我们仔细思考一下,忽略大模型训练所需要耗费的巨大硬件成本,在 pre-LLM 时代,设计浅层模型的时候,引入一些特殊的模型结构的设计,并不是本质难的事情。


对于有着扎实的数理逻辑基础和机器学习素养的工程师来说,其实对模型的建模公式进行调整,是优秀的算法工程师自然该具备的能力。大模型时代每次迭代的巨量计算资源,使得实验成本上升,而如果有了「弱 KPI」导向的文化保证,其实能够很大程度上还原浅层模型时代的模型创新能力。很多时候,可能是人性上对失败和成本的畏惧增加了「布朗运动式」的反复,看似动作很快,反而降低了创新的迭代效率。我们既应该欣赏认可 DeepSeek 团队的成果,也应该理性地分析其中值得学习借鉴的地方。这恐怕也是 DeepSeek 所取得的成果背后我个人觉得更有价值的东西。因为一代模型技术总会被新的模型技术取代。支撑这一代模型技术的AI系统的成果也会被新一代的 AI 系统的进步替换,但背后那个本质性,规律性的东西,才是最关键的值得维系的。因为那才是保持技术创新突破的源泉。


参考

1.^https://www.linkedin.com/business-manager-api/bzmEnterpriseAccessCookie/posts/yann-lecun_to-people-who-see-the-performance-of-deepseek-activity-7288591087751884800-I3sN

2.^https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

3.^https://x.com/8teAPi/status/1882836551866204656


@THE END


应广大粉丝要求,我们建立了一个【领导者管理交流群】,小伙伴们热情踊跃,目前人数已经上万人了,不能直接进群啦,想要进群的添加小编微信,拉你进群。两个添加其一即可!

欢迎加入10W+领导者社群

文章来源 领导者养成笔记「ID:GoToLead 」,转载请公众号回复“转载

版权说明 们尊重原创者版权,除我们确实无法确认作者外,我们都会注明作者和来源。在此向原创者表示感谢。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权立即删除内容;本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。


领导者管理笔记
关注我,与100万领导者一起学组织和管理。张三峯,15年500强高层管理经验,“人人都是领导者“理念推动者,“商业新知”管理十佳创作者,多家公司管理咨询顾问。
 最新文章