对DeepSeek的五大误解!

旅行   2025-02-06 08:47   中国香港  

一家中国AI公司的开源模型引发了全球AI圈的地震!

DeepSeek的R1模型一经发布,就掀起了一场轩然大波。但在这场喧嚣背后,却弥漫着太多的误解和偏见

19岁就获得博士学位前Stability AI研究主管Tanishq 忍不住了,他直指这场风波中的五大谎言,揭开了这场AI恐慌的真相。

博士忍不住了,他直指这场风波中的五大谎言,揭开了这场AI恐慌的真相。

误解一:突然冒出来的可疑公司?

这个说法简直让人哭笑不得。

事实上,DeepSeek早在2023年11月就发布了业界领先的编程模型DeepSeek-Coder。整整一年来,他们稳扎稳打,不断推进技术创新。

看看这张进度图就知道了:

误解二:600万美元造不出这么强的模型!

这个质疑更有意思了。

根据DeepSeek-V3论文披露的数据:

论文中提到的550万美元仅仅是最终训练的成本。这还不包括:

  • 前期大量的实验成本

  • 研究人员高达百万美元的年薪

  • R1模型额外的强化学习训练费用

误解三:这是NVIDIA的末日?

这种说法简直是天方夜谭!

Tanishq博士表示,这完全是对算力扩展规律的误解。更高效的模型意味着同样的算力能发挥更大的价值,但并不意味着更多算力就没用了。

lee(@LeeLeepenkman) 补充道:「NVIDIA现在获得了更好的算法来运行他们的机器,可以用相同的硬件进行更高价值的计算。

误解四:抄袭美国公司?

事实恰恰相反!DeepSeek带来了多项重要创新:

  • 多潜在注意力机制:比传统的多头注意力更节省内存,性能更优

  • GRPO可验证奖励:创新的强化学习方案

  • DualPipe:全新的多GPU训练方案,大幅提升训练效率

误解五:靠吸取ChatGPT的知识?

美国政府AI顾问David Sacks和OpenAI都提出了这个质疑。但问题在于:

  • 如果使用公开数据集,这完全是合法的

  • R1模型的推理能力完全是自己的创新,因为o1的思维链过程从未公开过

Brandon Starks(@brandamnnnn)指出:「现在的战场在软件层面。想要赢的软件公司,都会想要获得最好的工具。这并不复杂。」

这场风波告诉我们:技术创新不分国界,而恐慌往往源于误解。

与其陷入无谓的争论,不如关注DeepSeek带来的技术突破。

最后,Magnus Ahlden 说到:

人们总是倾向于把它简单地看作『中国版拷贝』,而不是承认这个版本背后有多少伟大的创新。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章