DeepSeek 的含金量,还在上升
科技
科技
2025-01-27 23:04
湖南
就在刚刚,老狐发现本土大模型 DeepSeek 又「崩了」在昨天(1月26日)就已经崩过一次了,不是我说,DeepSeek 真得升级一下服务器架构咯,不过这已进一步佐证了 DeepSeek 到底有多火。在这几天,一款名为 DeepSeek 的 App 突然跃升至苹果美国区免费 App 下载排行榜榜首,力压风头无两的 ChatGPT,在通用大模型领域,美区可是 ChatGPT 的主场,DeepSeek 凭什么能反客为主?可能很多朋友不清楚 DeepSeek 到底是啥,我可以用一句话来形容它:AI 届的 pdd。OpenAI CEO Sam Altman 透露过,GPT-4 的训练成本大约 7800 万美元,尚未完成训练的 GPT-5 大模型,为时约半年的一轮训练就消耗了大约 5 亿美元、而 DeepSeek-V3 大模型训练成本仅为 558 万美元,成本低,其 API 服务价格也延续了过往亲民的打法。DeepSeek 官网的价格表显示,缓存命中输入价格仅为 0.1 元/百万 tokens,缓冲未命中输入价格为 1 元/百万 tokens,输出价格则为 2 元/百万 tokens,在诸多 AI 大模型中属于最低的一档。(注明:1token 约等于 1.5 个汉字或 3 个英文字母)1 月 20 日正式发布的 DeepSeek-R1 模型,更是夸张。性能上比肩 O1 的推理能力,并同步开源模型权重,任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的 mini 模型。更何况,DeepSeek-R1 可是支持实时联网、目前唯一支持实时联网的超级 AI,获取到的信息都是最新的。怪不得 OpenAI CEO Sam Altman 连忙剧透 o3-mini 使用额度,不过你这ChatGPT Plus 会员每天可查询 100 次,还是不如免费的 DeepSeek 来得震撼啊。免费、好用、更快的 AI 大模型,谁不想要呢?也难怪会在海外市场搅动风云。技术有哪些创新有别于「复制黏贴」,DeepSeek 从模型结构入手
DeepSeek 来自国内大模型公司深度求索,有别于绝大多数同行复制 Llama 架构的做法,DeepSeek 创始人梁文锋此前曾多次强调,DeepSeek 致力于开辟差异化技术路线,而非复制 OpenAI 的模式,DeepSeek 必须想出更有效的方法来训练其模型。根据 DeepSeek 公布的 DeepSeek-R1 信息显示,其在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。根据 DeepSeek 对外披露的信息可以发现,其在 MLA 多头潜在注意力机制和自研的 DeepSeekMOE 结构方面取得了重大进展,这两种技术设计通过减少训练计算资源,使 DeepSeek 模型更具成本效益,也提升了训练效率。来自加州伯克利大学在读博士 Jiayi Pan 的研究团队更是成功地以极低的成本(低于 30 美元)复现了 DeepSeek R1-Zero 的关键技术——「顿悟时刻」。“未来或许不需要超大规模的GPU集群了。”在 DeepSeek 的高性价比模型发布后,OpenAI 创始成员 Andrej Karpathy 表示。可以这么说,DeepSeek 的成功可以被视为对美国算力出口限制的直接回应,这种外部压力反而刺激了中国的创新:更少的算力需求,更高效的计算效率。硅谷AI霸权和神话的破灭除了自身的优秀保证站稳脚跟,真正让 DeepSeek 爆火的推力,可能还是来自同行的 Meta。前不久,美国匿名职场社区 teamblind 上,有 Meta 员工直言,DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌,前者低成本的训练工作,让后者难以解释自己超高预算的合理性。Meta 的工程师们正在争分夺秒地分析 DeepSeek 的技术,试图从中复制任何可能的技术。图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 出来表示,微软首席执行官萨蒂亚·纳德拉在瑞士达沃斯世界经济论坛上表示,看到 DeepSeek 的新模型令人印象非常深刻,他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高,必须非常、非常认真地对待中国的这些进展。Demis Hassabis 则表示,「我们需要考虑如何保持西方前沿模型的领先地位,我认为西方仍然领先,但可以肯定的是,中国具有极强的工程和规模化能力。」国际主流媒体也给予了 DeepSeek 不小的关注度。英媒《金融时报》刊文《深度求索等中国初创企业正在挑战全球AI巨头》,对于深度求索给予高度评价。文章称,该公司推出的 V3 模型震惊了国际科技界,其性能可与资金更雄厚的 OpenAI 等美国竞争对手相媲美;R1 模型给人留下了深刻印象,是其进军AI推理领域的尝试。中国AI已经超越美国?不过,现在就高呼中国 AI 已经超越美国还是有点早了。就个人使用体验来看,虽然 DeepSeek 在逻辑推理方面表现出色,但其功能缺乏是最大的问题,无法创作图片、无法生成 PPT,对于很多需要用到这类功能的人群来说还是比较难受的刘知远也公开表示,需要警惕舆论从极度悲观转向极度乐观,觉得我们已经全面超越、遥遥领先了,事实上远远没有,用一句话来形容的话:「在别人已经探索出的路上跟随快跑还是相对容易的,接下来如何在迷雾中开拓新路,才是更大的挑战。」要想要一直「火下去」,除了自身的实力,还有对自己品牌的认知,DeepSeek 最核心的优势还是得益于算法上的创新。DeepSeek 的 AI 届拼多多称号不是白给的,但卷价格的同时,DeepSeek 未来将要面临的压力和挑战不会少,未来的资金压力、后续的技术迭代,DeepSeek 还能取得怎样的成就,让我们拭目以待!