免费好用、“掀翻”美股、特朗普发声……突然爆火的“神秘东方力量”到底是啥?

时事   2025-01-28 14:31   北京  

一场名为“DeepSeek”(深度求索)的风暴,正在席卷全球。

设计方案by deepseek(AI制图)

当地时间1月27日,美国三大股指开盘即暴跌,英伟达、微软、谷歌母公司Alphabet、Meta等美国主要科技股均遭遇股市地震。其中英伟达跌近17%,单日市值蒸发约6000亿美元,创美股最高纪录。这一切,要从成立了仅一年多的中国人工智能初创公司深度求索(DeepSeek)说起。“掀翻”美股、登顶免费应用下载榜首,DeepSeek何以让硅谷和华尔街巨头“睡不着觉”?

“神秘的东方力量”

近日,国产AI DeepSeek在中国、美国的科技圈受到广泛关注,甚至被认为是大模型行业的最大“黑马”。在外网,DeepSeek被不少人称为“神秘的东方力量”。

1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。

苹果美国区应用商店

苹果APP Store中国区免费榜

1月27日,话题“DeepSeek”冲上热搜第一,其他相关话题也刷屏热搜。

游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥评价DeepSeek↓↓↓

DeepSeek是什么?

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。

2024年12月,DeepSeek-V3发布后,AI数据服务公司Scale AI创始人Alexander Wang发贴称,DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”

今年1月20日,DeepSeek正式开源R1推理模型。

据DeepSeek介绍,最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。

这一模型发布后,引发了海外AI圈众多科技大佬的讨论。英伟达高级研究科学家Jim Fan在个人社交平台上发文表示:“我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。”

好用、免费、训练成本低

DeepSeek有多好用?一位用户表示,以往的AI大模型都是只给出结果,但是DeepSeek会给出其思考和过程,更加可信,“不论是让它写一段代码,还是进行数学运算,它会首先给出它的推理过程。比如需要先算什么,这步的步骤是什么,再算什么,这步的式子怎么列,答案是什么……这让推理逻辑变得十分清晰、有迹可循,我们也更加敢于信任AI”。

此外,它的中文表达能力十分惊喜,可以模仿许多作家的口吻来表达,“用古龙体写小说,甚至用二次元体,都可以写得很溜。以往的AI写作,看起来写得也不错,但是要么是没有感情,堆砌词藻,要么是文体别扭,缺乏灵魂。DeepSeek则细节满满。”

最重要的是,它完全免费,“能力差不多的ChatGPT,宣称免费,但实际上每月需要花费200美元才能完全使用!”用户表示。

除了体验更好,对于资本市场来说,DeepSeek更大的惊喜来自于它的推理成本大幅降低。有数据显示,最新版的推理大模型DeepSeek-R1,输入token定价为0.55美元/百万(OpenAI为15美元/百万),输出token为2.19美元/百万(OpenAI为60美元/百万),成本降低超90%。而此前DeepSeek-V3仅用550万元研发成本、2000张显卡打造,却达到与Llama 3 405B相媲美的性能,而OpenAI为了实现这一目标,花费了数亿美元。

为何可以做到这样的低成本训练?据介绍,DeepSeek通过创新架构,节省了大量的显存,进而实现底层算力的高效利用,以更低的成本训练出更加出色的模型效果;同时,研发团队证明,多Token预测目标有利于提高模型性能,可以用于推理加速的推测解码。此外,DeepSeek V3引入了一种创新方法,将推理能力从长思维链模型,蒸馏到标准模型上,在显著提高推理性能的同时,可以进行长度控制。

“DeepSeek颠覆了之前大模型公司‘堆卡’的比拼。实际上近期一些大模型公司已经没有特别大的技术创新了,模型的能力提升来自于不断堆卡、堆卡,这只利好英伟达,可以说挖矿的人没有赚到钱,卖铲子的盆满钵满……而DeepSeek击碎了模型性能与GPU数量成正比的估值模式,对整个大模型系统是一次价值重估”,一位分析人士表示。

面壁智能首席科学家刘知远在朋友圈发文称,“DeepSeek最近出圈,特别好地证明了我们的竞争优势所在,就是通过有限资源的极致高效利用,实现以少胜多。2024年很多人来问我,中国跟美国的AI差距是扩大了还是缩小了,我说明显缩小了,但能感受到大部分人还不太信服,现在DeepSeek等用实例让大家看到了这点,非常赞。”

团队只有100多人,来自国内顶尖高校

对于DeepSeek爆火,85后创始人梁文锋回应:中国AI不可能永远跟随。

DeepSeek是杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月。公司由知名量化资管巨头幻方量化创立。公司创始人梁文锋,本科、研究生毕业于浙江大学,拥有信息与电子工程学系本科和硕士学位。2008年起,他开始带领团队使用机器学习等技术探索全自动量化交易。2023年,进军通用人工智能领域。

公开信息显示,该团队“小而精”,只有100多人,与之相比,OpenAI有1200名研究人员。公司的工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,年纪也多在35岁以下。梁文锋曾表示,“招聘看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。”

值得注意的是,目前该公司从未对外融资。“我们跟了这家公司一年多了,一直想要进入,但是对方根本没有融资诉求”,国内一家大型资本机构负责人告诉北青报记者,“他们公司此前是做量化的,资金实力雄厚。”梁文锋也曾公开表示,“短期内没有融资计划”,并认为当下面临的问题“从来不是钱,而是高端芯片(短缺)”。

在被称为“神秘的东方力量”的DeepSeek火了之后,据称,Meta内部甚至成立了专门的研究小组,试图剖析DeepSeek的技术细节,以改进其Llama系列模型,并且新年计划中预算4000亿起步投资AI,年底AI算力将达130万卡。OpenAI也紧急透露新模型o3-mini即将免费上线ChatGPT的消息。

业内人士表示,关于AI大模型竞争仍然激烈,AI应用的创新和提升空间仍然很大,尤其是在面临算力限制的现实情况下,未来国内外的大模型市场格局还将不断变化与重塑。

特朗普:DeepSeek给美国产业敲响警钟

当地时间1月27日晚,美国总统特朗普在佛罗里达州迈阿密发表讲话时,对中国人工智能初创公司深度求索(DeepSeek)搅动纳斯达克一事表示,DeepSeek的出现“给美国相关产业敲响了警钟”,美国“需要集中精力赢得竞争”。

特朗普同时表示,他认为,DeepSeek的模型高效且经济,其出现是一种积极的发展。

DeepSeek了吗?

文 | 北京青年报记者 温婧

综合央视新闻  中国新闻网  都市快报

编辑 | 杜小溪
监制 | 王子轩
更多内容↓↓↓
中印同意恢复中国内地和印度间直航航班
春节前,他们成为总理的“座上宾”
“蛇”我其谁!拜年表情包来啦,你一定用得上!

北京青年报
来自腾讯微博认证资料:《北京青年报》创刊于1949年3月,是北京地区最受欢迎的都市类报纸。 @北京青年报
 最新文章