“东方神秘力量”,海外刷屏!刚刚,服务器短暂崩了

财富   2025-01-26 16:00   广东  

DeepSeek,又一次在海外掀起巨浪。

自DeepSeek在1月20日发布新模型DeepSeek-R1并同步开源模型权重后,这家来自中国的AI创业公司引发了全球AI科技圈的关注。同时,最近包括纽约时报、经济学人、华尔街日报等在内的多家英美主流媒体都报道了DeepSeek的研究进展,高度赞扬其模型的强大性能。其中,CNBC发文称:“DeepSeek-R1因其性能超越美国顶尖同类模型,且成本更低,算力消耗更少,引发了硅谷的恐慌。”

值得注意的是,英伟达的竞争对手、知名半导体公司超微半导体(AMD)昨日发布消息称,已将DeepSeek-V3模型集成到AMD的芯片产品Instinct MI300X GPU上,该模型旨在与SGLang一起实现最佳性能。DeepSeek-V3针对Al推理进行了优化。业内人士分析称,AMD作为全球领先的芯片厂商,通过与DeepSeek合作将为AI推理带来新的想象空间,也有望动摇“英伟达+OpenAI”联合主导的行业格局,改变既有的游戏规则。

在去年底DeepSeek-V3发布后,业内就掀起了关于 DeepSeek打破算力需求“怪圈”的讨论。在最近两天DeepSeek-R1引发海外广泛讨论后,1月24日英伟达股价又大跌3.12%。

值得一提的是,1月26日,有网友反映,DeepSeek崩了,提示服务器繁忙。14时56分,证券时报记者实测发现,已可以正常使用。

记者实测页面

据媒体消息,DeepSeek回应称,今天下午(1月26日)DeepSeek确实出现了局部服务波动,但问题在数分钟内得到解决。此次事件可能与新模型发布后的访问量激增有关,而官方状态页未将其标记为事故。

DeepSeek让硅谷巨头不淡定了

据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。

这一模型发布后,引发了海外AI圈众多科技大佬的讨论。例如,英伟达高级研究科学家Jim Fan就在个人社交平台上公开发表推文表示:“我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。”

在近日举办的2025年达沃斯论坛上,AI初创公司Scale AI创始人Alexandr Wang公开评论DeepSeek的新模型,表示“DeepSeek新模型的表现令人印象深刻,尤其是在模型推理效率方面。我们必须认真对待来自中国的这些发展”。他还同时直言,DeepSeek的AI大模型性能大致与美国最好的模型相当。另外一家知名AI创业公司、被称为谷歌杀手的Perplexity首席执行官Aravind Srinivas甚至直接评论称:“DeepSeek才配叫做OpenAI。”

DeepSeek这个AI黑马,在去年底发布DeepSeek-V3时就吸引了硅谷的目光,并因其低调的作风被称为“来自东方的神秘力量”。新模型发布后,硅谷巨头陷入了既兴奋又紧张的状态。一则来自Meta员工在匿名社区Teamblind的爆料称:“Meta的生成式人工智能团队正陷入恐慌。”帖子进一步爆料说,目前Meta工程师们正在疯狂拆解DeepSeek,试图复制其中的一切。“我不是在夸张,事情就是这么紧迫”。

同时,由于DeepSeek擅长“小成本办大事”,通过采用创新架构和优化算法实现具有更高经济性的训练效果和更高效的推理。DeepSeek-V3的总训练成本仅为550万美元左右,是Llama-3405B超6000万美元训练成本的十分之一不到。该爆料帖还说,Meta管理层正面临严峻的财务压力,该生成式AI部门数十位高管,“每个人的年薪都超过了DeepSeek-V3的全部训练费用。如何向公司高层解释这种投入产出比,已成为他们的噩梦”。

不仅硅谷巨头深受震动,英美多家主流媒体也聚焦DeepSeek展开了专门的报道。比如,英媒经济学人指出,“目前训练一个美国大语言模型要花费数千万美元,而DeepSeek的支出不到600万美元。这种廉价训练正随着模型设计的发展改变整个行业,这可能导致更多针对特定用途的专业模型涌现,打破赢家通吃的市场格局。”

金融时报也发布了题为“中国一家小小的AI创业公司如何让硅谷感到震惊”的文章。文章中说道,“R1模型的发布在硅谷引发一场激烈辩论,主题是包括Meta和Anthropic在内资源更雄厚的美国人工智能企业能否守住技术优势”“DeepSeek没有从外部基金筹集资金,也没有采取重大举措将其模型商业化。DeepSeek的运作方式就像早期的DeepMind,专注于研究和工程”。

股民也焦虑:DeepSeek利空英伟达?

在Mera员工爆料的匿名社区Teamblind上,证券时报记者发现已有多个帖子在讨论DeepSeek,除了模型成本与性能等方面的技术讨论,还有股民发起了题为“英伟达是否应该为DeepSeek感到担忧”的投票。帖子还给了一些“前情提要”,提示DeepSeek仅用不到600万美元在性能没那么强的GPU上训出了V3模型,效果直逼Meta的开源模型Llama,而且最新发布的R1模型足以媲美OpenAI的o1模型。

事实上,自去年底DeepSeek发布V3模型后,业界就关注到,DeepSeek的成功,背后的更大意义在于可以通过软件优化,在有限的硬件资源下实现顶尖的模型性能,减少对高端GPU的依赖。有观点认为,DeepSeek-V3极低的训练成本预示着AI大模型对算力投入的需求将大幅下降,这无疑将利空全球AI算力的核心供应商英伟达。

据证券时报记者了解,大模型主要分为训练和推理两个阶段,训练是指用大量数据训练大模型,通常需要极高的计算能力和存储资源;推理是指将训练好的模型应用于实际任务(如提问并生成文本、识别图片与视频等)。这二者采用的是不同的芯片,过去两年各大厂商都在加紧训练大模型,算力主要体现在训练阶段,而其中模型训练是英伟达GPU的优势所在。但随着模型基本训练成型及AI应用的爆发,算力的增长或将更侧重于推理侧。

同时,DeepSeek不仅将模型训练成本大幅降低,而且发布的新模型R1也同步开源模型权重,公开了完整训练细节,挑战了闭源系统的优势。随着DeepSeek将AI大模型技术及使用门槛降低,有市场人士担忧,DeepSeekR1的崛起可能会削弱市场对英伟达AI芯片需求的预期,对英伟达的市场地位和战略布局产生影响。

不过也有观点认为,DeepSeek只计算了预训练的算力消耗,但数据配比、合成数据的生成和清洗等方面也需要消耗大量算力。同时,训练成本的降低未必意味着算力需求下降,只代表模型厂商可以使用性价比更高的方式去做模型极限能力的探索。中信证券研报也指出,DeepSeek-V3意味着AI大模型的应用将逐步走向普惠,助力AI应用广泛落地,同时训练效率大幅提升亦将助力推理算力需求高增。

责编:李丹

校对:王锦程







版权声明



证券时报各平台所有原创内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关为主体法律责任的权利。




转载与合作可联系证券时报小助理,微信ID:SecuritiesTimes

END

点击关键字可查看

潜望系列深度报道丨股事会专栏投资小红书e公司调查时报会客厅十大明星私募访谈特朗普最新!或在30天内决定TikTok未来实探丨上海这一地标今起闭园改造!预计2027年重启,或引进哈利波特主题乐园刘强东现身!7亿元补贴春节在岗一线员工雷军最新确认!小米SU7交付量破15万辆!微信“蓝包”来了,新功能!马化腾表态中美重磅!王毅同美国国务卿鲁比奥通电话出手了!三大车企,起诉欧盟!今日,爆发!批量涨停

证券时报
《证券时报》是人民日报社主管主办的全国性财经类日报,是证券市场信息披露媒体。
 最新文章