服务器崩了,一夜出圈!来自中国的AI“神器”刷屏硅谷

财富   2025-01-26 20:19   北京  

本报记者 金婉霞

每一次,关于AI大模型的迭代进展都能牵动市场神经;这一次,是中国企业“技惊四座”。

1月26日,有网友表示,DeepSeek崩了,提示服务器繁忙。随后,DeepSeek回应称,确实出现了局部服务波动,但问题在数分钟内得到解决;DeepSeek同时表示,此次事件可能与新模型发布后的访问量激增有关。另据记者观察,截至1月16日16时30分,DeepSeek在苹果应用商店免费榜排行的下载排名已至第四位,仅次于字节跳动旗下的AI助手豆包。

怎么回事?一夜之间,“名不见经传”的DeepSeek就“霸屏”了?

这与一款大模型有关。

公开资料显示,DeepSeek的开发者为杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”),该公司成立于2023年7月份。企业官方微信公众号信息显示,今年1月20日,深度求索正式发布DeepSeek-R1大模型,并同步开源模型权重。“DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。”深度求索在发布信息中表示。

DeepSeek-R1发布后,首先点燃了海外市场热情。

在美国硅谷,多位人工智能行业意见领袖对DeepSeek-R1表达由衷赞美。微软CEO萨蒂亚・纳德拉公开表示:“他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高。”曾投资过OpenAI的投资人马克·安德里森在社交平台表示,DeepSeek-R1是我见过的最令人惊叹,最令人印象深刻的突破之一,并且是开源的,是对全世界的大礼。

在欧洲,DeepSeek-R1也是好评不断。英国人工智能咨询公司DAIR.AI的联合创始人兼人工智能研究员埃尔维斯·萨拉维亚在社交平台评价DeepSeek-R1表示,“这太疯狂了,完全出乎意料”。德国埃尔兰根马克斯普朗克光科学研究所人工智能科学家实验室负责人马里奥·克伦表示:“DeepSeek-R1的开放性非常了不起。”

从各类观点来看,DeepSeek-R1“出圈”的核心秘笈在于技术实力。

2024年12月底,DeepSeek曾推出了一个免费的开源大型语言模型,据称,该模型的开发仅用了两个月的时间,花费不到600万美元就构建完成,且仅使用了英伟达的低性能芯片H800s——而眼下,大多数大模型的迭代依赖于先进算力,成本巨大。此次,新推出的DeepSeek-R1在性能上更比肩OpenAI o1正式版,在第三方大模型测评中,DeepSeek-R1在风格控制类模型这一评价指标上与OpenAI o1的并列第一。

一位Meta的工程师在行业社区论坛中这样写道,“Meta的生成式AI部门正处于恐慌中。这一切始于DeepSeek:那个不知名的中国公司,仅有550万美元的训练预算。工程师们正在疯狂地剖析DeepSeek,并试图从中复制一切可能的东西。”

深度求索在官方微信号中这样介绍自己:投身于探索AGI(记者注:通用人工智能)的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题。

图片 | 站酷海洛

制作 | 郭之宸

审核 | 王丽新

编辑 | 才山丹

终审 | 彭春来


证券日报之声
《证券日报》是经济日报社主管主办的综合性证券专业报纸,是证券市场信息披露媒体。
 最新文章