国产AI模型DeepSeek R1震动美国科技界,创始人梁文峰成为英雄

文摘   2025-01-25 20:37   四川  

如果在AI大模型领域突然出现了一个足以挑战ChatGPT或者赶超ChatGPT的竞争者,而且这个竞争者还将先进/强大的AI(推理)模型开源;那么可能就会对ChatGPT的付费商业模式带来强烈的冲击——比如说,站在普通用户的角度来想,既然可以用更低的成本或者接近零成本使用到几乎同等强大的AI模型,那自然就没有理由花更多的钱使用ChatGPT(及其API)。OpenAIChatGPT因为有着全球领先的AI大模型如GPT-4oo1以及即将上线的o3等,在市场上占得了先机——目前,ChatGPT的月度活跃用户超过3亿,付费订阅用户超过1千万;同时可以很确定的是,OpenAI希望可以借助闭源AI模型在技术上领先的优势继续发展更多的付费用户。

被一些人称为“神秘东方力量”的DeepSeek,最近在AI领域里连续投下两个重磅炸弹,先是推出了DeepSeek V3模型,后又推出了DeepSeek R1推理模型。DeepSeek V3的表现几乎追上了Anthropic Claude 3.5 SonnetOpenAI GPT-4o,而DeepSeek R1的表现实在太过惊艳,已经可以与OpenAI的推理模型o1相提并论。网上也流传,DeepSeek 正在开发更强大的推理模型DeepSeek R2

有一个ChatGPT Pro付费用户@Leo Xiang就这样发帖说:“在Deepseek R1之前,OpenAIo1还是领先中国的大模型厂商一代,Deepseek R1出来之后已经不存在代际差了。OpenAI如何说服大家购买他的200美元/月的ChatGPT Pro?”随后,他又补充道:“我也用ChatGPT Pro,也体验了DeepSeek R1, ChatGPT o1目前还是最强的存在;DeepSeek系列模型的提升速度让人刮目相看,我会时不时地体验一下DeepSeek的模型,感受一下它的进步。”

根据外媒最新报道称,由对冲基金经理梁文峰创立的DeepSeek,在本周一发布了推理模型 DeepSeek R1,并且通过一篇论文做了详尽的阐述。美国公司如OpenAIGoogle DeepMind等在推理模型领域开辟了先河,这一相对较新的AI研究领域旨在让AI模型具备类似人类认知的能力。202412月,OpenAI才正式发布完整的o1推理模型。DeepSeek R1的发布引发了硅谷科技界关于美国AI公司(如MetaAnthropic等)能否保持技术领先地位的激烈讨论。与此同时,在中美高科技激烈竞争博弈的当下,梁文峰也成为了备受瞩目的民族英雄。

2021年,梁文峰在运营量化交易基金幻方的期间,开始购买数千块英伟达图形处理单元(GPU芯片)用于AI研发。业界当时认为这不过是亿万富翁的新兴趣爱好。“最初见到他时,他是个书呆子模样,发型很糟糕,总是谈论用1万块芯片搭建集群训练模型。我们当时没把他当回事,”一位商业伙伴回忆道,“他无法清晰描述自己的愿景,只是说:‘我要做这个,它会改变游戏规则。’我们认为只有像字节跳动、阿里巴巴这样的巨头才可能做到。”

然而,梁文峰在AI领域的“外行”身份反而成为了一种意外的优势。在幻方,他通过AI和算法分析影响股价的模式积累了财富。他的团队熟练使用英伟达芯片进行交易。2023年,他创立了DeepSeek,宣布进军类人智能研发。“梁文峰带领着一支对芯片工作原理有深入了解的优秀团队,”一家竞争公司创始人表示,“他从对冲基金将最优秀的人才带入了DeepSeek。”

在美国禁止英伟达向中国出口高尖端AI GPU芯片之后,中国AI公司被迫创新,以最大化利用有限的本土芯片计算能力,而梁文峰的团队早已掌握了解决之道。“DeepSeek的工程师们能够挖掘GPU的潜力,即使它们并非最新的型号,”一位接近公司的AI研究员表示。

正因为DeepSeek对研究的专注,让自己在全球AI领域成为了一个实力强劲的竞争者。DeepSeek倾向于分享技术上的突破,而非将AI用于谋取商业利益。迄今为止,DeepSeek没有接受外部融资,也没有大规模商业化AI模型。梁文峰自己曾说过:“我们面临的问题从来不是钱,而是高端芯片被禁运。”当然,他也说过这样的话:“我们只是按照自己的步调来做事,然后核算成本定价,我们的原则是不赔钱,也不赚取暴利。”DeepSeek所需的资金主要由幻方量化提供支持。幻方量化在2024年的投资回报率不尽如人意,据说是与梁文峰将大部分精力放在DeepSeek有关。

梁文峰将DeepSeek定位为一家纯粹“本土化”的公司,DeepSeek核心团队成员来自北京大学、清华大学和北京航空航天大学等中国顶尖名校,而非拥有海外背景的专家。他曾表示:“我们的核心团队没有海外归来的人才。他们都是本土的……我们必须自己培养顶尖人才。”在人才层面,DeepSeek确实走了一条不同的路——这种纯粹中国化的身份定位在国内赢得了广泛赞誉。

DeepSeek仅用了2048张英伟达H800 GPU芯片和560万美元训练出了一个拥有6710亿参数的模型。而OpenAIGoogle为训练出类似规模的模型,所投入的资源远远超过了这一水平。尽管DeepSeek在资源有限的情况之下获得了令人印象深刻的成果,然热业界人士仍认为,随着行业不断演变,DeepSeek未来在AI领域的竞争力尚待观察。与此同时,美国的竞争对手们并未止步不前。举例来说,OpenAI日前宣布了资金规模高达5000亿美元的“Stargate(星际之门)”计划——在美国AI基础设施领域投资;埃隆·马斯克的xAI也在扩展超级计算机Colossus,计划搭载超过100万块先进的GPU芯片,用于训练Grok AI模型;等等。“DeepSeek在中国拥有最大规模的高级计算集群之一,”梁文峰的商业伙伴称,“目前他们的计算能力尚足够,但这种优势不会持续太久。”

前面写道,OpenAI202412月才正式面向用户发布上线完整的o1推理模型。换言之,DeepSeek R1推理模型的发布也就只比o1完整版推理模型晚了大约一个月而已。在海外社交平台上,最近几天关于DeepSeek及其推理模型R1的讨论,热度颇高,相关的贴文、评论等有很多很多。有的外国网友戏谑:DeepSeek才是OpenAI(开源AI),OpenAIClosed AI(闭源AI)。

日前在匿名职场社区teamblind上,一位Meta公司员工发布的匿名贴子特别火——《Meta genai org in panic mode》,该贴子的中文意思是:

Meta的生成式AI团队陷入了恐慌状态。

这一切的开端是DeepSeek V3的推出,这让Llama 4在各项基准测试中全面落后。更让人雪上加霜的是,一家“未知的中国公司”用仅550万美元的预算完成了训练,直接打脸了现有的大型模型。

目前,工程师们正在疯狂拆解DeepSeek,试图复制其中的一切。我不是在夸张,事情就是这么紧迫。

管理层也在焦虑如何为生成式AI团队的高昂成本向高层交代。尤其是,当团队中每一位所谓的“领导者”拿到的薪水都远远超过了训练整个DeepSeek V3的成本,而这样的“领导者”团队却有数十人之多。

DeepSeek R1的出现让事情变得更加可怕。虽然有些信息还不能透露,但很快就会公开,到时候情况可能更加不利。

本来,这个团队应该是一个以工程为核心的小型组织,但因为一些人想借机刷存在感、抢占资源,人为地扩大了团队规模,结果反而让大家都成了输家。

就以今天的数据为例,在苹果App Store上的效率类应用排名榜上,在中国大陆地区,DeepSeek已经位居第2,直追第1名的豆包;在中国香港特区,DeepSeek位居第1,豆包降为第2名;在美国,DeepSeek排名第3,超过了第4名的谷歌Gemini,而第1名则是ChatGPT。在苹果App Store免费总榜排名上,在中国大陆地区,DeepSeek排名第24,豆包排名第2;在美国,DeepSeek排名第14ChatGPT排名第1可以这么说,DeepSeek在没有主动砸钱做营销推广的情况下,却在包括中国、美国等国内外地区开始“出圈”了。

我为科技狂Tech
专注于科技资讯解析分享
 最新文章