被雷军挖角的天才少女,来自这里

文化   2025-01-17 17:52   广东  

‍‍

作者 | 南风窗记者 朱秋雨

编辑 | 向由



2024年末,一个中国AI小厂,凭借过硬的技术,获得了全球铺天盖地的关注。


圣诞节过后,海外社交媒体以及技术论坛Github都在讨论一个最新发布的开源大模型,DeepSeek-V3。它被外国网友冠以名号——“来自东方的神秘力量”。


多个评测报告里,DeepSeek-V3在世界开源模型之中处在第一梯队,超过扎克伯格的LLaMa 3.1。拿它比GPT-4o以及Claude 3.5两个最顶尖大模型也毫不逊色,甚至,其在数学推理、代码生成和长文本处理等指标上,表现更强。


DeepSeek-V3 及其同类产品的基准性能比较


这还不是中国AI公司DeepSeek(中文名:深度求索)全部的“拿手好戏”。更让美国硅谷等同行摸不着头脑的是,DeepSeek公布的53页技术报告显示,其训练顶尖大模型只用了2048张H100的GPU集群,花费53天,共计耗费557.6万美元。有专业人员指出,同等水平之下,世界AI大厂至少要用1.6万张以上的GPU,有的甚至需要10万张GPU并行训练。


OpenAI早期成员安德烈·卡帕西感慨,DeepSeek-V3的出现意味着,今后也许不需要大型GPU集群来训练前沿的大语言模型了。Scale AI的华裔CEO亚历山大·王更感慨道,DeepSeek-V3带给美国最大的教训是,“当美国人休息时,中国正在努力工作,最终以更低的成本、更快的速度迎头赶上,变得更强”。


这一以低成本闻名的小团队颠覆了国外AI巨头发展的固定范式,是被外界认为最像(早期)OpenAI的开源机构。事实上,这家小厂位于杭州,创始人从浙江大学毕业,2015年创立了公司幻方量化,几年之间,成为中国少有的突破千亿规模的量化私募机构。


一家金融公司搞出了一个最有气质的AI大模型公司,本身已经令人称奇。与此同时,DeepSeek坚持技术开源,每次模型发布后,都会公布细节满满的技术报告。多年来,他们在AI大模型领域默默斩棘,不谈商业化,不发布新产品,对外保持低调。


“神秘的东方力量”,到底想做什么?




AI界拼多多,来了

2024年末,一则“雷军千万年薪挖角‘95后’AI天才少女”的热帖火遍全网。人们惊讶地发现,名为罗福莉的天才少女,此前供职于在公众面前寂寂无闻的AI公司——DeepSeek深度求索。


事实上,早在这之前,成立刚满一年的DeepSeek就已经在AI业内出了圈。半年多前,2024年5月,DeepSeek发布开源第二代MoE大模型DeepSeek-V2。这是它进入业界主流视野的标志事件。


在这个诚意到位的开源大模型中,DeepSeek-V2没有沿用国际主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行创新,采用MLA(Multi-head Latent Attention,多头潜在注意力)架构。


创新提高了计算效率,降低了AI运行的高昂成本。作为开源大模型,DeepSeek同时公布了使用其API的价目表:每百万tokens输入1元、输出2元(32K上下文)。作为对比,GPT-4 Turbo每百万tokens的输入、输出价格分别为72元、217元。


DeepSeek-V2与各大模型API价目表对比


“真正的国产之光出现了。”AI圈内人士惊喜地评价。从此,DeepSeek有了“AI界拼多多”的外号。


如此低的价格,令国内AI巨头纷纷降价。


谁也没能预料到的是,这个重塑业界生态的AI公司,背后是一家量化基金公司。“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”幻方量化实控人、DeepSeek创始人梁文锋在受访时解释。


这是深度求索在2024年第一次引发AI行业震动。OpenAI前政策主管、Anthropic联合创始人Jack Clark评价:“(DeepSeek)雇佣了一批高深莫测的奇才。”


主要操盘手梁文锋,来自广东五线城市,“80后”,毕业于浙江大学电子工程系人工智能方向。2015年,他成立了量化基金公司幻方量化,创始成员多来自浙大。他们共同坚信,利用AI进行风险对冲,计算机也可以像人类一样投资。


梁文锋曾为“量化投资之父”西蒙斯的传记作序。他写道:“每当在工作中遇到困难时,我都想起西蒙斯说的,‘一定有办法对价格建模’。”2018年,量化私募因高频交易策略在股市迅速崛起,幻方成为了中国“量化四大天王”之一,一度管理资金规模超过千亿。


对AI大模型的坚定部署,来自创始人对AI技术的相信,也源于现实业务的需要。2020年,幻方联合创始人徐进在知乎发招募帖,回顾了幻方AI的发展历程:早在2008年开始,幻方创始团队通过AI Lab招募全球顶尖人工智能专家,在经济金融领域开展研究。


随着数据量的爆发式增长,模型越来越庞大,传统的计算集群已经很难适应大型神经网络模型训练的需求。


2020年3月,幻方量化推出了超级计算机“萤火一号”,占地面积相当于一个篮球场,由一个存储集群和一个计算集群组成,并开出百万年薪招聘深度学习工程师。


萤火一号


一年后,2021年,幻方推出了“萤火二号”,投资增加到10亿元,搭载了约1万张英伟达显卡。这一大手笔的投入后来被外界认为,是幻方最有前瞻性的部署之一。


毕竟,仅仅一年后,2022年8月,美国宣布其停止向中国出口A100和H100两款芯片。成立于2023年的DeepSeek,成为了除字节跳动、商汤科技等大厂以外,少有的拥有万卡集群的中国公司。


与“高大上”的实力形成鲜明反差的是,幻方量化内部人员对南风窗透露,DeepSeek管理“非常扁平”,以技术人员为主。公司没有正式的公关人员,也没有对外“融过钱”。创始人梁文锋基本不接受采访,公司也没有对外公关的需求。


团队也秉承着小而美的设计。“原先幻方量化大概有两百人左右,(DeepSeek)其实财务、法务、行政都是幻方量化支持的,大模型团队算法工程团队有八九十人。”该内部人士介绍。



创新的秘诀

是时候看一看这个惊艳国内外的全新开源大模型了。


南风窗记者通过实测发现,DeepSeek-V3在数学、编程领域展示出较好的答题能力,打破过去人们对“AI不擅长数学”的印象。除了传统的文本对话,DeepSeek-V3有一个相比其他AI大模型更特别的功能——“深度思考”。意思是,在AI生成正式答案之前,DeepSeek-V3会展示机器进行推理、“思考”的过程。


深度思考功能上线


例如,对着DeepSeek-V3,记者输入了问题:“请给我影响人们工作积极性的分析框架,并提出面对职业倦怠的解决方案。”


DeepSeek在11秒间生成了答案的思考过程:“嗯。首先,我得想想工作积极性受哪些因素影响。可能有内部因素和外部因素吧。内部因素比如个人的兴趣、价值观、情绪状态等。外部因素包括工作环境、薪酬福利、晋升机会、同事关系、领导风格……”


这些“思考”颇具人类的思维过程。它继续生成道:“我记得马斯洛的需求层次理论,生理、安全、社交、尊重和自我实现需求,都可能影响工作积极性。还有赫兹伯格的双因素理论,区分了保健因素和激励因素。保健因素如工资、工作条件,如果不好会引起不满,但即使好也不会直接激励;激励因素如认可、责任、成长机会,这些才能真正提升工作积极性……”


经历这番“思考”后,DeepSeek-V3生成了八个方面的内容,供人参考。其中也不乏套话,也有些给人灵感的内容。比如,它写道:“‘生活不是我们活过的日子,而是我们记住的日子。’马尔克斯提醒着我们,生活的意义在于我们如何赋予它意义。工作亦是如此。”


涌现的智能不只是大参数暴力美学的体现,更重要的是,这是一个效率奇高、由众多前所未有的设计组合而成的超级工程。


DeepSeek-V3 多项评测优于其他模型


简单而言,DeepSeek实现降本增效,并没有提出前所未有的新技术,而是首次成功将各个技术,通过巧妙地设计与优化,完美地搭配并实现落地。这是一次来自工程层面的胜利。


用该团队自己的话来解释,帮助DeepSeek-V3实现降本的方法无非两个,一是算力需求降低,二是训练AI时间减少。


所谓算力需求降低,一个主要的办法是在训练模型时,对数据进行压缩。压缩之后,运算单元(GPU和CPU)进行运算的数据量就会减少,运算速率也会提升。为此,DeepSeek运用的一个主要办法是——MLA多层注意力架构。


简单的一个例子是,人们阅读一篇文章时,眼睛和大脑会自然地关注文章中的关键句和段落,忽略不那么重要的信息。多层注意力机制在AI中的作用也非常类似。在模型处理大量数据时,它能够更加有效地识别和处理关键信息和特征。一旦AI确定了关键特征,它就可以将特征压缩成一个更小的向量,从而节省运算需求。


除此之外,据腾讯科技报道,DeepSeek-V3还引入了一种名叫FP8混合精度训练的框架,并首次在超大模型上验证了其有效性。


所谓FP8,就是用8个二进制位来表示数字的格式,相比传统的32位(FP32)和16位(FP16)格式,精度低了很多,但是占用空间小,计算快。


FP8混合精度训练框架


而在节约计算时间上,DeepSeek也很有一手。DeepSeek-V3的预训练阶段仅需要266.4万个GPU小时。相较之下,LLaMa 3 405B的大模型预训练花费了共计3080万个GPU小时,大约是DeepSeek-V3的11倍。


这其中的一个创新在于,DeepSeek克服了传统GPU运算中的“计算气泡”。所谓气泡,是指GPU在流水线并行处理中,不同的神经网络层有不同的处理时间。当一个阶段完成其计算任务后,如果另一个阶段还在运算,没准备好接收数据,就会产生等待时间,即“气泡”。“计算气泡”会导致GPU资源的浪费。


而DeepSeek采用了DualPipe跨节点通信优化流水线流程,简单而言,便是通过双重流水线的并行设计,让多个计算任务同时进行,计算气泡大大减少。


DeepSeek一系列操作,仿佛一个本身成绩不错的尖子生,在一些无人在意但重要的细节上,追求极致,死磕到底。最终,经过全方位的小步提升,它的水平又上了一个新台阶,如同DeepSeek在官方微信号上的介绍:“不做中庸的事。”



技术理想主义者的追求

凭借硬实力,DeepSeek正吸引着全球的目光与关注。前英伟达机器学习专家Bojan Tunguz公开评价,DeepSeek让人可以看到,所有针对高端半导体的出口禁令,实际上可能以可以想象到的“最坏”方式产生了反效果。“它们似乎迫使中国研究人员变得比正常情况下更加聪明和资源高效。”


一位AI从业人员告诉南风窗,DeepSeek最惊人的是让AI业界认识到,大模型的Scaling Law(规模效应)不完全意味着烧钱堆资源,通过不算太复杂的优化之后,1/10的开销就能做出大模型。


“所以现在(多数AI大厂)训大语言模型(LLM)的资源利用率是很低的,优化一下,就有机会以相同的开销把规模再扩大10倍。”


小厂的实力,让Meta、谷歌、xAI等不缺资源、不缺显卡的超级大厂相形见绌。2024年,多家硅谷大厂都进入了AI算力的军备竞赛之中。


2024年10月,马斯克在田纳西州仅耗时19天,就建设了史上最大超级计算机厂,内部配备了10万块液冷英伟达芯片。而早在2024年3月,微软和OpenAI联合宣布,将建造一台名为“星门”的超级计算机,预计将使用数百万专用服务器芯片,总投资高达1000亿美元。


马斯克建设的全球最大AI超级计算机xAI Colossus数据中心


这些资金充足、“储备”同样充足的头部公司,在AI的进程上理应先人一步。而事实上,它们中许多陷入了表现为效率低下、内部混乱的“大公司病”之中。


扎克伯格的Meta是其中最典型的例证。2023年,Meta的首席技术官(CTO)约翰·卡马克辞任前,在公司的内部信中大篇幅地倾吐了对小扎管理的不满。他说,Meta效率低下,只有“5%的GPU利用率”;内斗严重,即便他“在这拥有最高等级的声音”,依旧力不从心。


相比之下,对于中国AI初创公司而言,资源匮乏已经是板上钉钉。在有限的GPU和芯片集群中,他们中很多只能将资源与研究重心,放在第一重要的事情上。


只是,不同于多数中国公司强调商业化、做爆款产品,DeepSeek创始人梁文锋在接受“暗涌wave”采访时说:“我们觉得现在最重要的是,参与到全球创新的浪潮里去。”


他强调,团队希望实现的是一种原始性创新。


“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”梁文锋说。


这个保持低调和神秘的创新团队,鲜少对外发声,只在开源大模型公布时,发布了技术细节报告和人才招揽帖。但创始人梁文锋透露,在DeepSeek团队里,“并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人”。团队没有海外回来的人,员工都是本土的人才。


DeepSeek团队95后核心研究员罗福莉


而据科技媒体《量子位》爆料,DeepSeek的员工很多都是毕业于清华北大的应届生,“最大的特点是年轻”。


“大部分中国公司习惯follow,而不是创新。中国创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才。前50名顶尖人才可能不在中国,但也许,我们能自己打造这样的人。”他说。


年轻的团队将如何实现AGI梦想?这一次,是中国小厂开始让人期待了。


欢迎购买南风窗2025年第2期

《世界脱序》👇


点击图片 即刻购买(广告)



-END-



值班主编 | 吴擎

排版 | 阿车





点击图片 即刻报名(广告)





南风窗原创短视频·

  小羊快评  



南风窗新媒体 出品

未经授权 禁止转载

欢迎分享至 朋友圈


投稿、投简历:newmedia@nfcmag.com

广告、商务合作:

 Wang838645293


2025年「来」日历
点击图片,把「来」带回家(广告)


南风窗
冷静地思考,热情地生活。
 最新文章