名不见经传的AI大模型DeepSeek,却为中国科技争了光

文摘   2024-12-28 17:35   四川  

DeepSeek是中国知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)自主研发的AI大模型,深度求索致力于研究和开发先进的通用人工智能模型AGI。目前DeepSeek的模型全部开源,包括通用大模型DeepSeek LLMMoE模型DeepSeek MoEDeepSeek V2DeepSeek-V3、代码模型DeepSeek CoderDeepSeek Coder V2、数学模型DeepSeek Math、多模态大模型DeepSeek-VLDeepSeek VL2等。幻方量化不仅为DeepSeek提供强大的资金支持,例如第一期研发投入预计就达30亿元,还为DeepSeek提供了 “萤火超算” 万卡级别的算力支持。

过去几天以来,低调上线的DeepSeek V3在国内外引起了不小的轰动。根据国外网友们的说法,尽管DeepSeek V3可以算是第一梯队AI大模型,却只用了2048H800 GPU显卡、2个月不到时间训练完毕,计算预算也只有不到600万美元;在性能方面几乎追上了Claude 3.5 Sonnet  GPT-4o,如编程、数学等;每百万Token的价格可以压到不到0.5美金,是用1/10的价格达到OpenAIAnthropic 同级的水平。

曾是OpenAI创始成员之一的AI科学家Andrej KarpathyDeepSeek-V3超低训练成本感到震惊。他的贴文写道:“”在资源受限的情况下,DeepSeek V3将成为研究与工程领域一次令人印象深刻的成果展示。”他表示,像DeepSeek V3这种级别的AI应该需要接近16000GPU组成的集群,而现在提出的集群更多的是要 100000GPU 左右。DeepSeek V3看起来似乎是比Llama 3 405B更强大的模型,但前者的计算量相比后者减少了11倍。

毫无疑问,DeepSeek值得深入研究,因为它是前沿模型中唯一一个没有庞大科技巨头资源的公司,在开源模型阵营中还打败了MetaLlamaDeepSeek的故事要从幻方说起。在量化投资领域,幻方是一个特立独行的存在——一家完全由本土班底起家的量化基金,在2021年就达到了千亿规模。

“我们做大模型,其实跟量化和金融都没有直接关系,”梁文锋解释道,“当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。”

坚守技术研究:为什么不做产品?

在中国7家大模型创业公司中,DeepSeek是唯一一家至今坚持不做toC应用的公司。这个选择让许多人感到不解,毕竟在当前阶段,快速商业化似乎是一个更务实的选择。

“因为我们觉得现在最重要的是参与到全球创新的浪潮里去,”梁文锋解释他们的核心目标,“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”

关于商业化时机的判断,梁文锋有着不同的看法:“我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。”他指出,很多人用互联网时代的商业逻辑来判断AI的发展,可能是一种刻舟求剑。”所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。”

专注基础研究的长期布局

DeepSeek的愿景中,“我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toBtoC的业务。”梁文锋表示,“如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。”

重新定义创新价值

面对外界质疑单纯技术领先难以形成绝对优势时,梁文锋直言:“我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的差距是原创和模仿之差。如果这个不改变,中国永远只能是追随者。”

“英伟达的领先,不只是一个公司的努力,而是整个西方技术小区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。”梁文锋强调,“很多国产芯片发展不起来,也是因为缺乏配套的技术社群,只有第二手消息,所以中国必然需要有人站到技术的前沿。”

一场意外的价格战

今年5月,DeepSeek发布了一款名为DeepSeek V2的开源模型,以惊人的性价比震惊业界:推理成本仅为每百万token 1元,约是GPT-4 Turbo的七十分之一。这个定价迅速引发行业连锁反应,字节、腾讯、百度、阿里等大厂相继跟进降价。

“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”DeepSeek创办人梁文锋表示,“没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不赔钱,也不赚取暴利。”

技术创新的逆行者

与其他选择快速商业化的公司不同,DeepSeek选择了一条与众不同的道路。“如果目标是做应用,那沿用Llama结构,短平快上产品也是合理选择。但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。”梁文锋解释道。

MLA到深层创新

DeepSeek对模型架构进行了全方位创新,提出了崭新的MLA架构(一种新的多头潜在注意力机制),将显存占用降到过去最常用的MHA架构的5%-13%。这种创新让他们在硅谷引起轰动,被SemiAnalysis首席分析师评价为“可能是今年最好的一篇论文”。

这项创新的诞生过程展现了DeepSeek独特的研发文化。最初的想法来自一位年轻研究员的个人兴趣,“在总结出Attention架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。”梁文锋回忆道,“不过从想法到落地,中间是一个漫长的过程。我们为此组了一个team,花了几个月时间才跑通。”

创新路径与挑战

DeepSeek,创新不是自上而下的任务分派,而是自下而上的自然生长。“每个人对于卡(运算资源)和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。”梁文锋解释了他们的运作方式。

但这条创新之路并非坦途。“短期内没有融资计划,”梁文锋表示,“我们面临的问题从来不是钱,而是高端芯片被禁运。”这反映了当前中国AI企业面临的共同挑战。

在人才层面,DeepSeek走出了一条不同的路。“很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司。”但梁文锋有不同看法,“V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”

未来的技术探索

DeepSeek目前在三个方向上进行重点突破:数学和程序代码能力、多模态处理,以及自然语言理解。“数学和程序代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统」,梁文锋解释他们的选择,“但同时,多模态、参与到人类的真实世界里学习,对AGI也是必要的。”

在创新战略上,DeepSeek选择了一条更具挑战性的路径。“很多国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见:美国更擅长从0-1的技术创新,而中国更擅长从1-10的应用创新。”梁文锋表示,“但我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。”

中国AI的差距在哪里?

谈到中国AI与国际的差距,梁文锋直言:“我们经常说中国AI和美国有一两年差距,但真实的差距是原创和模仿之差。”

他进一步解释:“中国最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗4倍算力。”

坚持开源的理念与实践

在大模型领域,开源与闭源的选择往往牵涉到企业的核心战略。不同于OpenAIMistral从开源转向闭源的路径,DeepSeek选择坚定地走在开源道路上。“我们不会闭源,”梁文锋明确表示,“我们认为先有一个强大的技术生态更重要。“

面对开源可能带来的技术外流风险,梁文锋有着自己的见解:“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。”

这种开源战略背后,是DeepSeekAI技术发展的长远思考。“开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。”梁文锋解释道。

在谈到未来的商业模式时,梁文锋描绘了一个专业分工的生态:“长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toBtoC的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。”

这种开源策略也为DeepSeek带来了意想不到的效果。在技术社群中,DeepSeek经常被用户自来水式传播。这种口碑的形成,某种程度上印证了开源文化的感染力。“未来的世界很可能是专业化分工的,”梁文锋强调,“基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。”

一群年轻的创新者

DeepSeek,创新往往来自年轻人的灵感。这次MLA架构的创新就源于一位年轻研究员的个人兴趣。“都是一些顶尖大学的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。”梁文锋说。

在管理上,DeepSeek采用完全自下而上的方式。“我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。”

AGI的展望

谈到AGI的实现时程,梁文锋表示:“可能是2年、5年或者10年,总之会在我们有生之年实现。”DeepSeek目前押注三个方向:数学和程序代码、多模态,以及自然语言本身。

“数学和程序代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对AGI也是必要的。我们对一切可能性都保持开放。”

(我为科技狂整理发布)

我为科技狂Tech
专注于科技资讯解析分享
 最新文章