这匹中国大模型黑马,让扎克伯格破防了!

百科   2025-01-19 11:30   江苏  

DeepSeek用实例给风投们上了一课,不用高薪聘请拥有浮夸头衔的资深从业者,以免费的AI开源项目为基础,利用有限资源同样能够做出一流的AI大模型。


撰文丨周隆斌

1月13日,美国拜登政府在卸任前最后一周出台了《人工智能扩散暂行最终规则》。


这份规则将全球各国和地区划分为3个等级,在获取美国最先进的AI芯片时,分别接受不同级别的限制。让人非常不希望看到的是,中国被划分进了最严格的三级管控,数据中心将被全面禁止进口尖端AI芯片。


这项规则是否施行,将在120天的公众意见征询期后再行商讨。不过,显而易见的是,美国政府试图通过行政手段干扰全球芯片和AI行业正常发展。

AI技术中蕴藏着无限潜力已经被广泛证实,尖端AI芯片更是训练模型时必不可少的基础。在获取算力资源难度加大的背景下,国内AI行业的出路究竟在何方?


近期,被称作“AI界拼多多”的国产AI大模型——DeepSeek(深度求索),用有限的算力资源,给出了一个解决方案。



01


有起错的名字,没有叫错的绰号。去年底刚刚发布的DeepSeek-V3开源AI大模型,以史无前例的性价比,刷新了全球AI行业的认知。


先来看看这个AI大模型的性能,DeepSeek在自家公众号中这么介绍V3模型:


DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。


简单来讲就是,DeepSeek-V3已经成为现在全球最强开源大模型,可以与头部闭源大模型掰掰手腕。从测评结果上看,DeepSeek好像并没有吹牛,在百科知识、代码生成等场景中,DeepSeek-V3确实取得了第一梯队的成绩。


▲DeepSeek-V3评测成绩(图/“DeepSeek”公众号)


不过,行业内的评测是一份公开试卷,完全可以有针对性地对模型进行训练。就像电脑的跑分测试,未必就那么客观。在实际使用体验上,DeepSeek-V3的数学和编程能力确实非常强,这也是评测的重点方向。不过,它在一些特殊语境或者创造性思维方面还是差点意思。


例如,向DeepSeek-V3询问,香菇掉到了马桶中,那它还能被称作香菇吗?它只会一本正经地给出回答,GPT-4o则是先点明这是一句幽默的提问,再进行回答。


对于将AI大模型当作搜索引擎的我来说,DeepSeek-V3是合格的。尽管在一些总结归纳上与GPT-4o略有差距,考虑到后者的使用限制,我还是愿意将免费的DeepSeek列为首选AI工具。


令人想不到的是,DeepSeek-V3整个模型的预训练成本花费为557.6万美元,仅需GPT-4o的二十分之一。“低廉”的成本给了DeepSeek砸穿行业底价的勇气,开发者调用DeepSeek-V3的支出只要GPT-4o的十分之一,性价比爆棚。


更加难能可贵的是,DeepSeek-V3在训练时使用的GPU是英伟达的H800,一款在性能上被阉割的特供AI芯片。OpenAI手握上万块英伟达一流的AI芯片,愿意为其融资的投资者络绎不绝,成本从来都不是他们考虑的第一要素。


后来者大部分以OpenAI为标杆,AI大模型只有砸钱、砸算力才能做出来的观念在行业中深入人心。正因如此,花小钱办大事的DeepSeek才让一众硅谷大佬们惊呼这是“来自东方的神秘力量”。


图/网络


扎克伯格在谈到DeepSeek时,罕见地表示:“他们的技术真的很不错,这个模型非常先进。(在AI大模型领域)中国正在全力冲刺,我们当然该支持美国的公司。实际上,这是一场差距很小的竞争。”



02


早在去年5月,DeepSeek发布DeepSeek-V2模型时,超低的价格就引起了AI大模型降价的血雨腥风。彼时DeepSeek尚未推出面向消费者的应用,大众知名度远没有现在这么高。


直到去年12月26日,DeepSeek-V3推出网页版后一夜爆火,月度访问量迅速突破千万。与大模型一同发布的,还有一篇53页的论文,详细介绍了DeepSeek-V3模型的技术细节,将如何用有限资源进行模型优化的策略全部公之于众。


DeepSeek采用的主要技术总结下来有三点,创新的模型架构、高效的训练技术以及优化资源利用。我认为,其中MLA(多头潜在注意力机制)架构最值得称道。DeepSeek将用户任务分解为多个子任务,由不同的专家模型分别处理,再将各专家模型的结果汇总输出结果。


这就意味着,大模型在接到用户需求时,不用调动全部资源进行处理。提升模型运行效率的同时,显著降低了运行成本,有种“专人专办”的感觉。


如果仔细研究DeepSeek的解决方案,会发现DeepSeek更多是在进行“工程创新”。它虽然没有创造出一套全新的技术,却改进了业内原有的模型训练方式。


有人认为业内对于DeepSeek的评价有些过高,它只是对原有技术进行了优化。这样的看法显然过度关注技术层面,而忽略了AI行业无限光明前景的背后,是有些阴暗的现实。


过去一年中,全球科技公司几乎都铆足了劲在AI项目上发力,全球AI初创公司如雨后春笋般冒出,“用AI重塑所有行业”的口号喊得震天响。然而,摆在所有企业面前的窘境是,AI商业化路径并没有被完全打通。


对于传统企业而言,如果需要AI大模型为业务赋能,选择开源模型进行微调,定制专属大模型试错成本更低。广大消费者为AI功能付费的意愿也不高,大部分用户都是“白嫖党”,尚且属于培养用户习惯的阶段。


就连作为AI行业的领军企业OpenAI至今都尚未实现盈利,很大一部分原因在于尖端AI模型的训练耗资惊人,运行成本也十分高昂。据测算,仅维持ChatGPT的运营,每天成本就高达70万美元。OpenAI首席执行官山姆·奥特曼则表示,未来的AI模型成本预计将超过10亿美元。


《纽约时报》获得的融资文件显示,OpenAI 2024年预计收入达到37亿美元,但预计亏损也将达到50亿美元,而2026年亏损可能会高达140亿美元,这一估算还不包括给员工的股票激励兑现。


可以说,高度依赖融资的OpenAI在破产的边缘反复摇摆。如果明天投资界厌倦了看不到盈利希望的AI行业,OpenAI仅凭自身的造血能力,恐怕难以为继,其他AI初创企业更是如此。


这样的担忧并非空穴来风,知名数据分析机构 CB Insights 发布的《2024年第三季度全球人工智能投融资报告》显示,2024年第三季度生成式AI领域的投资额环比下降了29%,10亿美元以上的大额融资量环比下降77%。


任何生意的核心都是成本与收入的平衡,DeepSeek为AI行业提供了一种崭新的思路,既然收入端暂时难以大规模提升,不妨先从成本端发力。或许DeepSeek在技术上没有多么惊天动地的创新,却让国内AI行业看到了一丝在夹缝中生存的可能性,也为全球AI行业长久存续提供了新范式。


DeepSeek的成功离不开前辈们技术开源的支持,DeepSeek也愿意将自己的成果以开源的方式反哺整个行业。在通往AGI(通用人工智能)的漫漫石阶中,DeepSeek刻下了属于自己的名字。



03


降低成本这件事并不是什么精妙的点子,更是中国企业最擅长的事情。为什么从百度、腾讯、阿里这些互联网大厂,到月之暗面、智谱AI、零一万物等号称中国大模型领域“六小虎”的创业公司,没有一家能够提早想到呢?


如果深入了解DeepSeek这家公司后,就会发现这绝非偶然。


DeepSeek在V3模型发布前相当低调,模型发布后也没有如国内同行一样,铺天盖地地打广告,知名度更多来自于用户们口口相传。但如果说到它的全资母公司幻方量化,股民朋友们肯定十分熟悉。


幻方量化,迄今为止国内唯一规模曾经超过千亿元大关的量化私募。根据私募排排网数据显示,幻方量化的代表产品九章幻方中证500量化多策略1号,从2017年1月19日成立至今(2025年1月10日),累计收益率超过300%,年化收益率达到19%,与巴菲特年化收益率的20%十分相近。


ChatGPT 3.5问世时,业内测算想要做出这种级别的大模型,至少需要1万张英伟达A100芯片。彼时全球算力竞赛尚未正式开启,国内拥有万卡算力的公司,满打满算也就6家,百度、腾讯、字节、阿里、商汤,还有一位手握入场券的正是幻方量化。


DeepSeek由幻方量化创始人梁文峰一手创办,虽然公司成立时间是在2023年7月,但DeepSeek项目在幻方内部已经孵化很久。


2021年幻方量化私募规模破千亿元时,梁文峰选择主动降低管理规模,暂停旗下所有产品的申购,并免除所有基金的赎回费用。目前,幻方量化的管理规模已降至200亿-300亿元。


彼时外界几乎没有任何人能理解梁文峰的决定。主动降低管理规模固然有行业监管趋严、市场风险等客观因素,但很少有私募基金会和送上门的钱过不去。以幻方量化当时的体量和名气,不说业绩提成,单是管理费每年都能躺赚数十亿元。



现在看来,或许梁文峰早就看到了AI技术爆发的曙光。梁文峰在接受采访时提到:“我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。中国也要逐步成为贡献者,而不是一直搭便车。”



04


DeepSeek这家公司的企业文化也十分独特。其他国内科技企业习惯重金聘请行业大佬,DeepSeek的团队则十分年轻化。


据梁文峰自己透露:“我们的核心技术岗位,基本以应届和毕业一两年的人为主。”就连公司的管理层,也都是一些毕业5年左右的年轻人。当然,这些年轻人没有很深厚的工作背景,却也都是国内一流院校的天之骄子。


DeepSeek内部采用扁平化管理模式,每一位员工的想法都会得到充分尊重。只要有新点子,不论职级,在经过内部讨论后,都可以调动公司资源进行项目研究。DeepSeek-V3的MLA架构,最初正是由一位年轻研究员的个人兴趣所诞生。


除此之外,背靠幻方的DeepSeek是业内罕见的不依靠外部融资生存的初创公司。没有投资人给的压力,商业化自然也不是DeepSeek的首要任务。所以直到V3模型之前,DeepSeek都没有选择上线面向大众的产品。或许是巧合,OpenAI的ChatGPT也是迭代到3.5版本,才选择公之于众。


成员年轻化,组织结构扁平化,不以商业化为首要目标,这一切组合在一起,使得DeepSeek在行业中显得格格不入。梁文峰主动跳出私募行业的舒适圈,带领一群压根没有找到自己舒适圈的年轻员工,开辟出了一条未曾设想的道路。


有人说,DeepSeek闪亮登场,用少量算力资源训练出超强大模型,英伟达慌了,芯片要卖不动了。然而,DeepSeek提供的是一种现有大模型训练的优化方案,要想达成AGI光凭现有技术肯定是不够的,下一代大模型还是要仰仗算力堆砌。


真正应该慌的,是那些AI初创企业们。


正如小米造车前,雷军计划5年投入1000亿元。没想到研发、建厂、营销一系列开支下来,仅花费300亿元,第一款车型小米SU7就火爆全国。国内投资圈这才明白过来,那些砸进去大几百亿连年亏损,毛利率转正都难的造车新势力们有多无能。


DeepSeek同样用实例给风投们上了一课,不用高薪聘请拥有浮夸头衔的资深从业者,以免费的AI开源项目为基础,利用有限资源同样能够做出一流的AI大模型。


没有对比就没有伤害,其余AI初创公司的精美PPT中,究竟有多少是高管给投资人画的大饼,无数轮募资中拿到的钱是不是用在了刀把上?DeepSeek论文发布后,不知道有多少AI初创公司的高管正在连夜开会,琢磨新的说辞。



在中美AI竞赛中,DeepSeek以业界黑马的形象出现,给硅谷带来了一点小小的中国震撼。作为一家以量化交易起家的中国公司,DeepSeek并不被视为技术引领者,但他在有限的算力资源条件下,却依然能够做出令整个AI行业为之侧目的技术创新。


这也让世人看到,在这场前途未卜的AI大竞赛当中,中国公司仍然有很大机会,结合自身优势,在先进AI领域拥有自己的话语权,进而迸发出改变世界的力量。


*本文为冰川思想库原创文章,未经授权禁止转载,否则追究相关法律责任


*本版编辑:冰小乐

*投稿邮箱:bcsxk2016@163.com

*商务微信:lhellohm


【往期精选】






汇聚思想 分享锐见


中国传媒榜·十大新媒体
微博·最佳深度报道媒体
今日头条·财经头条号百强
凤凰网评论·年度致敬媒体
网易号·年度最佳签约作者
凤凰一点号·年度深度报道榜
新浪财经·深度思想财经新媒体
虎嗅2020年十大年度作者·实力榜
百家号·最受欢迎图文创作原创作者
传递2017自媒体盛典·年度新锐评论





民间百科
你的人生大学,你的智慧指南。
 最新文章