火爆全球的DeepSeek,为什么这么厉害?
外媒纷纷用“震动硅谷”来形容其给美国行业带来的震撼,其技术实力得到了业内众多人士的认可,被认为已经与ChatGPT并驾齐驱,并且值得一提的是,DeepSeek面向全球进行了开源。
DeepSeek以仅为GPT-4o十一分之一的算力,即2000个GPU芯片,训练出了性能超越GPT-4o的大模型。
其总训练成本仅为557.6万美元,相比之下,GPT-4o的训练成本约为1亿美元,且使用了25000个GPU芯片。
两者在成本上的差距至少达到了10倍。而在性能方面,DeepSeek-V3在数学、代码能力以及中文知识问答方面均超越了ChatGPT-4o。
外媒纷纷报道,将其称为大模型界的“拼多多”。
特朗普对此感到很震惊,并表示:“为我们的行业敲响警钟,我们需要集中精力在竞争中取胜。”
那么,DeepSeek究竟靠什么做到这一切的呢?在过年之际,忍不住想和各位说说。
01
DeepSeek的创始人梁文锋,是一位典型的技术理想主义者。
在当前中国科技界,他提供了特别稀缺的一种声音:他是少有的将“是非观”置于“利害观”之前的人,并提醒我们要看到时代惯性,将“原创式创新”提上日程。
一年前,他曾说过:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”
这句话在当时可能还只是一句美丽的口号,但一年过去,它已经在逐渐变为现实行动。
关于公司利润问题:
梁文锋表示:“我们的原则是不贴钱,也不赚取暴利。我们的定价是在成本之上稍微有点利润。
短期内我们没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。”
在外部看来,DeepSeek的降价行为很像是在抢用户,也有人称这家公司是行业的一条鲶鱼。
对此,梁文锋回应道:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”
他进一步解释:“抢用户并不是我们的主要目的。
我们降价一方面是因为在探索下一代模型的结构中,成本先降下来了;另一方面也觉得无论是API还是AI,都应该是普惠的、人人可以用得起的东西。”
02
过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。
梁文锋认为,现在最重要的是参与到全球创新的浪潮中去。
在这一波浪潮中,DeepSeek的出发点并不是趁机赚一笔,而是走到技术的前沿,去推动整个生态的发展。
梁文锋认为,随着经济的发展,中国也要逐步成为贡献者,而不是一直搭便车。
他指出,创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才来实现有效的创新。
过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。
我们只是被过去那种惯性束缚了,但这只是阶段性的。
对于技术人员来说,被follow是很有成就感的事情。其实,开源更像一个文化行为,而非商业行为。
给予其实是一种额外的荣誉,一个公司这么做也会有文化的吸引力。
我们经常说中国AI和美国有一两年的差距,但真实的差距是原创和模仿之差。
如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。
梁文锋还强调,创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。
ChatGPT出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。
但创新首先需要自信,这种信心通常在年轻人身上更明显。
那么,梁文锋的精力最多放在哪里呢?他表示,主要的精力在研究下一代的大模型,因为还有很多未解决的问题。
03
在团队配置上,DeepSeek团队只有139名研发人员,相比OpenAI拥有的1200名研究人员,团队规模几乎只是其九分之一。
其中,算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人。
前段时间的热门话题“雷军千万年薪挖95后天才AI少女”,这位“95后AI天才少女”罗福莉,就是DeepSeek开源大模型DeepSeek-V2的关键开发者之一。
DeepSeek并没有什么高深莫测的奇才,团队成员大多是一些顶尖高校的应届毕业生、还没毕业的博四、博五实习生,以及一些毕业才几年的年轻人。
DeepSeek团队最大的特点就是年轻,应届生、在读生,特别是来自清华、北大的应届生在其中非常活跃。
DeepSeek公司遵循着一条不成文的招聘原则:对于工作经验超过8年的候选人,通常不予考虑;而对于工作经验超过5年的,则需展现出非凡的才能方有机会入选。
梁文锋对此的解释直截了当:“我们需要的是对技术有极致热情的人,而不是习惯用经验找答案的人。”
在DeepSeek,不乏跨界而来的年轻才俊。
例如,一位物理专业的博士,在加入公司前毫无模型训练的经验,但凭借其卓越的学习能力和无限的创新潜能,迅速崛起为团队的核心成员。
这些年轻人摆脱了传统工作模式和思维定式的束缚,勇于质疑“标准答案”,勇于探索未知的路径。
“真正的创新,往往来自那些没有包袱的人。”
DeepSeek采取了一种松散的管理方式,筛选到了一批由强烈热爱驱动的人。
他们很擅长从细节中招人,可以让一些在非传统评价指标里优秀的人被选出来。
梁文锋指出,选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,非常有意思。
很多人对做研究的渴望,远超对钱的在意。
用梁文锋的话来说就是“看能力,而不是看经验”,核心技术岗位“基本以应届和毕业一两年的人为主”。
因为DeepSeek在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。
因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。
而DeepSeek正在做最难的事,这对他们来说就是有吸引力的。
正是凭借着创新驱动、做贡献者的决心以及充分发挥年轻人才的潜力,DeepSeek在AI领域取得了令人瞩目的成就。
未来,随着技术的不断发展和团队的持续壮大,DeepSeek有望在全球AI舞台上绽放更加耀眼的光芒。
04
最后,说说梁文锋是谁?
梁文锋,1985年出生于广东湛江,是一位在金融和人工智能领域有着卓越成就的创业者。他是幻方和深度求索(DeepSeek)两家公司的创始人。
梁文锋凭借优异的成绩考入浙江大学电子信息工程专业,后继续攻读浙江大学信息与通信工程专业研究生,师从项志宇,主要做机器视觉研究。
在创业道路上,他凭借对人工智能的深厚兴趣和坚定信念,带领团队在量化投资领域取得了显著成就,并成功转型进入人工智能领域,创立了DeepSeek,专注于AI大模型的研究与开发。
梁文锋的创业故事充满了对技术的热爱和对创新的追求。
✎ 写在最后
DeepSeek的成功并非偶然,而是源于其坚持创新驱动、做贡献者而非跟随者、充分发挥年轻人才的潜力等正确策略。
未来,随着技术的不断发展和市场的不断变化,相信DeepSeek将继续保持其创新优势,为全球AI领域的发展贡献更多力量。
值得一提的是,这回杭州不仅是电商、直播网红的城市,更是创新版中国的“硅谷”了,要知道,DeepSeek,它只是杭州“六小龙”之一。
今天是大年初一
向各位拜年了
祝大家蛇年吉祥
编辑/小小 审校/叮当