DeepSeek火爆全球,做对了三件事

教育   2025-01-29 16:24   浙江  
 点击 蒋小华  关注公众号  免费领取  500+工具包

 导语

火爆全球的DeepSeek,为什么这么厉害?



春节期间,杭州深度求索(DeepSeek)这家专注于人工智能基础技术开发的公司迅速走红,其应用在苹果中国和美国地区的应用商店免费下载排行榜上独占鳌头。

外媒纷纷用“震动硅谷”来形容其给美国行业带来的震撼,其技术实力得到了业内众多人士的认可,被认为已经与ChatGPT并驾齐驱,并且值得一提的是,
DeepSeek面向全球进行了开源。

DeepSeek以仅为GPT-4o十一分之一的算力,即2000个GPU芯片,训练出了性能超越GPT-4o的大模型。

其总训练成本仅为557.6万美元,相比之下,GPT-4o的训练成本约为1亿美元,且使用了25000个GPU芯片。

两者在成本上的差距至少达到了10倍。而在性能方面,DeepSeek-V3在数学、代码能力以及中文知识问答方面均超越了ChatGPT-4o。

外媒纷纷报道,将其称为大模型界的“拼多多”。

特朗普对此感到很震惊,并表示:“为我们的行业敲响警钟,我们需要集中精力在竞争中取胜。

那么,DeepSeek究竟靠什么做到这一切的呢?在过年之际,忍不住想和各位说说。


01

靠技术创新
而非利润驱动


DeepSeek的创始人梁文锋,是一位典型的技术理想主义者。

在当前中国科技界,他提供了特别稀缺的一种声音:他是少有的将“是非观”置于“利害观”之前的人,并提醒我们要看到时代惯性,将“原创式创新”提上日程。

一年前,他曾说过:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”

这句话在当时可能还只是一句美丽的口号,但一年过去,它已经在逐渐变为现实行动。

关于公司利润问题:

梁文锋表示:“我们的原则是不贴钱,也不赚取暴利。我们的定价是在成本之上稍微有点利润。

短期内我们没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。”

在外部看来,DeepSeek的降价行为很像是在抢用户,也有人称这家公司是行业的一条鲶鱼。

对此,梁文锋回应道:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

他进一步解释:“抢用户并不是我们的主要目的。

我们降价一方面是因为在探索下一代模型的结构中,成本先降下来了;另一方面也觉得无论是API还是AI,都应该是普惠的、人人可以用得起的东西。”


02

要做贡献者
而非跟随者


过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。

梁文锋认为,现在最重要的是参与到全球创新的浪潮中去。

在这一波浪潮中,DeepSeek的出发点并不是趁机赚一笔,而是走到技术的前沿,去推动整个生态的发展。

梁文锋认为,随着经济的发展,中国也要逐步成为贡献者,而不是一直搭便车

他指出,创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才来实现有效的创新。

过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。

我们只是被过去那种惯性束缚了,但这只是阶段性的。

对于技术人员来说,被follow是很有成就感的事情。其实,开源更像一个文化行为,而非商业行为。

给予其实是一种额外的荣誉,一个公司这么做也会有文化的吸引力。

我们经常说中国AI和美国有一两年的差距,但真实的差距是原创和模仿之差

如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。

梁文锋还强调,创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是

ChatGPT出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。

但创新首先需要自信,这种信心通常在年轻人身上更明显。

那么,梁文锋的精力最多放在哪里呢?他表示,主要的精力在研究下一代的大模型,因为还有很多未解决的问题。


03

重视年轻人才
而非经验人才


在团队配置上,DeepSeek团队只有139名研发人员,相比OpenAI拥有的1200名研究人员,团队规模几乎只是其九分之一。

其中,算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人。

前段时间的热门话题“雷军千万年薪挖95后天才AI少女”,这位“95后AI天才少女”罗福莉,就是DeepSeek开源大模型DeepSeek-V2的关键开发者之一。

DeepSeek并没有什么高深莫测的奇才,团队成员大多是一些顶尖高校的应届毕业生、还没毕业的博四、博五实习生,以及一些毕业才几年的年轻人。

DeepSeek团队最大的特点就是年轻,应届生、在读生,特别是来自清华、北大的应届生在其中非常活跃。

DeepSeek公司遵循着一条不成文的招聘原则:对于工作经验超过8年的候选人,通常不予考虑;而对于工作经验超过5年的,则需展现出非凡的才能方有机会入选。

梁文锋对此的解释直截了当:我们需要的是对技术有极致热情的人,而不是习惯用经验找答案的人。

在DeepSeek,不乏跨界而来的年轻才俊。

例如,一位物理专业的博士,在加入公司前毫无模型训练的经验,但凭借其卓越的学习能力和无限的创新潜能,迅速崛起为团队的核心成员。

这些年轻人摆脱了传统工作模式和思维定式的束缚,勇于质疑“标准答案”,勇于探索未知的路径。

真正的创新,往往来自那些没有包袱的人。”

DeepSeek采取了一种松散的管理方式,筛选到了一批由强烈热爱驱动的人。

他们很擅长从细节中招人,可以让一些在非传统评价指标里优秀的人被选出来。

梁文锋指出,选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,非常有意思。

很多人对做研究的渴望,远超对钱的在意。

用梁文锋的话来说就是“看能力,而不是看经验”,核心技术岗位“基本以应届和毕业一两年的人为主”。

因为DeepSeek在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。

因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。

而DeepSeek正在做最难的事,这对他们来说就是有吸引力的。

正是凭借着创新驱动、做贡献者的决心以及充分发挥年轻人才的潜力,DeepSeek在AI领域取得了令人瞩目的成就。

未来,随着技术的不断发展和团队的持续壮大,DeepSeek有望在全球AI舞台上绽放更加耀眼的光芒。


04

最后,说说梁文锋是谁?


梁文锋,1985年出生于广东湛江,是一位在金融和人工智能领域有着卓越成就的创业者。他是幻方和深度求索(DeepSeek)两家公司的创始人。

梁文锋凭借优异的成绩考入浙江大学电子信息工程专业,后继续攻读浙江大学信息与通信工程专业研究生,师从项志宇,主要做机器视觉研究。

在创业道路上,他凭借对人工智能的深厚兴趣和坚定信念,带领团队在量化投资领域取得了显著成就,并成功转型进入人工智能领域,创立了DeepSeek,专注于AI大模型的研究与开发。

梁文锋的创业故事充满了对技术的热爱和对创新的追求。

 写在最后

DeepSeek的成功并非偶然,而是源于其坚持创新驱动、做贡献者而非跟随者、充分发挥年轻人才的潜力等正确策略。

未来,随着技术的不断发展和市场的不断变化,相信DeepSeek将继续保持其创新优势,为全球AI领域的发展贡献更多力量。

值得一提的是,这回杭州不仅是电商、直播网红的城市,更是创新版中国的“硅谷”了,要知道,DeepSeek,它只是杭州“六小龙”之一。



今天是大年初一

向各位拜年了

祝大家蛇年吉祥



编辑/小小 审校/叮当

记得星标,点点在看


蒋小华
关注我,我是蒋小华,组织赋能专家,匠道咨询、行课教育创始人,著有《赋能工作法》《守破离》《咫尺匠心》等书,曾为阿里巴巴、华为、三一等知名企业提供管理咨询与培训服务。愿这里能给你智性与陪伴。
 最新文章