训练成本估计只有 Llama 3.1 405B 模型的 11 分之一,后者的效果还不如它。
在多项测评上,DeepSeek V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。
在 Chatbot Arena 大模型排行榜上排名第 7,前十名里面,只有它是开源模型,而且是最少限制的 MIT 许可证。
2024 年 5 月,DeepSeek 一跃成名。起因是他们发布的一款名为 DeepSeek V2 的开源模型,提供了一种史无前例的性价比,开启了国产大模型的价格战。
作为大厂外唯一一家储备万张 A100 芯片的公司,DeepSeek 的很多抉择都与众不同。放弃「既要又要」路线,至今专注在研究和技术,未做 toC 应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。
DeepSeek 究竟是如何炼成的?36 氪旗下的「暗涌」团队分别在 2023 年 5 月、2024 年 7 月采访了甚少露面的 DeepSeek 创始人梁文锋。
这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把「是非观」置于「利害观」之前,并提醒我们看到时代惯性,把「原创式创新」提上日程的人。
文章转载自「暗涌」,原文作者于丽丽,原文编辑刘旌,Founder Park 转载时做了结构调整。
01
价格战第一枪是怎么打响的?
暗涌:DeepSeek V2 模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。
梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。
暗涌:这个结果让你们意外吗?
梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。
暗涌:5 天后智谱 AI 就跟进了,之后是字节、阿里、百度、腾讯等大厂。
梁文锋:智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。
暗涌:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。
梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论 API,还是 AI,都应该是普惠的、人人可以用得起的东西。
暗涌:在这之前,大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用,为什么你们会从模型结构切入?
梁文锋:如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。
除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama 的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。
暗涌:这种代差主要来自哪里?
梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗 4 倍算力。我们要做的,正是不停地去缩小这些差距。
暗涌:大部分中国公司都选择既要模型又要应用,为什么 DeepSeek 目前选择只做研究探索?
梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
暗涌:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。
梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。
但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
02
真正的差距是原创和模仿之差
暗涌:为什么 DeepSeek V2 会让硅谷的很多人惊讶?
梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯 follow,而不是创新。
暗涌:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。
暗涌:为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?
梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。
暗涌:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像2024 年 5 月这次 MLA 架构的创新,也会很快被其他家 copy 吧?
梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。
开源,发论文,其实并没有失去什么。对于技术人员来说,被 follow 是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。
暗涌:你怎么看类似朱啸虎的这种市场信仰派观点?
梁文锋:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。
暗涌:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?
梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。
英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国 AI 的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。
03
幻方做大模型是为了做研究,
做探索
暗涌:幻方决定下场做大模型,一家量化基金为什么要做这样一件事?
梁文锋:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。
暗涌:你们要自训一个大模型,还是某个垂直行业——比如金融相关的大模型?
梁文锋:我们要做的是通用人工智能,也就是 AGI。语言大模型可能是通往 AGI 的必经之路,并且初步具备了 AGI 的特征,所以我们会从这里开始,后边也会有视觉等。
暗涌:因为大厂的入局,很多创业型公司都放弃了只做通用型大模型的大方向。
梁文锋:我们不会过早设计基于模型的一些应用,会专注在大模型上。
暗涌:很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。
梁文锋:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有 OpenAI 指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。
从长期看,大模型应用门槛会越来越低,初创公司在未来 20 年任何时候下场,也都有机会。我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。
暗涌:为什么你的定义是「做研究、做探索」?
梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。从近处说,GPT4 还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。
暗涌:但研究意味着要付出更大的成本。
梁文锋:只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需 finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。
暗涌:那研究经费哪里来?
梁文锋:幻方作为我们的出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。
暗涌:但做基础层大模型,没有两三亿美元,连牌桌都上不了,我们如何支撑它的持续投入?
梁文锋:我们也在找不同出资方在谈。接触下来,感觉很多 VC 对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化,而按照我们优先做研究的思路,很难从 VC 那里获得融资。但我们有算力和一个工程师团队,相当于有了一半筹码。
暗涌:我们对商业模式做了哪些推演和设想?
梁文锋:我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小 app 都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
暗涌:一些大厂后期也会有一些服务提供,你们差异化的部分是什么?
梁文锋:大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。
暗涌:无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。
梁文锋:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。从商业角度来讲,基础研究就是投入回报比很低的。OpenAI 早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。
04
万卡储备其实是好奇心驱动
暗涌:GPU是这次 ChatGPT 创业潮的稀缺品,你们在 2021 年就可以有先见之明,储备了 1 万枚。为什么?
梁文锋:其实从最早的 1 张卡,到 2015 年的 100 张卡、2019 年的 1000 张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在 IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。
暗涌:什么样的好奇心?
梁文锋:对 AI 能力边界的好奇。对很多行外人来说,ChatGPT 这波浪潮冲击特别大;但对行内人来说,2012 年 AlexNet 带来的冲击已经引领一个新的时代。AlexNet 的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当 2020 年 OpenAI 发布 GPT3 后,方向很清楚,需要大量算力;但即便 2021 年,我们投入建设萤火二号时,大部分人还是无法理解。
暗涌:所以 2012 年起,你们就开始关注到算力的储备?
梁文锋:对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力。
暗涌:很多人以为搭这个计算机集群,是量化私募业务会用到机器学习做价格预测?
梁文锋:如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。
暗涌:但这个过程也是一个烧钱行为。
梁文锋:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。
暗涌:显卡通常会以 20% 的速度在折损。
梁文锋:我们没有精确计算过,但应该没这么多。英伟达的显卡是硬通货,即使是很多年前的老卡,也还有很多人在用。我们之前退役的老卡,二手处理时还挺值钱的,没亏太多。
暗涌:搭一个计算机集群,维护费用,人工成本,甚至电费也都是不菲的支出。
梁文锋:电费和维护费用其实是很低的,这些支出每年只占硬件造价的 1% 左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。我们选的人也会相对朴实一点,有好奇心,来这里有机会去做研究。
暗涌:2021 年,幻方是亚太地区第一批拿到 A100显卡的公司,为什么会比一些云厂商更早?
梁文锋:我们很早就对新卡做了预研、测试和规划。至于一些云厂商,据我所知,他们之前的需求都是分散的,直到 2022 年自动驾驶,有租用机器做训练的需求,又有付费能力,一些云厂商才去把基础设施建好。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。
暗涌:你会如何看大模型的竞争格局?
梁文锋:大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。头部的创业公司也有技术做得很扎实的,但和老的一波 AI 创业公司一样,都要面对商业化难题。
暗涌:一些人会觉得一个量化基金却强调自己做AI,是为其他业务吹泡泡。
梁文锋:但其实我们的量化基金已经基本不怎么对外募集了。
暗涌:你会如何去辨别哪些是AI信仰者,哪些是投机者?
梁文锋:信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。
05
V2 模型的研发都是本土人才
暗涌:OpenAI前政策主管、Anthropic 联合创始人 Jack Clark 认为 DeepSeek 雇佣了「一批高深莫测的奇才」,做出 DeepSeek v2 的是怎样一群人?
梁文锋:并没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
暗涌:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前 50 名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?
梁文锋:V2 模型没有海外回来的人,都是本土的。前 50 名顶尖人才可能不在中国,但也许我们能自己打造这样的人。
幻方提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%
梁文锋:在总结出 Attention 架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个 team,花了几个月时间才跑通。
暗涌:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但 AGI 这种充满不确定性的前沿探索,是否多了管理动作?
梁文锋:DeepSeek 也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要 push 他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个 idea 显示出潜力,我们也会自上而下地去调配资源。
暗涌:听说 DeepSeek 对于卡和人的调集非常灵活。
梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
暗涌:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人,可以让一些非传统评价指标里优秀的人被选出来。
梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
暗涌: Transformer 诞生在谷歌的AI Lab,ChatGPT诞生在OpenAI, 你觉得大公司的 AILab 和一个创业公司对于创新产生的价值有什么不同?
梁文锋:不管是 Google 实验室,还是 OpenAI,甚至中国大厂的 AI Lab,都很有价值的。最后是 OpenAI 做出来,也有历史的偶然性。
06
套路都是上一代的产物,
未来不一定成立
暗涌:创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。transfomer 诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。
梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。ChatGPT 出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。
暗涌:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保 DeepSeek 就是做大模型的人的首选?
梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。
暗涌:前一段OpenAI的发布并没有等来 GPT5, 很多人觉得这是技术曲线明显在放缓,也很多人开始质疑 Scaling Law,你们怎么看?
梁文锋:我们偏乐观,整个行业看起来都符合预期。OpenAI 也不是神,不可能一直冲在前面。
暗涌:你觉得 AGI 还要多久实现,发布 DeepSeek V2 前,你们发布过代码生成和数学的模型,也从 dense 模型切换到了 MOE,所以你们的 AGI 路线图有哪些坐标?
梁文锋:可能是 2 年、5 年或者 10 年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对 AGI 也是必要的。我们对一切可能性都保持开放。
暗涌:你觉得大模型终局是什么样态?
梁文锋:会有专门公司提供基础模型和基础服务, 会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。
暗涌:过去这一年,中国的大模型创业还是有很多变化的,比如去年开头还很活跃的王慧文中场退出了,后来加入的公司也开始呈现出差异化。
梁文锋:王慧文自己承担了所有的损失,让其他人全身而退。他做了一个对自己最不利,但对大家都好的选择,所以他做人是很厚道的,这点我很佩服。
暗涌:现在你的精力最多放在哪里?
梁文锋:主要的精力在研究下一代的大模型。还有很多未解决的问题。
暗涌:其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,DeepSeek 敢于专注在模型研究上是因为模型能力还不够吗?
梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来 AI 的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。
暗涌:过去幻方就有很强的技术和创新基因,成长也比较顺利,这是你偏乐观的原因吗?
梁文锋:幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方 2015 年后的部分,但其实我们做了 16 年。
暗涌:回到关于原创式创新的话题。现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?
梁文锋:我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。
暗涌:所以你对这件事也是乐观的?
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。
以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
07
更多的投入
并不一定产生更多的创新
暗涌:现在的 DeepSeek 有一种 OpenAI 早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAI 和 Mistral 都有过从开源到闭源的过程。
梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。
暗涌:你们有融资计划吗?看有媒体报道,幻方对 DeepSeek 有独立拆分上市的计划,硅谷的AI创业公司,最终也都难免要和大厂绑定。
梁文锋:短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。
暗涌:很多人认为,做 AGI 和做量化是完全不同的两件事,量化可以闷声去做,但 AGI 可能更需要高举高打,需要结盟,这样可以让你的投入变大。
梁文锋:更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。
暗涌:你们现在不做应用,是因为你们没有运营的基因吗?
梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。
暗涌:但选择API的话,为什么选择 DeepSeek,而不是大厂?
梁文锋:未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。
暗涌:但技术真的可以拉开差距吗? 你也说过并不存在绝对的技术秘密。
梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。
暗涌:你们降价后,字节率先跟进,说明他们还是感受到某种威胁。你怎么看创业公司与大厂竞争的新解法?
梁文锋:说实话我们不太 care 这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现 AGI。
目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。
暗涌:你怎么看 DeepSeek 之外的 6 家大模型创业公司的终局?
梁文锋:可能活下来 2 到 3 家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。
暗涌:幻方时代,面对竞争的姿态就被评价为「我行我素」,很少在意横向比较。关于竞争,你思考的原点是什么?
梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。
08
创新都是自己产生的,
不是刻意安排的,更不是教出来的
暗涌:深度求索团队的招聘进展如何?
梁文锋:初始团队已经集结到位,前期因为人手不够,会从幻方临时借调一部分人过去。去年底 ChatGPT3.5 风靡时,我们就开始动手招聘了,不过我们依然需要更多的人加入。
暗涌:大模型创业的人才也是稀缺的,有投资人说很多适合的人才可能只在 OpenAI、FacebookAI Research 等巨头的 AI lab 里。你们会去海外挖这类人才吗?
梁文锋:如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。
暗涌:为什么经验没那么重要?
梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。
暗涌:在创新业务上,你觉得经验是阻碍吗?
梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。
暗涌:幻方从一个完全无金融基因的外行,切入到这个行业,几年内做到头部,这条招人法则是其中秘密之一吗?
梁文锋:我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。
拿销售这个岗位举个例子。我们的两个主力销售,都是这个行业的素人。一个原来做德国机械品类外贸的,一个是原来在券商做后台写代码。他们进入这个行业时,没有经验,没有资源,没有积累。
而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用,同样规模和业绩下,利润率更高,很多家会试图模仿我们,但并没有成功。
暗涌:为什么很多家试图模仿你们,却没有成功?
梁文锋:因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。事实上,第一年他们什么都做不出来,第二年才开始有点成绩。但我们的考核标准和一般公司不太一样。我们没有 KPI,也没有所谓的任务。
暗涌:那你们的考核标准是?
梁文锋:我们不像一般公司,看重客户下单量,我们的销售卖多少和提成不是一开始就算好的,而会更鼓励销售去发展自己的圈子,认识更多人,产生更大影响力。因为我们认为,一个让客户信任的正直的销售,可能在短时间内做不到让客户来下单,但可以让你觉得他是个靠谱的人。
暗涌:选来合适的人后,用何种方式让他进入状态?
梁文锋:交给他重要的事,并且不干预他。让他自己想办法,自己发挥。其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。
暗涌:你觉得什么是打造一个创新型组织的必要条件?
梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。
暗涌:这是一种非常规的管理方式,这种情况下你如何确保一个人做事是有效率的,而且在你要的方向上?
梁文锋:招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。
暗涌:你觉得这波做大模型的竞争中,创业公司更适合创新的组织架构会是和大厂竞争的破局点吗?
梁文锋:按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。但市场是变化的。真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波 AI 新浪潮之下,一定会有一批新公司诞生。
暗涌:做这样一件事,最让你们兴奋的是什么?
梁文锋:去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。
暗涌:这次大模型招人,什么是我们必卡的条件?
梁文锋:热爱,扎实的基础能力。其他都没那么重要。
暗涌:这种人容易找到吗?
梁文锋:他们的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。
暗涌:大模型可能是一件无休止投入的事,付出的代价会让你们顾虑吗?
梁文锋:创新就是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。看 OpenAI 也是烧了很多钱才出来。
暗涌:会觉得你们在做一件很疯狂的事吗?
梁文锋:不知道是不是疯狂,但这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。
暗涌:这里边会有一种精神奖赏。
梁文锋:类似你徒步 50 公里,整个身体是瘫掉的,但精神很满足。
暗涌:你觉得好奇心驱动的疯狂可以一直持续下去吗?
梁文锋:不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。
更多阅读