近日,中国人工智能初创公司DeepSeek凭借一项颠覆性的技术突破,引发美国科技界巨大震动,同时也在国内掀起热议。85后创始人梁文锋在接受媒体采访时,直言“中国AI不可能永远处在跟随的位置”,这句话迅速成为热门话题,网友纷纷点赞并表达对中国年轻一代无限可能的期待。
1月27日,美国股市开盘后科技板块全线下跌,跌幅之大令人瞠目结舌。以芯片巨头为代表的科技公司成为“重灾区”:英伟达股价暴跌17%,博通公司大跌17%,AMD下跌6%,甚至微软也下滑了2%。不仅如此,AI领域相关衍生品企业同样遭受冲击,例如美国联合能源公司股价大跌21%,Vistra更是惨跌29%。这一切的背后,正是因为DeepSeek发布的全新人工智能模型DeepSeek-R1的冲击波。
美国科技界长久以来的“无敌”地位首次被撼动,而这一切源于一家中国公司以及一群年轻科研人员的努力和创新。
DeepSeek创始人梁文锋,1985年出生于广东湛江市,17岁考入浙江大学,30岁创办幻方科技,36岁已是千亿私募基金的掌舵者。他在量化交易领域崭露头角后,又于2023年创办DeepSeek,将目光瞄准人工智能领域。他带领团队在短短两年内,推出了DeepSeek-R1模型,这款模型不仅性能优越,还极大降低了内存使用和计算成本,在技术层面实现了多项突破。
梁文锋在采访中表示:“DeepSeek-R1的成功,离不开团队的努力和创新。我们通过全新的多头潜在注意力(MLA)架构克服传统技术瓶颈,同时精心规划算力资源、挖掘高质量数据,让模型在性能和效率上双重领先。”他希望DeepSeek成为中国AI的一张名片,向全世界展示中国AI技术的实力与潜力。
DeepSeek-R1模型的发布不仅让美国科技界感受到了压力,还迅速在美国市场掀起一股热潮。据统计,DeepSeek应用在27日登顶苹果美国区应用商店免费APP下载榜,一举超过了ChatGPT。这一成就不仅是技术实力的体现,更是中国AI赢得国际认可的重要标志。
面对DeepSeek爆火引发的关注,梁文锋表示,中国AI不可能永远处在跟随的位置,“我们要通过技术创新,实现从‘追赶者’到‘引领者’的转变。”他的这一表态引发了网友的热烈讨论,不少人感叹:“DeepSeek太猛了,中国年轻人太厉害了!”更有人将梁文锋的成就与大疆、宇树等公司创始人相提并论,感慨中国年轻一代正以不可思议的速度崛起。
梁文锋还透露,DeepSeek未来将持续推动AI技术的发展,并计划将技术应用到医疗、能源、教育等多个领域,为社会创造更大的价值。“我们不仅要做领先的技术,更要用技术服务社会。”他说。
DeepSeek的成功,让许多中国网友倍感自豪。有人感慨:“中国年轻一代的无限可能正在逐步被验证!”也有人表示:“从追赶到引领,中国AI正向世界证明自己!”更有网友直言:“DeepSeek这次不仅是技术的胜利,更是一种民族自信的体现!”
梁文锋作为DeepSeek的创始人,其个人经历同样引人注目,从普通的小镇青年到浙江大学的高材生,再到量化投资界的佼佼者,最终跨界进入人工智能领域并取得显著成就,他的故事充满了传奇色彩。
一、成长经历:从湛江小城到浙大学霸
梁文锋,1985年出生于广东省湛江市,一个五线城市的小城。尽管家境平凡,但他的父亲作为一名小学老师,却在他学习之路上起到了重要的启蒙与引导作用。自幼,梁文锋便对数学和计算机科学展现出浓厚的兴趣,这颗兴趣的种子在他心中不断生根发芽,成为他日后投身科技领域的原始动力。
2002年,年仅17岁的梁文锋凭借着优异的成绩考入了浙江大学电子信息工程专业,开启了他的学术之旅。在浙江大学的学习期间,他不仅学业优异,还积极参与科研项目,为自己的未来奠定了坚实的基础。2008年,他继续在浙大攻读信息与通信工程硕士学位,并专注于机器视觉研究。这段求学历程不仅让他掌握了扎实的专业知识,也培养了他严谨的科研态度和敏锐的创新思维。
在浙江大学的学习过程中,梁文锋对金融市场产生了浓厚的兴趣。特别是在2008年全球金融危机之际,他敏锐地察觉到技术和数据在金融领域的巨大潜力。于是,他带领一群志同道合的同学,用机器学习方法分析市场数据,尝试实现全自动量化交易。他们采集海量的市场行情数据、宏观经济信息,并用数学建模的方法研究价格波动规律。这些探索不仅为梁文锋积累了实践经验,也为他日后的创业埋下了伏笔。
二、量化投资领域的璀璨新星
2013年,梁文锋与浙大校友徐进共同创办了杭州雅克比投资管理有限公司,正式迈入量化投资的世界。尽管当时的量化投资在国内还处于起步阶段,市场几乎被主动选股基金经理和游资力量所主导,但梁文锋凭借对技术的信仰和对市场的深刻理解,坚定地相信这是金融领域的未来。
梁文锋和他的团队凭借对量化投资的深刻理解和大胆的技术创新,迅速在行业内崭露头角。他们通过高频交易等手段,从众多冲动交易者中捕捉到了超额收益的机会,逐步改变了市场格局。幻方量化的崛起之路并非一帆风顺,但梁文锋深知,要想在量化投资领域站稳脚跟,必须拥有强大的算力支持。于是,他毅然决定投入巨资建设超级计算平台。2018年,幻方量化的“萤火虫”系统正式亮相,这一深度学习训练平台配备了超过1万张英伟达A100 GPU芯片,性能卓越且成本效益极高。这一举动不仅巩固了幻方量化在业内的领先地位,更为其后续的AI转型埋下了伏笔。
随着量化投资业务的不断拓展,幻方量化的管理资产规模迅速增长,成为行业内首个突破千亿大关的量化机构。梁文锋也因此被誉为“量化四大天王”之一,成为业内瞩目的焦点。然而,他并未满足于此,而是开始寻找新的增长点。在量化投资领域取得巨大成功后,梁文锋开始将目光投向了更具挑战性的AI领域。
三、跨界AI:从量化投资到通用人工智能
梁文锋认为,无论是量化投资还是AI技术,都离不开对数据和算力的深度挖掘。而他在量化投资中积累的丰富经验和资源,正是进军AI领域的宝贵财富。2017年,梁文锋低调地开始了“萤火虫”项目的孵化工作,旨在通过低成本和高性能的计算平台,推动AI技术的快速发展。经过数年的潜心研发,“萤火虫”系统终于迎来了大放异彩的时刻。
2023年,梁文锋实控的AI研发机构北京深度求索正式成立,次年DeepSeek正式上线。DeepSeek的成功并非偶然,梁文锋深知,要想在AI领域立足,必须拥有核心技术和创新能力。于是,他带领团队深入研究AI算法和模型架构,提出了MLA(多头潜在注意力机制)架构和DeepSeekMoESparse结构,大幅降低了模型的计算量和显存占用,从而降低了推理成本。这一创新成果不仅让DeepSeek在业内声名鹊起,更为其后续的快速发展奠定了坚实基础。
DeepSeek在人工智能领域取得的显著成果中,DeepSeek-V3大模型无疑是最为耀眼的明星。这款性能优越且性价比极高的大语言模型极大地降低了大模型训练和应用的成本,训练成本仅557.6万美元,而OpenAI训练ChatGPT-4o所花费的成本高达7800万美元甚至是1亿美元。此外,DeepSeek-V3在数学、代码能力和中文知识问答方面还超过了ChatGPT-4o,这一成就让行业震惊。其高效的推理能力、多领域的卓越表现以及极低的训练成本,使得DeepSeek-V3被誉为“来自东方的神秘力量”,并在多个基准测试中超越了国内外其他开源模型,如Qwen2-75B、Llama 3-1.4B等。
四、开源文化与创新精神
梁文锋对AI技术的热爱和执着不仅体现在产品研发上,更体现在他对开源文化的推崇上。他认为,开源不仅是一种技术行为,更是一种文化行为。通过开源,可以促进技术的普及和进步,同时也能带来额外的荣誉和成就感。因此,DeepSeek在推出新模型时总是毫不吝啬地公布技术细节和训练过程,赢得了业界的广泛赞誉。
在技术创新方面,梁文锋始终保持着敏锐的洞察力和前瞻性的思考。他认为,中国的AI不应该永远处在跟随的位置,而是要成为技术创新的贡献者。因此,DeepSeek的团队主要由顶尖高校的应届毕业生和年轻研究员组成。通过自身培养和团队的成长,DeepSeek希望能够打造出顶尖的技术人才,为中国AI领域的发展贡献力量。
同时,梁文锋也非常注重与高校和研究机构的合作。他深知,技术创新需要跨学科、跨领域的合作与交流。因此,他积极与多个高校的研究人员建立合作关系,共同探索AI技术的前沿领域。这种开放合作的态度不仅为DeepSeek带来了更多的创新灵感和资源支持,也为中国AI领域的发展注入了新的活力。
五、教育与社会责任
梁文锋的成长经历和个人成就,不仅是他个人努力的结果,也离不开教育的熏陶和滋养。他深知教育对于个人成长和社会进步的重要性,因此,在事业有成之后,梁文锋也积极投身于教育事业,希望能够通过自己的经验和资源,为更多的年轻人提供成长的机会和平台。
除了对教育的重视,梁文锋还积极履行社会责任。他认为,企业不仅要追求经济效益,更要关注社会福祉。因此,DeepSeek在发展过程中,始终将社会责任放在首位,积极参与公益事业,为社会的和谐与发展贡献自己的力量。
六、社会影响与未来展望
梁文锋和DeepSeek的成功不仅为科技圈带来了震撼和启示,也为社会带来了积极的影响。他们通过技术创新和开源共享的方式,推动了AI技术的普及和发展,降低了大模型训练和应用的门槛,使得更多的人能够享受到AI技术带来的便利和红利。
对于未来,梁文锋持乐观态度。他认为,通用人工智能(AGI)是未来的发展趋势之一,虽然实现AGI的道路充满了挑战和困难,但他相信通过不断的技术创新和跨界融合,人类一定能够实现这一目标。同时,他也表示DeepSeek将继续致力于AI技术的研发和创新,为推动中国乃至全球的科技进步和社会发展做出更大的贡献
梁文锋的故事是一个关于成长、奋斗与创新的传奇。从湛江小城的一名普通少年,到浙江大学的高材生,再到量化投资界的佼佼者,最终跨界进入人工智能领域并取得显著成就,他的每一步都充满了挑战与机遇。梁文锋的成功不仅源于他个人的才华和努力,更源于他对科技和社会的深刻洞察与理解。
从梁文锋的个人经历中,我们可以看到几个重要的启示:
持续学习与自我提升:梁文锋在求学期间就展现出了对知识的渴望和追求,这种持续学习的精神为他日后的职业发展奠定了坚实的基础。在快速变化的科技领域,只有不断学习、不断进步,才能保持竞争力。
跨界融合与创新能力:梁文锋的创业范畴横跨金融和人工智能领域,这体现了当前科技发展的跨界融合趋势。他凭借对技术的深刻理解和大胆的创新精神,成功地将量化投资的经验和资源应用于人工智能领域,取得了显著的成就。
社会责任感与回馈社会:梁文锋在事业有成之后,积极投身于教育事业和公益事业,展现出了强烈的社会责任感和回馈社会的精神。这种精神不仅值得我们学习和借鉴,也为我们树立了榜样。
梁文锋的故事是一个关于成长、奋斗与创新的传奇。他的成功不仅为他个人带来了荣誉和成就,更为我们提供了宝贵的启示和借鉴。
在未来的科技发展中,我们需要更加注重培养跨学科、复合型人才,推动各个领域之间的深度融合和创新发展。同时,我们也需要更加关注和支持那些具有创新精神和实践能力的创业者,为他们提供更多的机会和资源,共同推动科技的进步和社会的发展。
01 价格战第一枪是怎么打响的?
暗涌:DeepSeek V2 模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。暗涌:5 天后智谱 AI 就跟进了,之后是字节、阿里、百度、腾讯等大厂。梁文锋:智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。暗涌:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论 API,还是 AI,都应该是普惠的、人人可以用得起的东西。暗涌:在这之前,大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用,为什么你们会从模型结构切入?梁文锋:如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama 的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗 4 倍算力。我们要做的,正是不停地去缩小这些差距。暗涌:大部分中国公司都选择既要模型又要应用,为什么 DeepSeek 目前选择只做研究探索?梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。暗涌:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。02 真正的差距是原创和模仿之差
暗涌:为什么 DeepSeek V2 会让硅谷的很多人惊讶?梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯 follow,而不是创新。暗涌:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。暗涌:为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。暗涌:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像2024 年 5 月这次 MLA 架构的创新,也会很快被其他家 copy 吧?梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多 know-how, 形成可以创新的组织和文化,就是我们的护城河。开源,发论文,其实并没有失去什么。对于技术人员来说,被 follow 是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。梁文锋:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。暗涌:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国 AI 的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。 03 幻方做大模型是为了做研究,做探索
暗涌:幻方决定下场做大模型,一家量化基金为什么要做这样一件事?梁文锋:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。暗涌:你们要自训一个大模型,还是某个垂直行业——比如金融相关的大模型?梁文锋:我们要做的是通用人工智能,也就是 AGI。语言大模型可能是通往 AGI 的必经之路,并且初步具备了 AGI 的特征,所以我们会从这里开始,后边也会有视觉等。暗涌:因为大厂的入局,很多创业型公司都放弃了只做通用型大模型的大方向。梁文锋:我们不会过早设计基于模型的一些应用,会专注在大模型上。暗涌:很多人认为,创业公司在大厂形成共识后下场,已经不是一个好的时间点。梁文锋:现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有 OpenAI 指路,又都基于公开论文和代码,最晚明年,大厂和创业公司都会把自己的大语言模型做出来。大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。从长期看,大模型应用门槛会越来越低,初创公司在未来 20 年任何时候下场,也都有机会。我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。梁文锋:一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程。你以为你在思考,其实可能是你在脑子里编织语言。这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。从近处说,GPT4 还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。梁文锋:只做复刻的话,可以在公开论文或开源代码基础上,只需训练很少次数,甚至只需 finetune(微调)一下,成本很低。而做研究,要做各种实验和对比,需要更多算力,对人员要求也更高,所以成本更高。梁文锋:幻方作为我们的出资人之一,有充足的研发预算,另外每年有几个亿的捐款预算,之前都是给公益机构,如果需要,也可以做些调整。暗涌:但做基础层大模型,没有两三亿美元,连牌桌都上不了,我们如何支撑它的持续投入?梁文锋:我们也在找不同出资方在谈。接触下来,感觉很多 VC 对做研究有顾虑,他们有退出需求,希望尽快做出产品商业化,而按照我们优先做研究的思路,很难从 VC 那里获得融资。但我们有算力和一个工程师团队,相当于有了一半筹码。梁文锋:我们现在想的是,后边可以把我们的训练结果大部分公开共享,这样可以跟商业化有所结合。我们希望更多人,哪怕一个小 app 都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。暗涌:一些大厂后期也会有一些服务提供,你们差异化的部分是什么?梁文锋:大厂的模型,可能会和他们的平台或生态捆绑,而我们是完全自由的。暗涌:无论如何,一个商业公司去做一种无限投入的研究性探索,都有些疯狂。梁文锋:如果一定要找一个商业上的理由,它可能是找不到的,因为划不来。从商业角度来讲,基础研究就是投入回报比很低的。OpenAI 早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。我们现在比较确定的是,既然我们想做这个事,又有这个能力,这个时间点上,我们就是最合适人选之一。03 万卡储备其实是好奇心驱动
暗涌:GPU是这次 ChatGPT 创业潮的稀缺品,你们在 2021 年就可以有先见之明,储备了 1 万枚。为什么?梁文锋:其实从最早的 1 张卡,到 2015 年的 100 张卡、2019 年的 1000 张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在 IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。梁文锋:对 AI 能力边界的好奇。对很多行外人来说,ChatGPT 这波浪潮冲击特别大;但对行内人来说,2012 年 AlexNet 带来的冲击已经引领一个新的时代。AlexNet 的错误率远低于当时其他模型,复苏了沉睡几十年的神经网络研究。虽然具体技术方向一直在变,但模型、数据和算力这三者的组合是不变的,特别是当 2020 年 OpenAI 发布 GPT3 后,方向很清楚,需要大量算力;但即便 2021 年,我们投入建设萤火二号时,大部分人还是无法理解。暗涌:所以 2012 年起,你们就开始关注到算力的储备?梁文锋:对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。那之后,我们也会有意识地去部署尽可能多的算力。暗涌:很多人以为搭这个计算机集群,是量化私募业务会用到机器学习做价格预测?梁文锋:如果单纯只做量化投资,很少的卡也能达到目的。我们在投资外做了大量研究,更想搞清楚什么样的范式可以完整地描述整个金融市场,有没有更简洁的表达方式,不同范式能力边界在哪,这些范式是不是有更广泛适用,等等。梁文锋:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。梁文锋:我们没有精确计算过,但应该没这么多。英伟达的显卡是硬通货,即使是很多年前的老卡,也还有很多人在用。我们之前退役的老卡,二手处理时还挺值钱的,没亏太多。暗涌:搭一个计算机集群,维护费用,人工成本,甚至电费也都是不菲的支出。梁文锋:电费和维护费用其实是很低的,这些支出每年只占硬件造价的 1% 左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。我们选的人也会相对朴实一点,有好奇心,来这里有机会去做研究。暗涌:2021 年,幻方是亚太地区第一批拿到 A100显卡的公司,为什么会比一些云厂商更早?梁文锋:我们很早就对新卡做了预研、测试和规划。至于一些云厂商,据我所知,他们之前的需求都是分散的,直到 2022 年自动驾驶,有租用机器做训练的需求,又有付费能力,一些云厂商才去把基础设施建好。大厂很难单纯去做研究,做训练,它更多会是业务需求驱动。梁文锋:大厂肯定有优势,但如果不能很快应用,大厂也不一定能持续坚持,因为它更需要看到结果。头部的创业公司也有技术做得很扎实的,但和老的一波 AI 创业公司一样,都要面对商业化难题。暗涌:一些人会觉得一个量化基金却强调自己做AI,是为其他业务吹泡泡。梁文锋:但其实我们的量化基金已经基本不怎么对外募集了。暗涌:你会如何去辨别哪些是AI信仰者,哪些是投机者?梁文锋:信仰者会之前就在这里,之后也在这里。他们更会去批量买卡,或者跟云厂商签长协议,而不是短期去租。05 V2 模型的研发都是本土人才
暗涌:OpenAI前政策主管、Anthropic 联合创始人 Jack Clark 认为 DeepSeek 雇佣了「一批高深莫测的奇才」,做出 DeepSeek v2 的是怎样一群人?梁文锋:并没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。暗涌:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前 50 名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?梁文锋:V2 模型没有海外回来的人,都是本土的。前 50 名顶尖人才可能不在中国,但也许我们能自己打造这样的人。暗涌:这次 MLA 创新*是如何发生的?听说 idea 最早来自一个年轻研究员的个人兴趣?幻方提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%梁文锋:在总结出 Attention 架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个 team,花了几个月时间才跑通。暗涌:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但 AGI 这种充满不确定性的前沿探索,是否多了管理动作?梁文锋:DeepSeek 也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要 push 他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个 idea 显示出潜力,我们也会自上而下地去调配资源。暗涌:听说 DeepSeek 对于卡和人的调集非常灵活。梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。暗涌:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人,可以让一些非传统评价指标里优秀的人被选出来。梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。暗涌: Transformer 诞生在谷歌的AI Lab,ChatGPT诞生在OpenAI, 你觉得大公司的 AILab 和一个创业公司对于创新产生的价值有什么不同?梁文锋:不管是 Google 实验室,还是 OpenAI,甚至中国大厂的 AI Lab,都很有价值的。最后是 OpenAI 做出来,也有历史的偶然性。06 套路都是上一代的产物,未来不一定成立
暗涌:创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。transfomer 诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。ChatGPT 出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。暗涌:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保 DeepSeek 就是做大模型的人的首选?梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。暗涌:前一段OpenAI的发布并没有等来 GPT5, 很多人觉得这是技术曲线明显在放缓,也很多人开始质疑 Scaling Law,你们怎么看?梁文锋:我们偏乐观,整个行业看起来都符合预期。OpenAI 也不是神,不可能一直冲在前面。暗涌:你觉得 AGI 还要多久实现,发布 DeepSeek V2 前,你们发布过代码生成和数学的模型,也从 dense 模型切换到了 MOE,所以你们的 AGI 路线图有哪些坐标?梁文锋:可能是 2 年、5 年或者 10 年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是 AGI 天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学习,对 AGI 也是必要的。我们对一切可能性都保持开放。梁文锋:会有专门公司提供基础模型和基础服务, 会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。暗涌:过去这一年,中国的大模型创业还是有很多变化的,比如去年开头还很活跃的王慧文中场退出了,后来加入的公司也开始呈现出差异化。梁文锋:王慧文自己承担了所有的损失,让其他人全身而退。他做了一个对自己最不利,但对大家都好的选择,所以他做人是很厚道的,这点我很佩服。梁文锋:主要的精力在研究下一代的大模型。还有很多未解决的问题。暗涌:其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,DeepSeek 敢于专注在模型研究上是因为模型能力还不够吗?梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来 AI 的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。暗涌:过去幻方就有很强的技术和创新基因,成长也比较顺利,这是你偏乐观的原因吗?梁文锋:幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方 2015 年后的部分,但其实我们做了 16 年。暗涌:回到关于原创式创新的话题。现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?梁文锋:我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。07 更多的投入并不一定产生更多的创新
暗涌:现在的 DeepSeek 有一种 OpenAI 早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAI 和 Mistral 都有过从开源到闭源的过程。梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。暗涌:你们有融资计划吗?看有媒体报道,幻方对 DeepSeek 有独立拆分上市的计划,硅谷的AI创业公司,最终也都难免要和大厂绑定。梁文锋:短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。暗涌:很多人认为,做 AGI 和做量化是完全不同的两件事,量化可以闷声去做,但 AGI 可能更需要高举高打,需要结盟,这样可以让你的投入变大。梁文锋:更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。暗涌:你们现在不做应用,是因为你们没有运营的基因吗?梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在 DeepSeek 的基础上构建 toB、toC 的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。暗涌:但选择API的话,为什么选择 DeepSeek,而不是大厂?梁文锋:未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。暗涌:但技术真的可以拉开差距吗? 你也说过并不存在绝对的技术秘密。梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。暗涌:你们降价后,字节率先跟进,说明他们还是感受到某种威胁。你怎么看创业公司与大厂竞争的新解法?梁文锋:说实话我们不太 care 这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现 AGI。目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。暗涌:你怎么看 DeepSeek 之外的 6 家大模型创业公司的终局?梁文锋:可能活下来 2 到 3 家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。暗涌:幻方时代,面对竞争的姿态就被评价为「我行我素」,很少在意横向比较。关于竞争,你思考的原点是什么?梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。08 创新都是自己产生的,不是刻意安排的,更不是教出来的
梁文锋:初始团队已经集结到位,前期因为人手不够,会从幻方临时借调一部分人过去。去年底 ChatGPT3.5 风靡时,我们就开始动手招聘了,不过我们依然需要更多的人加入。暗涌:大模型创业的人才也是稀缺的,有投资人说很多适合的人才可能只在 OpenAI、FacebookAI Research 等巨头的 AI lab 里。你们会去海外挖这类人才吗?梁文锋:如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。从这个角度看,国内合适的候选人就不少。梁文锋:不一定是做过这件事的人才能做这件事。幻方招人有条原则是,看能力,而不是看经验。我们的核心技术岗位,基本以应届和毕业一两年的人为主。梁文锋:做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。暗涌:幻方从一个完全无金融基因的外行,切入到这个行业,几年内做到头部,这条招人法则是其中秘密之一吗?梁文锋:我们的核心团队,连我自己,一开始都没有量化经验,这一点很特殊。不能说是成功的秘密,但这是幻方的文化之一。我们不会故意回避有经验的人,但更多是看能力。拿销售这个岗位举个例子。我们的两个主力销售,都是这个行业的素人。一个原来做德国机械品类外贸的,一个是原来在券商做后台写代码。他们进入这个行业时,没有经验,没有资源,没有积累。而现在我们可能是唯一一家能以直销为主的大私募。做直销意味着不用给中间商分费用,同样规模和业绩下,利润率更高,很多家会试图模仿我们,但并没有成功。梁文锋:因为仅凭这一点不足以让创新发生。它需要和公司的文化和管理相匹配。事实上,第一年他们什么都做不出来,第二年才开始有点成绩。但我们的考核标准和一般公司不太一样。我们没有 KPI,也没有所谓的任务。梁文锋:我们不像一般公司,看重客户下单量,我们的销售卖多少和提成不是一开始就算好的,而会更鼓励销售去发展自己的圈子,认识更多人,产生更大影响力。因为我们认为,一个让客户信任的正直的销售,可能在短时间内做不到让客户来下单,但可以让你觉得他是个靠谱的人。梁文锋:交给他重要的事,并且不干预他。让他自己想办法,自己发挥。其实,一家公司的基因是很难被模仿的。比如说招没有经验的人,怎么判断他的潜力,招进来之后如何才能让他成长,这些都没法直接模仿。梁文锋:我们的总结是,创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。暗涌:这是一种非常规的管理方式,这种情况下你如何确保一个人做事是有效率的,而且在你要的方向上?梁文锋:招人时确保价值观一致,然后通过企业文化来确保步调一致。当然,我们并没有一个成文的企业文化,因为所有成文东西,又会阻碍创新。更多时候,是管理者的以身示范,遇到一件事,你如何做决策,会成为一种准则。暗涌:你觉得这波做大模型的竞争中,创业公司更适合创新的组织架构会是和大厂竞争的破局点吗?梁文锋:按照教科书的方法论来推导创业公司,在当下,他们做的事,都是活不下来的。但市场是变化的。真正的决定力量往往不是一些现成的规则和条件,而是一种适应和调整变化的能力。很多大公司的组织结构已经不能快速响应和快速做事,而且他们很容易让之前的经验和惯性成为束缚,而这波 AI 新浪潮之下,一定会有一批新公司诞生。梁文锋:去搞清我们的猜想是不是事实,如果是对的,就会很兴奋了。梁文锋:他们的热情通常会表现出来,因为他真的很想做这件事,所以这些人往往同时也在找你。暗涌:大模型可能是一件无休止投入的事,付出的代价会让你们顾虑吗?梁文锋:创新就是昂贵且低效的,有时候伴随着浪费。所以经济发展到一定程度之后,才能够出现创新。很穷的时候,或者不是创新驱动的行业,成本和效率非常关键。看 OpenAI 也是烧了很多钱才出来。梁文锋:不知道是不是疯狂,但这个世界存在很多无法用逻辑解释的事,就像很多程序员,也是开源社区的疯狂贡献者,一天很累了,还要去贡献代码。梁文锋:类似你徒步 50 公里,整个身体是瘫掉的,但精神很满足。梁文锋:不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。