DeepSeek-V3发布不到一个月,DeepSeek公司再度重磅出击。2025年1月20日,DeepSeek公司正式发布了深度推理版本——DeepSeek-R1。新产品一经亮相,迅速引发行业热议,再次掀起技术领域的浪潮。
自2024年5月6日 DeepSeek-V2 发布,引发行业巨头大模型降价;到12月26日DeepSeek-V3上线,引起硅谷广泛关注;再到如今DeepSeek-R1的发布。自R1发布以后,DeepSeek已成功登上中国和美国苹果应用商店的免费应用榜单第一位。在美国市场,DeepSeek已超越ChatGPT,标志着中国AI产品在全球市场上实现了历史性突破。而在中国市场,DeepSeek也超越了豆包。
对此,梁文锋坦言:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”而他的每一步,总能搅动行业风云。在行业普遍延用 LLaMA 架构时,他提出了全新的 MLA 架构;在巨头们砸下巨资打造大模型时,他以不足 ChatGPT-4o 十分之一的成本(仅 557.6 万美元)训练出DeepSeek-V3;在人才争夺战中,他的团队只有 139人,均来自国内顶尖高校。
坐拥曾经突破千亿私募、跻身“量化四大天王”之列的幻方量化;创建被硅谷称作“来自东方的神秘力量”的DeepSeek,梁文锋正用自己的节奏,在美国主导的AI行业中开辟出一条中国的道路。
梁文锋做主题演讲,图片来源:新华社客户端
大学毕业搞钱,缔造量化王国
梁文锋于1985年出生在广东湛江的一个普通家庭。他曾自己透露,父亲是一名小学老师。目前,网络上关于梁文锋儿时求学经历的资料相对稀少,这为他增添了一层神秘感,也让人更加好奇他如何从普通起点迈向科技与量化投资的巅峰。
据公开资料,2002年9月,梁文锋考入浙江大学电子信息工程专业。在校期间成绩优异,对数学和计算机都表现出了极大的兴趣。毕业一年后,2007年,梁文锋考入浙江大学信息与通信工程专业的硕士研究生。
在读研究生期间,梁文锋和当时的同学,也是后来的合伙人徐进发现,股票交易所可以做外挂炒股软件,于是几个同学就商量着在实验室自己动手。据徐进回忆,他们当时也是国内做量化最早的一批。起初股票收益盈亏不定,通过对每笔交易深入研究和修正优化,这几个研究生终于尝到了甜头。
2010年,沪深300股指期货的推出,为量化投资带来了发展的春天。据悉,借助这一契机,梁文锋团队迅速抓住市场机遇,实现了丰厚收益,自有资金突破5亿元。直到2014年,他们通过程序炒股积累了人生的第一桶金。
2015年4月,中证500股指期货上市,中国进入量化私募2.0时代。同年6月,经过一年多的考察与思考,梁文锋与徐进终于决定进军量化私募,成立杭州幻方科技有限公司(现为浙江九章资产管理有限公司)。除了算法交易服务之外,还为后续发展,如基本面研究和人工智能研究进行布局。
对大多数A股投资者来说,这个成立的时间点有着特殊的意义。就在第二天,上证指数盘中创下了这一轮大牛市的峰值——5178.19点。然而,这也成为一轮大熊市的起点。就在这一轮剧烈动荡的行情中,不少私募新星从神坛跌落。而对于幻方量化等众多量化私募来说,这场突如其来的大熊市却成为了难得的机遇。
不到一年后,梁文锋与徐进于2016年2月,又创立了宁波幻方量化投资管理合伙企业(有限合伙)。至此,幻方量化的格局初步形成。
大熊市的市场环境无疑为幻方量化的发展提供了绝佳的沃土。“机会总是留给有准备的人”,这句话用在幻方量化身上再合适不过。幻方量化早期产品的业绩表现格外亮眼。以‘幻方永途01号’为例,自2015年10月16日成立至2017年8月底,该产品累计收益率高达62.5%,远超同期沪深300指数8.15%的涨幅。同时,其最大回撤仅为1.86%,展现出卓越的风险控制能力。
幻方量化的管理规模也随着卓越的业绩稳步攀升。据相关数据显示,从2016年底突破10亿元,到2017年达到30亿元,再到2018年增长至60亿元,最终在2019年迈上百亿台阶。仅用四年时间,梁文锋便成功带领幻方量化跨越百亿关口。
同年,High-Flyer Capital Management (Hong Kong) Limited(幻方资本)正式成立,并取得香港九号牌照,标志着幻方在国际化布局上的重要一步。
值得一提的是,2018年,幻方量化首次获得由中国证券报主办的第九届私募金牛奖,该奖项被视为私募领域的重要荣誉。此后,幻方量化在梁文锋的带领下,连续五年获得该奖项。
2021年,幻方量化更是实现了千亿规模的飞跃,成功跻身国内量化私募的“四大天王”之列,进一步巩固了其在量化投资领域的领军地位。
提前布局AI算力加持
回顾幻方的发展历程,不难发现,梁文锋对AI的前瞻布局早已领先行业一步。
2016年10月21日,幻方推出了首个AI模型。据官网介绍,这一采用深度学习算法生成的股票仓位模型正式上线实盘交易,计算基于GPU技术。而在此之前,梁文锋团队的算法主要依赖线性模型和传统机器学习算法,且计算过程以CPU为主。
借助 AI 赋能,幻方量化快速成长。随后的一年中,幻方不断扩充AI算法研究团队和AI软硬件开发团队,到2017年底,几乎实现所有量化策略采用AI模型进行计算。到2018年,幻方正式确立以AI为核心的发展方向。
然而,随着管理规模的快速提升,复杂模型的计算需求也开始暴露单机训练的算力瓶颈。训练需求的爆发式增长与有限的计算资源之间的矛盾日益突出。梁文锋敏锐地意识到,必须尽快探索大规模算力解决方案,才能打破这一限制。
2019年,梁文锋创立了幻方AI(幻方人工智能基础研究有限公司),并启动了“萤火一号”AI集群的自主研发。据悉,“萤火一号”的占地面积相当于一个篮球场,搭载了500块显卡,采用200Gbps高速网络互联,其算力相当于4万台个人电脑。投资近2亿元的“萤火一号”于2020年正式投用。
此后,梁文锋进一步加码算力布局,启动了“萤火二号”AI集群的建设,累计投资高达10亿元,配备了1万张英伟达A100显卡。据相关报道,目前国内云厂商的GPU配置以中低性能为主(如A10),拥有超过1万枚A100芯片的企业屈指可数,而幻方更是行业唯一。
外界对他的大胆决策充满好奇:是什么样的胆识和洞察力,让他如此豪掷重金?对此,梁文锋在一次采访中回应道,这并非复杂的商业逻辑,而是出于对未知的好奇。他认为,算力、模型和数据是推动AI发展的核心,而储备尽可能多的算力,是为了支持更大规模的实验。
「萤火二号」机房,图片来源:知乎
此时的梁文锋关注的已不仅仅是如何将算力应用于量化投资,他的目光投向了技术的本质。他渴望探寻更深层次的问题:什么样的范式能完整描述金融市场?是否存在更简洁而优雅的表达方式?这些范式的能力边界又在哪里?它们是否具备更广泛的适用性?正是这些问题驱动着梁文锋不断挑战AI能力的极限,以技术与算力为工具,追寻答案的深处。
探索AGI,DeepSeek登顶美区,震惊硅谷
2023年,梁文锋宣布正式进军通用人工智能(AGI)领域,并于当年5月创立杭州深度求索人工智能基础技术研究有限公司(DeepSeek)。首期研发投入由幻方自主出资30亿元,同时由‘萤火二号’提供算力支持。
一年后,DeepSeek正式上线。随着DeepSeek的快速发展,幻方量化主动缩减资金规模,逐步将对冲产品的投资仓位降至零。截至2025年初,幻方资金管理规模已缩减至不足300亿元,退出行业前六名。
2024年5月6日,DeepSeek推出第二代大模型DeepSeek-V2,以极低的价格策略——每百万 tokens 输入1元、输出2元,引发了行业轰动。其成本仅为GPT-4 Turbo的约1%,迅速搅动AI大模型价格战,推动字节跳动、阿里云、科大讯飞等巨头相继调整定价策略。外界虽有人质疑这是“赔钱赚吆喝”,但梁文锋明确表示,这一策略源于技术进步带来的成本下降,以及其“人工智能应普惠大众”的坚定理念。
事实上,梁文锋并未将与大厂的竞争放在首位。在他看来,云服务并非目标。他真正追求的是实现通用人工智能(AGI)。为了这个目标,梁文锋选择跳脱模仿的框架,坚持走创新的道路。
于是我们看到,DeepSeek-V2不仅在价格上打破行业规则,更在技术上大胆革新。其核心采用自主研发的MLA架构(多头潜在注意力机制),显存占用仅为传统MHA架构的5%-13%。此外,稀疏结构DeepSeekMoE的引入进一步提升算力利用率。发布后,DeepSeek-V2获得国际关注,OpenAI 前员工 Andrew Carr 公开表示,他从 DeepSeek-V2 的论文中汲取了灵感,并将其训练设置应用于自己的模型。SemiAnalysis 的首席分析师更是称这篇论文“可能是今年最好的一篇”。
仅仅半年后,这个被硅谷誉为“来自东方的神秘力量”的团队,于2024年12月26日发布了第三代大模型DeepSeek-V3,采用6710亿参数的混合专家模型(MoE),表现不输GPT-4o和Claude 3.5等闭源模型,而训练成本却仅为557.6万美元,不足OpenAI GPT-4(6300万美元)的十分之一。
在这一过程中,DeepSeek始终坚持“开放”与“普惠”的理念。不仅完全开源DeepSeek-V3,不仅完全开源,还附带一份长达 53 页的论文,详尽介绍了训练细节。
图片来源:51cto.com
本月,DeepSeek发布了其最新的开源模型——R1。这款模型采用纯强化学习等先进技术,打造出一款世界上最强大的模型之一,并且采用完全开源的策略,迅速成为全球瞩目的焦点。任何人都可以检查、修改并基于该模型进行开发。
DeepSeek-R1的性能在多个任务上媲美甚至超越了OpenAI顶级模型。例如,在AIME 2024数学基准测试中,DeepSeek-R1得分为79.8%,超过OpenAI-o1的79.2%;在MATH-500基准测试中,R1达到了97.3%,优于o1的96.4%。尽管Codeforces编程测试上R1以96.3%的成绩略低于o1的96.6%,但其整体表现令人惊叹。
图片来源:雷锋网
更重要的是,DeepSeek并未依赖最新的计算芯片,而是通过技术创新取得了这些成果。团队引入了多头潜在注意力机制(MLA),将内存使用量降低至常见的多头注意力机制(MHA)的5%-13%。此外,自主研发的稀疏专家混合模型(DeepSeekMoESparse)仅激活必要组件,大幅提升了计算效率。R1模型尽管拥有6710亿参数,但实际操作中仅激活37亿个,展现了惊人的算力优化能力。
此外,DeepSeek 的 API 定价再次展现出极高性价比,输入和输出 token 分别收费约 4 元和 16 元/百万,而 OpenAI o1 的对应价格高达 110 元和 440 元/百万,差距近 30 倍。
在发布后不久,2025年1月27日,DeepSeek已成功登上中国和美国苹果应用商店的免费应用榜单第一位。在美国市场,DeepSeek已超越ChatGPT,标志着中国AI产品在全球市场上实现了历史性突破。而在中国市场,DeepSeek也超越了豆包。
英伟达AI负责人Fan Jim在社交媒体上对DeepSeek-R1模型表示感叹:“我们正处于一个非美国公司践行OpenAI最初使命的时代——真正的开放、前沿的研究,为所有人赋能。DeepSeek-R1不仅实现了开源,还公开了全部训练方法。”
而这样一个被业界大佬OpenAI前政策主管、Anthropic联合创始人Jack Clark形容为“雇佣了一批高深莫测的奇才”的团队,其核心却始终扎根于本土人才。
从量化投资起步,幻方量化由一支本土团队构建而成;而在DeepSeek阶段,这支团队由国内顶尖高校的应届毕业生、未毕业的博士生实习生以及刚毕业几年的年轻人组成,总人数仅139人,远少于OpenAI的1200人。梁文锋曾公开表示:“V2模型完全由本土人才完成,没有海外归来的人。”即便当下领域中排名前50的顶尖人才可能不在中国,他依然坚信:“我们能自己培养这样的人才。”
正是基于这种信念,梁文锋从未寻求融资,而是以低调且坚定的方式专注于“最难的事”,同时以此吸引更多志同道合的顶尖人才。他还热衷于慈善事业,积极回馈社会。2022年,幻方量化员工“一只平凡的小猪”向慈善机构捐款1.38亿元,外界普遍猜测这一捐款来自梁文锋本人。不久前,幻方量化还向西藏日喀则地震灾区捐赠了100万元。
梁文锋坚信,AGI(通用人工智能)将在我们有生之年实现,而中国必须有人站在技术的最前沿。他曾感慨:“过去三十多年IT浪潮中,中国基本未能参与真正的技术创新。随着经济发展,中国必须逐步成为贡献者,而不是一直搭便车。”
如今,梁文锋正以实际行动践行自己的信念,他引用法国新浪潮导演弗朗索瓦·特吕弗的一句话作为座右铭:“务必要疯狂地怀抱雄心,同时要疯狂地真诚。”
图片来源:幻方AI微信公众号
作者:Monte Yu 引用
1.浙江大学电信校友 2006届电子信息工程
http://www.zjuisee.zju.edu.cn/xyw/redir.php?catalog_id=62187&object_id=62777
2.浙江大学电信校友 2010届研究生
http://www.zjuisee.zju.edu.cn/xyw/redir.php?catalog_id=62188&object_id=63079
3.走访浙江九章资本(幻方量化)
https://www.ylcf.com.cn/simu/zx/87477.html
4.幻方官网
https://www.high-flyer.cn/history
5.“鲶鱼”梁文锋:左手幻方量化,右手DeepSeek
https://news.qq.com/rain/a/20240726A02WTJ00
6.第九届中国私募金牛奖获奖名单
https://epaper.cs.com.cn/zgzqb/html/2018-07/02/nw.D110000zgzqb_20180702_7-T01.htm?utm_source=chatgpt.com
7.“你降价,我免费”,大模型厂商“杀疯了”
https://www.stcn.com/article/detail/1212172.html
8.揭秘DeepSeek:一个更极致的中国技术理想主义故事
https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg
9.疯狂的幻方:一家隐形AI巨头的大模型之路
https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA
10.AI人物传:深度求索deepseek创始人梁文锋
https://zhuanlan.zhihu.com/p/4107656151
11.那个囤了上万张芯片的量化大佬,真开始干事了
https://zhuanlan.zhihu.com/p/12983012079
12.从幻方到DeepSeek:梁文锋如何成为大模型“价格屠夫”
https://news.qq.com/rain/a/20240806A0891V00
13.中国对冲基金富豪,冲到了AI科研的第一线
https://finance.sina.com.cn/money/fund/jjzl/2025-01-09/doc-ineekzhk9187646.shtml
14.10万月薪招人,百亿大佬进军大模型
https://www.21jingji.com/article/20240619/herald/6901aac47479534b1b1462857986d31d.html
15.量化巨头幻方搅局AI大模型:首期投入自有资金30亿元
https://www.stcn.com/article/detail/1263664.html
16.国产之光DeepSeek把AI大佬全炸出来了!53页论文技术细节大公开
https://finance.sina.com.cn/roll/2024-12-27/doc-ineawpix2704291.shtml
17.刷屏的DeepSeek,抄了英伟达的“老底”?
https://baijiahao.baidu.com/s?id=1820275053633606411&wfr=spider&for=pc
18.139位中国天才,做出一家让硅谷震撼的公司
https://baijiahao.baidu.com/s?id=1821014331965516893&wfr=spider&for=pc
19.DeepSeek创始人梁文锋,广东人,17岁考入浙大,30岁创办幻方,36岁管理千亿私募,仅靠百名中国程序员,已赶超OpenAI
https://mp.weixin.qq.com/s/hgfvLRJzaTaSUjX8IrPAPg
20.ChatGPT算力消耗惊人,能烧得起的中国公司不超过3家
https://m.huxiu.com/article/811823.html
21.幻方量化:以IT能力为核心打造量化投资盛宴
https://www.simuwang.com/news/218976.html
22.浙大天才,震惊硅谷
https://mp.weixin.qq.com/s/2A0SDXXnKNveQVYDrfa4mQ
23.21 深度丨量化巨头幻方搅局AI大模型:首期投入自有资金30亿元
https://finance.sina.com.cn/roll/2024-07-19/doc-incesaex0904048.shtml
24.DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平,成本降至1/30
https://baijiahao.baidu.com/s?id=1821910075732851287&wfr=spider&for=pc
25.DeepSeek-R1 最新发布,剑指 OpenAI o1
https://baijiahao.baidu.com/s?id=1821916523161314424&wfr=spider&for=pc
稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。