来源 | 外滩教育(ID:TBEducation)
作者 | 张楠
2025年的第一波科技震撼,来自国产人工智能DeepSeek(深度求索)。
1月20日晚,DeepSeek发布新模型 DeepSeek-R1 正式版。很快,访问量激增,甚至一度让DeepSeek闪崩,但问题在数分钟内得到解决。
截至发稿,DeepSeek已经在App Store中国区免费榜登顶,在美区也已经飙升至第二,仅次于ChatGPT。
在专业测试中,该模型表现优于OpenAI、Meta和Anthropic等一众美国领先人工智能公司。
更重要的是,DeepSeek仅仅用了十分之一的成本,就达到了GPT-o1级别的表现。
与国际巨头相比,DeepSeek这个国产AI凭借更低成本、更强性能和更开放的技术路线,迅速引发全球关注。
谷歌搜索关于DeepSeek的新闻报道
Scale AI 的 CEO Alexandr Wang 称其为一款“震撼世界的模型(earth-shattering model)”;
英伟达高级研究科学家Jim Fan评论说:“我们生活在这样一个时代:一个不是美国公司的AI企业却实现了 OpenAI成立时的使命——做真正开放的前沿研究、为所有人赋能”;
而扎克伯格则立即表示,Meta计划在 2025 年投入超过 600 亿美元,加大对人工智能的投入。
01
DeepSeek
何以震撼行业?
创立于2023年7月,DeepSeek诞生至今还不足两年,但这却不是它第一次成为众人瞩目的焦点。
去年,他们发布的DeepSeek V2的开源模型,提供了一种史无前例的性价比:
推理成本被降到每百万token仅1块钱,相当于花1块钱就能写1万条小红书(以350字计算),约等于GPT-4 Turbo的1/70。因此,DeepSeek还得了个“AI界拼多多”的名号。
2024年中,各大模型API价格对比
图源:硬AI
去年底发布的DeepSeek-V3,延续了这种超高性价比的特点。它以极低的训练成本,实现了与GPT-4o等顶尖模型相媲美的性能。
而此次推出的新模型DeepSeek-R1,不仅成本低,更是在技术上有了大福提升。最重要的是,它还是一个开源模型。
这些到底意味着什么呢?
熟悉AI的朋友可能有所了解,以GPT为代表的大语言模型,是以巨大的算力喂养出来的。
而巨大的算力则需要巨大的能耗、高昂的成本——有云计算专家提出,1万枚英伟达A100芯片是做AI大模型的算力门槛——这往往不是一家创业公司能够负担得起的。
而且,根据DeepSeek的说法,国内最好的AI模型水平和国外最好的相比,因为模型和训练方式的差距,可能需要消耗4倍算力,才能达到同等效果。
再加上,美国对先进半导体的出口管制使情况变得更加复杂。自2022年起,美国就持续对中国实施AI芯片出口管制。今年1月13日,美国商务部扩大AI芯片出口管制,中国被列为高风险国家,被全面禁止进口英伟达先进芯片。
《华尔街日报》相关报道截图
有钱、有芯片,就卡死了国内一大片想要人工智能大模型的创业公司。套用李开复的话,这是一个“前排玩家”才有资格入局的游戏。
而DeepSeek,恰好是“前排玩家”之一。
DeepSeek的掌舵人梁文锋,此前更广为人知的身份,是私募巨头幻方量化的创始人。而这家公司,则是迄今为止业内唯一规模曾迈过千亿大关的量化私募,据说每年用于慈善捐款的预算都有数亿元。
梁文锋一直是人工智能的忠实信徒,坚信AI可以改变世界。所以在DeepSeek创立之初,它就是大厂外唯一一家储备万张A100芯片的公司。
但“有资格入局”和“玩出名堂“毕竟是两码事——真正让DeepSeek震撼行业的,是其凭一己之力,实现了技术创新,松动了“唯有大力才能出奇迹”的游戏规则。
训练AI的推理能力传统的方法通常是,给AI模型一个范本答案,通过微调指令和过程奖励模型,来让模型学会用思维链思考。有的还会加入会加入算法,让模型找到最优解。然后再不断反复强化,使模型向范本无限靠近。
传统模型训练路径
图源:腾讯新闻
而DeepSeek-R1则采用了一种“纯”强化学习路径,只给出两个基本规则:答对了加分,答错了扣分;同时要求模型用特定方式记录思考过程。让模型在不断尝试和得到反馈中来提升推理能力。
这种直接的训练方式,虽不完美,但极大提高了训练效率,也大幅减少了对计算资源的需求。
当然,这只是DeepSeek“减负增效”魔法的一小部分。压缩、并行、提升硬件使用效率,DeepSeek一直在技术端尝试,如何“花小钱办大事”。所以,与外界普遍认为的"烧钱"不同,DeepSeek已经实现盈利。
这还没有说到最关键的部分:模型开源和公开技术报告。
DeepSeek-R1训练技术全部公开
图源:Github截图
2025年了,人工智能领域的竞争已经白热化。Open AI都不open(开源)了,Deepseek此举可不仅仅是姿态上好看,更是对那些试图通过出售技术来获取巨额利润的公司构成了实打实的挑战。
o1类推理模型价格对比
图源:DeepSeekAPI文档
从这个角度上看,让硅谷难安的DeepSeek,可说是翻开了AI技术发展的新一页。
02
坚信AI改变世界
浙大学霸勇闯无人区
对于DeepSeek模型在美引发的广泛讨论,背后的操盘手梁文锋却很淡然。
他在接受媒体采访时表示,“在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。”
1月20日,梁文锋参加总理座谈会
图源:央视新闻
1985年,出生于广东湛江的梁文锋为人低调,但在技术创新上却是信心十足。
在浙江大学先后拿到电子信息工程学士学位和信息与通信工程硕士学位后,2015年,梁文锋和两位浙大校友共同创立了幻方量化。
梁文锋在浙大就读期间的科研成果
图源:浙江大学官网
之后,仅用了六年,幻方便抵达千亿规模,并被业界称为“量化四大天王”之一。
彼时,幻方就自带一股离经叛道的气质。和其他同类公司创始人大多拥有海外对冲基金履历不同,幻方完全本土起家,独自摸索,而且在很多做法上也没有“按照约定俗成的道路”走,大大方方按照自己想要的方式来。
梁文锋坚持对人工智能的研发投入,就是很好的例证。他从在浙大读书时就坚信,人工智能可以改变世界。在专注做量化的数年间,他也没有停下对AI领域的关注和探索。
2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。
幻方量化官网截图
据梁文锋自己说,这是一个“好奇心驱动”而非商业逻辑下的动作,所以在当时很多人都不理解。不过,如今再看,恰恰是这份对技术的好奇、对创新的向往,让他比很多大厂都更早拿到了做Open AI的算力入场券。
这当然不仅仅是运气,更源于他敢于执行不被普遍理解的事业的勇气。
很少公开谈自己的梁文锋,提过一则年少时的往事:
K12 成长与教育社区
追踪前沿资讯 洞察成长规律
挖掘充满温度的故事 探索融合世界的教育
编辑 | 京教君
内容来源 | 外滩教育
今日推荐视频
欢迎扫码加入
京教圈学习交流群
点分享
戳在看
求点赞