DeepSeek“横空出世”,成功的关键源于这两点

时事   其他   2025-01-27 19:20   四川  
韩浩月赵


技术自会找到自己的出路,而技术又总会在意想不到的方向萌发出来

近段时间,中国国产大模型DeepSeek持续引发业内震动。据报道,1月27日,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。 

Deepseek来自国产大模型公司深度求索,1月20日,该公司正式发布推理大模型DeepSeek-R1。一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动,更是凭借极低的训练成本震撼了硅谷。
根据报道,作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版。更令市场惊讶的是,据DeepSeek介绍,R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。DeepSeek表示,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
较低的训练成本使得DeepSeek的使用成本也较低,因此具有了较强的竞争力。而这也是其引发业内震动的一大原因,有媒体报道,脸书母公司Meta成立了四个专门研究小组来研究DeepSeek的工作原理,其中两个小组正在试图了解该公司如何降低训练和运行DeepSeek的成本。此外,OpenAI、Meta和其他顶级人工智能团队的开发人员一直在仔细研究DeepSeek模型,并试图搞清楚其为何能够比一些美国制造的模型更便宜、更高效地运行。
从目前来看,DeepSeek的成就,当得起全球业界的由衷惊叹与中国社会的赞美之词。它的成功至少带来两个启示:
一是开源的力量。一方面,DeepSeek体现了国产大模型的能力,甚至有可能追赶、反超世界先进水平。另一方面,DeepSeek源于开源研究和开源项目,比如PyTorch和来自Meta的Llama。Meta首席AI科学家杨立昆(Yann LeCun)在其发表在Threads上的一篇文章中指出,比起“中国AI超越了美国”的观点,DeepSeek-R1更重要的是证明了开源模型正在超越专用模型,这就是开放研究与开源的力量。 
开源是技术上“开放”的结果,开源为创新提供了诞生的土壤,也让全球的开发者可以共同参与进来,探索人工智能的下一个边界。 
二是技术自会找到自己的出路,从意想不到的地方萌发出来。DeepSeek源于一家量化私募公司幻方量化。所谓量化私募,就是私募基金管理人,把自己的投资理念数学模型化,再利用计算机进行大量股票历史数据处理和模型计算,最终通过模型筛选合适投资标的。说白了,是利用计算机、算法、人工智能在资本市场进行投资。 
一家量化基金为什么要做这样一件事?从之前的访谈来看,幻方量化想搞清楚什么样的范式可以完整地描述整个金融市场,他们注意到神经网络AlexNet带来的新趋势。出于研究的需要,他们就开始逐渐储备GPU、人才。从最早的1张卡,到2015年的100张卡、2019年的1000张卡。2021年,幻方量化有先见之明地储备了1万枚GPU,成为大厂外唯一一家储备万张A100芯片的公司。与此同时,幻方量化独建了一个名为深度求索的新公司做大模型,这时的业务其实跟量化和金融都没有直接关系了。 
这就是所谓的技术自会找到自己的出路,而技术又总会在意想不到的方向萌发出来。于是,一家做量化交易的投资公司,最终占据了全球AI的高地。某种程度上,幻方量化的路径和英伟达也是相似的。 
英伟达最初是做游戏显卡芯片GPU,随着游戏的发展,GPU越来越强大,如此强大的芯片,如果只是作为显卡就太浪费了,于是,2006年英伟达发布新一代显示芯片GPU G80,正式推出通用计算单元概念(CUDA)。所谓通用计算,指GPU芯片不但可以处理游戏图形,也可以处理一些原本由CPU处理的计算。
当时的一家IT媒体评价:G80远不止一个新的GPU那么简单。但那个时候,即便黄仁勋也没想到如今CUDA会有如此广泛而重要的用途,涵盖了区块链、人工智能、深度学习、大规模并行运算等多个方面。但技术在发展自身的过程中,自然会找到其他应用。现在,英伟达也成为人工智能、数据运算、自动驾驶的底层芯片提供商。
从这两点来看,DeepSeek的成功,最终源于开放与市场,源于中国超大规模的市场优势。 
红星新闻特约评论员 刘远举

编辑 汪垠涛

红星评论投稿邮箱:hxpl2020@qq.com

-  推 荐 阅 读  -


【 精 选 评 论 】

与风雪共舞,直到春天来临
政府大院无门岗随意进出,为何有人不适应
郑钦文一句“别喊了”戳中大众痛点

【 热 门 话 题 】

热点关注依法行政国际纵横反腐观察以案释法政事热点丨网事论见文化观养儿育女小黄看剧青年议见

【 特 别 策 划 】

主流媒体系统性变革大家谈丨百年奥运与明日世界新年献词丨破壁2023丨青年与世界丨变局2022丨“我看冬奥”丨“与幸福有关的十年” 丨俄乌冲突 丨与智能机器抢饭碗丨关注二十大丨年有“余”味丨45℃沸谈突围2021丨疫情时代的求索丨病毒重构的世界“时代的那双眼”新年策划关注阿富汗“变天”解局“少年自杀”观潮:我和我的5年红星“两会三人评”  

【 评 论 大 赛 】

第五季红星新闻高校评论新秀挑战赛

第四季红星新闻高校评论新秀挑战赛

第三季红星新闻高校评论新秀挑战赛

第二季红星新闻高校评论新秀挑战赛

第一季红星新闻高校评论新秀挑战赛

【 作 者 专 辑 】

守一易之伍里川王石川佘宗明韩浩月赵志疆赵清源刘远举杨三喜舒圣祥龙之朱朱昌俊白晶晶李一凡熊志

……



转发,点赞,在看,安排一下?

红星评论
观点有趣、行文至软、理性有力
 最新文章