突然爆火!浙大天才,震惊全球

财富   2025-01-28 18:25   广东  

作 者丨孔海丽

编 辑丨骆一帆,江佩佩


1月28日,多个与DeepSeek相关的话题,霸屏热搜!




近段时间,梁文锋和公司团队开发的大模型“DeepSeek-V3”,一再震撼硅谷和华尔街,被海外称为“来自东方的神秘力量”。


1月27日,DeepSeek登顶苹果中国地区和美国地区应用商店免费App下载排行榜,超越了ChatGPT。



这当然是不折不扣的奇迹。


对此,网友们也纷纷评论点赞:




DeepSeek创始人17岁考上浙大,36岁掌管千亿私募



据公开资料,DeepSeek创始人梁文锋,1985年出生于广东省湛江市。梁文锋从小成绩优异,小学六年级时他就通过考试被吴川一中录用。一直是学校里的“尖子生”并在数学学科表现出极大天赋。


最后一排右边第6个是梁文锋。图源:湛江青年




2002年,梁文锋17岁,以吴川一中“高考状元”的成绩考上浙大本科电子信息工程专业,于2007年考上浙江大学信息与通信工程专业研究生。


2013年,梁文锋与浙大同学徐进共同创立了杭州雅克比投资管理有限公司,两年后又成立了杭州幻方科技有限公司,致力于通过数学和人工智能进行量化投资。


2021年,幻方的资产管理规模突破千亿大关,2023年,他宣布将正式进军通用人工智能领域,并创办了深度求索DeepSeek,专注于做真正人类级别的人工智能。


近日这名85后还现身《新闻联播》以AI初创公司深度求索(DeepSeek)创始人的身份参加了一场国家超高规格座谈会,并现场发言。


 




DeepSeek崛起,英伟达创纪录暴跌



当地时间1月27日,美股芯片板块大幅调整,英伟达暴跌16.86%,创市值最大蒸发纪录;博通大跌逾17%,甲骨文下跌近14%,纳斯达克下挫3.07%。




很多投资者将这次的调整归因于DeepSeek的崛起。这家位于杭州的人工智能公司,最近推出了最新开源大模型R1,其性能直追OpenAI大模型o1。


该公司去年12月推出的大模型DeepSeek-V3,多项测试性能直追Anthropic的Claude-3.5和OpenAI的闭源模型GPT-4o,个别项目甚至有所超越。


正当一批AI分析师认为DeepSeek只聚焦于语言大模型而暂时放弃多模态模型时,该公司于1月28日发布了一款多模态大模型Janus-Pro,而该模型在图像生成基准测试中超过了OpenAI的DALL-E3。


最令硅谷震惊的是,DeepSeek的开源大模型,性能卓越,却是在更低成本、更短时间、更少算力的基础上实现的。V3和R1的训练成本均只有550万美元左右,不及Anthropic和OpenAI同类模型成本的十分之一。


图源:DeepSeek官网



特朗普发声:DeepSeek为美国行业敲响警钟



美国总统特朗普当地时间27日在佛罗里达州迈阿密举行的共和党会议上表示,中国人工智能初创公司DeepSeek的崛起应当为美国企业敲响“警钟”,“这可能是非常积极的发展。因此,与其投入数十亿资金,不如花费更少的(资源),但愿能得出同样的解决方案。”



人工智能国际大佬又是如何看待这一奇迹?


微软首席执行官萨蒂亚·纳德拉(Satya Nadella)在世界经济论坛上谈到DeepSeek时表示:“DeepSeek的新模型令人印象深刻,他们不仅有效地构建了一个开源模型,能够在推理计算时高效运行,而且在计算效率方面表现出色。我们必须非常非常认真地对待中国的AI进步。”


创立于2022年的Perplexity,估值90亿美元,是仅次于Anthropic和OpenAI等第一梯队的人工智能新创企业。近日,Perplexity首席执行官Aravind Srinivas(阿拉温德·斯里尼瓦斯)在一次访谈中详谈了对DeepSeek的看法。


斯里尼瓦斯表示,需求是发明之母。由于硬件资源条件受限,中国企业不得不寻找变通方案,最终,“他们(DeepSeek)以更高效、更低成本的方式开发了类似(Anthropic和OpenAI)的技术。这确实让人感到压力”。如果说Meta正在赶上OpenAI或Anthropic,那么同样的说法也可以用于中国赶上美国。


但是,为DeepSeek的成就感到兴奋自豪之余,也要对世界人工智能永不停歇的发展势头保持客观理性的认识,不可盲目自满。



21观察│重新认识DeepSeek奇迹



21世纪经济报道记者近期采访了多位国内专家和相关从业人员、投资者,关于DeepSeek现象,有以下共识:


其一,V3和R1的重大突破,并不能证明算力不重要。


近几年以OpenAI为代表的美国人工智能发展,是建立在更强的算力、更大的参数、更高的成本之上。某种程度上,它可称之为人工智能的“硅谷叙事”。这个粗放豪横的模式讲到极致,就是5000亿美元的星际之门计划。


但中国企业无法获得高性能的芯片,也没有那么多的资金。客观条件受限,只能在底层算力基础上进行架构、算法和数据利用方面的探索,在特定领域走出一条高效率、低成本的实用主义路子。


这条路子就是如浙江大学计算机博士、美国南加州大学访问学者傅聪所说的,在“后训练”过程中,通过学习CoT(思维链)的方式,一步一步推理得出结果,而不是直接预测答案,“这一方案,也是圈子内对OpenAI o1模型实现路径的猜测,而Deepseek用极快的速度,验证了这一路径的可行性!”


事实上,DeepSeek创始人梁文锋透露,此前该公司已储备了万张A100芯片等。这比一般初创公司强多了。只不过,在开发V3和R1时,由于效率高,他们没有使用那么多算力罢了。


其二,英伟达等芯片股的调整,主要是市场风险的释放,与DeepSeek的重大突破之间,逻辑上没有必然联系。


以英伟达为代表的人工智能板块,已持续上涨几年。中间虽然偶有波动,但调整并不充分。英伟达PE长期横移在40倍上方,17日收盘后仍有45倍。


1月17日纳斯达克芯片股的大跌,更多是在高估值风险预期之下一种市场情绪的释放。


DeepSeek只是提供或者触发了风险释放的媒介。现在没有证据表明,全球算力尤其是高端算力资源已经过剩。更大的可能是,如果2025年打开了人工智能应用的空间,算力需求也会随之增加,只不过,像DeepSeek这样高效率利用算力,将会被更多企业借鉴。AI硬件仍有很大的增长空间,算力叙事没有过时。


当地时间1月27日,英伟达发表声明表示,DeepSeek所取得的进展,显示出其芯片在中国市场的实用价值,且未来为满足DeepSeek的服务需求,将需要更多英伟达芯片。


其三,探索与追赶:中国企业的创新能力在增强。


梁文锋去年7月在接受媒体采访时说,硅谷习惯于将中国AI公司视为follow的角色,当一个中国公司以创新贡献者的身份,加入到他们游戏里去,而且表现优异时,他们就很震惊。


毫无疑问,在大模型开发路径上,DeepSeek扮演了一种创新者的角色,亦即低成本、少算力的高效集成之路。


作为追赶者,存在后发优势。1月26日,在拾象创始人兼CEO李广密组织的关于 DeepSeek的闭门讨论会上,专家提出,AI 类似阶跃函数,现在做追赶者的算力需求少了 10 倍。追赶者的算力成本一直不太高,但探索者还是要训很多模型。


后发者可以聪明地进行创新。举个例子。大模型开发需要庞大的数据集(数据库)。而数据有没有标注,其精确度是不一样的。前述专家透露,DeepSeek 非常重视数据标注,听说梁文锋自己也会打标签,这就大大提高了他们数据的精确度。再比如,DeepSeek还善于做数据蒸馏(优化筛选),当然如果是开发通用大模型就不能做数据蒸馏。这些都是‌该公司Post-training更高效率的体现。


DeepSeek给国内同行的其他启示还包括,大模型开发在降低成本的同时也可以探索智能的边界,在Transformer之外寻找其他架构;产品上,AI agent在未获得大规模应用之前,有很大的探索空间,存在多领域商用的机会,今年在多模态方面,可能会出现能挑战ChatGPT形态的产品。


硅谷一位华裔资深AI工程师对21世纪经济报道记者说,DeepSeek以低成本、高效率开发了几款了不起的产品,探索出了一条全新的路径,让国际同行也不得不佩服,但我们在自豪之余,也要客观认识到,DeepSeek等中国AI新创企业,目前还不具备全面挑战OpenAI、Anthropic这些巨头的实力。人工智能的竞争才刚刚开始,前面有无限可能



你有使用DeepSeek吗?欢迎评论说说看


部分内容来自湛江青年、钱江晚报


SFC

本期编辑 江佩佩

 21君荐读 

DeepSeek又被挤崩!“找他们的人踏破门槛了”


DeepSeek,硅谷的至暗时刻


英伟达、台积电,甚至比特币跌幅均超6%……一切都因为 DeepSeek


21世纪经济报道
权威、专业、深度、有趣!用经济思维看世界。
 最新文章