短短一个月内,中国AI初创公司深度求索(DeepSeek)先后发布了DeepSeek-V3和DeepSeek-R1两款大模型,成本价格低廉,性能与OpenAI相当,让硅谷震惊,甚至引发了Meta内部的恐慌,工程师们开始连夜尝试复制DeepSeek的成果。
1月24日,美国消费者新闻与商业频道CNBC发文称,DeepSeek的AI模型“威胁美国在AI领域的主导地位”。同日,华尔街顶级风投A16Z创始人马克·安德森在社交媒体发言称,DeepSeek-R1是其见过的最令人惊叹,最令人印象深刻的突破之一,并且是开源的,是给世界的礼物。英伟达资深科学家、AI智能体业务负责人Jim Fan也对其给予了高度评价。斯坦福大学和Epoch AI的研究人员去年年中发表了一项研究表明,到2027年,最大型的模型的训练成本将超过10亿美元。Gartner预测,到2028年Google、Microsoft和AWS等超大规模企业仅在AI服务器上的支出就将高达5000亿美元。但DeepSeek完全不同,它的训练成本并不昂贵。Noah's Arc资本管理公司表示,DeepSeek-V3模型有可能彻底改变训练和推理领域的游戏规则。
另据媒体报道,Meta员工在美国匿名职场社区teamblind上发帖提到,DeepSeek最近的一系列动作让Meta的生成式AI团队陷入了恐慌,工程师正在疯狂地分析DeepSeek,试图从中复制任何可能的东西。在此前,OpenAI前政策主管、Anthropic联合创始人杰克·克拉克表示,其认为DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型“将和无人机、电动汽车一样,成为不容忽视的力量。”一些国外的科技博客也对DeepSeek进行了连篇累牍的报道。
让欧美科技、创投圈大佬及媒体不吝溢美之词的中国大模型公司,究竟强在哪里?几天前,总部位于中国杭州的DeepSeek发布推理模型R1,在性能逼近OpenAI o1正式版的同时,推理成本却仅为后者的几十分之一。纽约时报称,DeepSeek大模型以极低成本(600万美元)和少量芯片(2000块)实现了与OpenAI等巨头相媲美的性能,挑战了“唯有科技巨头才能研发尖端AI”的行业共识。低成本实现高性能模型研发,对用户来说的体验感也立竿见影——它功能强大,但却免费使用,并且DeepSeek还将代码面向开发者进行了开源。“GPT o1一个月得200美元呢,DeepSeek能力强还完全免费,强啊,省钱了。”有网友评论道。还有人表示,自己近期通过DeepSeek的模型写代码,表现比GPT更好。记者体验发现,登录DeepSeek官网或手机App,就能通过“深度思考”这个功能来体验DeepSeek R1的能力。在使用测试的过程中,R1既能用动画解释量子力学,轻松应对脑筋急转弯,也能用缜密的逻辑来回答电车难题等各种问题。据了解,DeepSeek R1没有使用业内普遍使用的监督微调(SFT)训练范式,而是直接通过强化学习让模型自主进化出复杂的推理能力,包括反思和长链思考等能力。这种方法不仅提高了训练效率,还减少了对昂贵计算资源的依赖。与OpenAI的o1相比,DeepSeek模型的百万token输入成本从15美元锐减到0.55美元,输出成本则从60美元降低到2美元。有人提出,DeepSeek恰恰是美国对华进行芯片出口限制之下所激发出的创新。业内人士认为,DeepSeek的出现预示着中国AI产业正从“跟随创新”转向“范式创新”,全球AI竞争进入技术多极化时代。“我相信如果未来要对抗美国的AI技术霸权,中国的大模型技术‘复仇者联盟’战队里一定有DeepSeek一份。”360创始人周鸿祎说。
校对 李怀英
审核 饶竹舟
监制 高筱娟
来源 北京晚报 澎湃科技 每日经济新闻
头图 AI图片