DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。
根据DeepSeek公布的DeepSeek-R1信息显示,其在后训练阶段(Post-Training)大规模使用了强化学习(Reinforcement learning)技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
去年12月DeepSeek-V3发布后,AI数据服务公司Scale AI创始人Alexander Wang就发帖称,DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”
不到一个月之后,今年1月20日,DeepSeek正式开源R1推理模型。
据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
这一模型发布后,引发了海外AI圈众多科技大佬的讨论。例如,英伟达高级研究科学家Jim Fan就在个人社交平台上公开发表推文表示:“我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。”
图源:证券时报
1月24号,一条发布在匿名平台teamblind上的帖子疯传。一名Meta员工称,现在Meta内部因为DeepSeek的模型,已经进入恐慌模式。
这位Meta员工写道:
“一切源于DeepSeek-V3的出现,它在基准测试中已经让Llama 4相形见绌。更让人难堪的是,一家‘仅用550万美元训练预算的中国公司’就做到了这一点。
工程师们正在争分夺秒地分析DeepSeek,试图复制其中的一切可能技术。这绝非夸张。
管理层正为GenAI研发部门的巨额投入而发愁。当部门里一个高管的薪资就超过训练整个DeepSeek V3的成本,而且这样的高管还有数十位,他们该如何向高层交代?
DeepSeek-R1的出现让情况更加严峻。具体细节属于机密,不便透露,不过很快就会公开了。”
26日,DeepSeek出现了短时闪崩现象。不少网友反映,使用时遇到 “服务器繁忙” 的提示。对此,DeepSeek回应称,当天下午确实出现了局部服务波动,但问题在数分钟内就得到了解决。此次事件可能是由于新模型发布后,用户访问量激增,服务器一时无法满足大量用户的并发需求。不过,官方状态页并未将这一事件标记为事故。
来源:证券时报、九派新闻等
编辑:徐杰 复审:龚文婷 值班主任:徐茜茜
大江网给粉丝送福利了!
1分钱定制上古神蛇卫衣
蛇年春节将至,为感谢广大读者长期以来对大江网微信公众号的支持,我们联合京东特别准备了100件以《山海经》中的上古神蛇为灵感设计的卫衣回馈粉丝。获取的方法很简单:
1.1月23日至26日,在大江网微信公众号推送的每篇文章下面“点赞”“留言”,以及转发到朋友圈。
2.我们将综合您留言的质量、点赞量,以及转发量等,每天精选出25位粉丝送上优惠券,每日中奖名单及兑奖方式将于次日在大江网微信推文末尾公布。(每位用户限领一次)
大江网给粉丝送福利了!
1分钱定制上古神蛇卫衣
蛇年春节将至,为感谢广大读者长期以来对大江网微信公众号的支持,我们联合京东特别准备了100件以《山海经》中的上古神蛇为灵感设计的卫衣回馈粉丝。获取的方法很简单:
1.1月23日至26日,在大江网微信公众号推送的每篇文章下面“点赞”“留言”,以及转发到朋友圈。
2.我们将综合您留言的质量、点赞量,以及转发量等,每天精选出25位粉丝送上优惠券,每日中奖名单及兑奖方式将于次日在大江网微信推文末尾公布。(每位用户限领一次)