重磅!DeepSeek发布R1 推理模型,硬刚OpenAI o1

旅行   2024-11-21 00:30   北京  

DeepSeek发布全新推理模型,直接对标OpenAI o1!

DeepSeek刚刚发布了他们的新作品:DeepSeek-R1-Lite-Preview

这个模型一出世就展现出了惊人的实力,在多个基准测试中与OpenAI的o1不相上下,甚至在某些方面还略胜一筹。

实力对标o1,数据说话

来看看这组数据有多惊人:

在AIME 2024基准测试中,DeepSeek-R1-Lite的pass@1达到了62.5,远超o1-preview的44.6。不仅如此,它在MATH、GPQA Diamond、Codeforces、LiveCodeBench等多个基准测试中都展现出了强劲实力。

AI专家@ijohn 评论到:

DeepSeek的一大亮点是他们的LLM模型在本地运行时的无与伦比的速度,这些『lite』版本简直太棒了

深度思考的艺术

更令人惊叹的是,DeepSeek团队还公布了一组「推理扩展」的数据:

数据显示,随着思考时间的增加,模型的表现会持续提升。这种「深度思考」能力让模型在处理复杂问题时表现出色。

@Sivaji Sahoo在实测后表示:

它解释问题的思维过程和推理能力确实令人震惊。我感觉它的表现确实达到了o1 preview的水平

实战检验:解谜能力超群

Philipp Schmid用一道复杂的数字解谜题来测试这个模型:

模型展示了清晰的推理过程,一步步分析线索:

  • 9 2 8 5(一个数字正确但位置错误)

  • 1 9 3 7(两个数字正确但位置错误)

  • 5 2 0 1(一个数字正确且位置正确)

  • 6 5 0 7(全部错误)

  • 8 5 2 4(两个数字正确但位置错误)

通过逐步推理,最终成功得出正确答案:3841。

有趣的「人性化」表现

在处理日常任务时,模型也展现出了有趣的一面。比如在分析「strawberry」这个单词时:

模型对第三个「r」表现出了明显的「惊讶」,这种「人性化」的反应让人忍俊不禁,也从侧面展示了模型真实的推理过程。

未来可期

DeepSeek团队承诺:

  • 开源模型即将推出

  • API接口即将开放

  • 实时透明的思维过程

不过也有专家持谨慎态度。@deter3指出:

在数学方面,与o1相比仍有差距。」而@Darin则表示:「在指令遵循和主题把握方面,与Claude 3.5和Gemma 1114相比还有提升空间

@Alexander De Ridder提出了一个值得思考的问题:

先进AI模型的崛起既令人着迷又充满希望。我们如何才能负责任地利用它们的潜力?

开源承诺

DeepSeek还宣布,他们将很快开源这个模型,并提供API接口。这一决定将会让更多研究者和开发者受益,推动整个AI领域的发展。

现在,任何人都可以在DeepSeek的官方网站(chat.deepseek.com)上免费体验这个强大的模型。

纵观OpenAI,AI 竞争正在从「能力竞赛」向「透明度竞赛」转变。

让AI不再是神秘的黑盒,而是可以被理解和信任的助手,这或许才是未来的发展方向。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章