DeepSeek发布全新推理模型,直接对标OpenAI o1!
DeepSeek刚刚发布了他们的新作品:DeepSeek-R1-Lite-Preview。
这个模型一出世就展现出了惊人的实力,在多个基准测试中与OpenAI的o1不相上下,甚至在某些方面还略胜一筹。
实力对标o1,数据说话
来看看这组数据有多惊人:
在AIME 2024基准测试中,DeepSeek-R1-Lite的pass@1达到了62.5,远超o1-preview的44.6。不仅如此,它在MATH、GPQA Diamond、Codeforces、LiveCodeBench等多个基准测试中都展现出了强劲实力。
AI专家@ijohn 评论到:
DeepSeek的一大亮点是他们的LLM模型在本地运行时的无与伦比的速度,这些『lite』版本简直太棒了。
深度思考的艺术
更令人惊叹的是,DeepSeek团队还公布了一组「推理扩展」的数据:
数据显示,随着思考时间的增加,模型的表现会持续提升。这种「深度思考」能力让模型在处理复杂问题时表现出色。
@Sivaji Sahoo在实测后表示:
它解释问题的思维过程和推理能力确实令人震惊。我感觉它的表现确实达到了o1 preview的水平。
实战检验:解谜能力超群
Philipp Schmid用一道复杂的数字解谜题来测试这个模型:
模型展示了清晰的推理过程,一步步分析线索:
9 2 8 5(一个数字正确但位置错误)
1 9 3 7(两个数字正确但位置错误)
5 2 0 1(一个数字正确且位置正确)
6 5 0 7(全部错误)
8 5 2 4(两个数字正确但位置错误)
通过逐步推理,最终成功得出正确答案:3841。
有趣的「人性化」表现
在处理日常任务时,模型也展现出了有趣的一面。比如在分析「strawberry」这个单词时:
模型对第三个「r」表现出了明显的「惊讶」,这种「人性化」的反应让人忍俊不禁,也从侧面展示了模型真实的推理过程。
未来可期
DeepSeek团队承诺:
开源模型即将推出
API接口即将开放
实时透明的思维过程
不过也有专家持谨慎态度。@deter3指出:
在数学方面,与o1相比仍有差距。」而@Darin则表示:「在指令遵循和主题把握方面,与Claude 3.5和Gemma 1114相比还有提升空间。
@Alexander De Ridder提出了一个值得思考的问题:
先进AI模型的崛起既令人着迷又充满希望。我们如何才能负责任地利用它们的潜力?
开源承诺
DeepSeek还宣布,他们将很快开源这个模型,并提供API接口。这一决定将会让更多研究者和开发者受益,推动整个AI领域的发展。
现在,任何人都可以在DeepSeek的官方网站(chat.deepseek.com)上免费体验这个强大的模型。
纵观OpenAI,AI 竞争正在从「能力竞赛」向「透明度竞赛」转变。
让AI不再是神秘的黑盒,而是可以被理解和信任的助手,这或许才是未来的发展方向。
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!