首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

重磅！DeepSeek发布R1 推理模型，硬刚OpenAI o1

旅行 2024-11-21 00:30 北京

DeepSeek发布全新推理模型，直接对标OpenAI o1！

DeepSeek刚刚发布了他们的新作品：DeepSeek-R1-Lite-Preview。

这个模型一出世就展现出了惊人的实力，在多个基准测试中与OpenAI的o1不相上下，甚至在某些方面还略胜一筹。

实力对标o1，数据说话

来看看这组数据有多惊人：

在AIME 2024基准测试中，DeepSeek-R1-Lite的pass@1达到了62.5，远超o1-preview的44.6。不仅如此，它在MATH、GPQA Diamond、Codeforces、LiveCodeBench等多个基准测试中都展现出了强劲实力。

AI专家@ijohn 评论到：

DeepSeek的一大亮点是他们的LLM模型在本地运行时的无与伦比的速度，这些『lite』版本简直太棒了。

深度思考的艺术

更令人惊叹的是，DeepSeek团队还公布了一组「推理扩展」的数据：

数据显示，随着思考时间的增加，模型的表现会持续提升。这种「深度思考」能力让模型在处理复杂问题时表现出色。

@Sivaji Sahoo在实测后表示：

它解释问题的思维过程和推理能力确实令人震惊。我感觉它的表现确实达到了o1 preview的水平。

实战检验：解谜能力超群

Philipp Schmid用一道复杂的数字解谜题来测试这个模型：

模型展示了清晰的推理过程，一步步分析线索：

9 2 8 5（一个数字正确但位置错误）
1 9 3 7（两个数字正确但位置错误）
5 2 0 1（一个数字正确且位置正确）
6 5 0 7（全部错误）
8 5 2 4（两个数字正确但位置错误）

通过逐步推理，最终成功得出正确答案：3841。

有趣的「人性化」表现

在处理日常任务时，模型也展现出了有趣的一面。比如在分析「strawberry」这个单词时：

模型对第三个「r」表现出了明显的「惊讶」，这种「人性化」的反应让人忍俊不禁，也从侧面展示了模型真实的推理过程。

未来可期

DeepSeek团队承诺：

开源模型即将推出
API接口即将开放
实时透明的思维过程

不过也有专家持谨慎态度。@deter3指出：

在数学方面，与o1相比仍有差距。」而@Darin则表示：「在指令遵循和主题把握方面，与Claude 3.5和Gemma 1114相比还有提升空间。

@Alexander De Ridder提出了一个值得思考的问题：

先进AI模型的崛起既令人着迷又充满希望。我们如何才能负责任地利用它们的潜力？

开源承诺

DeepSeek还宣布，他们将很快开源这个模型，并提供API接口。这一决定将会让更多研究者和开发者受益，推动整个AI领域的发展。

现在，任何人都可以在DeepSeek的官方网站（chat.deepseek.com）上免费体验这个强大的模型。

纵观OpenAI，AI 竞争正在从「能力竞赛」向「透明度竞赛」转变。

让AI不再是神秘的黑盒，而是可以被理解和信任的助手，这或许才是未来的发展方向。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453457401&idx=1&sn=737d9202f8ee5f04c75e5cc170c439bc

关注AGI 的沿途风景！

最新文章

最新企业AI报告出炉：OpenAI份额大跌16%，Anthropic正成最大赢家！

Andrej Karpathy谈模型的奇葩命名

重磅！Neuralink加拿大获批，脑机接口临床试验正式启动

AlphaQubit：量子计算错误纠正的未来之光

揭秘：这个GPT 套壳应用是如何做到500万用户的？

吴恩达推出大模型游戏创作课程！

重磅！DeepSeek发布R1 推理模型，硬刚OpenAI o1

地球能养活1000 亿人口吗？

OpenAI 悄悄开启 full-O1 测试！

重磅！ChatGPT开启「眼睛」，实时摄像头对话来了！

印度新闻巨头ANI 怒告OpenAI：你偷我家的菜！

Anthropic发布新研究：为AI评估引入统计误差条！

OpenAI发布学生写作指南，终于教会了学生如何「正确」使用ChatGPT！

EEG脑机接口：用脑子来控制机器人！

马斯克：2026年AGI必到，Optimus替你接送孩子！

Windsurf：Cursor 的最大竞争对手来了！

Perplexity重磅推出购物助手：AI购物新时代来了？

Claude变身「claude酱」，和二次元宅对线开口就是「绝绝子」

重磅！OpenAI o1 或于本周发布，API 推迟至2025年！

200M 模型 SOTA 开源图像细节描述！

李开复的01.ai 用3百万造出GPT-4级对手！

AI奶奶专治电信诈骗：40分钟废话连篇，骗子气到爆粗口！

Grok 3 因证明「黎曼假设」而被暂停训练？！

NEO 重磅问世：第一位「全能」机器学习AI工程师！

MoE「现形记」：训练时按需使用，推理时全员出动？

llms.txt：AI时代的robots.txt！

llama-ocr 登顶Hacker News！

AGI 定义之争：DeepMind vs OpenAI vs Anthropic

走近科学之，17岁高中生的“神级Prompt”

来了！ChatGPT 推出桌面级编程助手！

Anthropic推出Claude 智能改进器，「一键优化」你的AI提示词！

谍战！OpenAI 派飞机侦查马斯克xAI 超算中心

重磅！OpenAI「Operator」明年一月发布！

LeCun被指剽窃！Marcus怒斥：我要告你！

重磅！马斯克或将影响特朗普新政府的AI监管政策

Hinton：别学AI，去当水管工吧！

软体机器人的「超级肌肉」来了：力举千倍重物，柔软如肌肤

Ilya Sutskever：预训练已到瓶颈！

Sam Altman的Worldcoin：用眼睛换币，84%人亏损！

重磅！OpenAI前CTO Murati新团队初具规模！挖角OpenAI成功？

独家解密！Lex Fridman与Anthropic CEO 5小时长谈：Claude 4.0、AGI 2026年或将到来！

再见GPT！你好，「o」！

重磅！AlphaFold 3 终于开源了！

AGI 何时到来？Sam Altman、Dario Amodei、Geoffrey Hinton、Yann LeCun 的时间表

MobA：让AI 真正学会使用手机！

大模型进入瓶颈期，Gary Marcus：我赢了！

OpenAI 新模型Orion 或难产！

Sora 两周内发布！

狂飙！ChatGPT跃升至全球第八大网站！

SpaceX「火星互联网」计划曝光：每秒千万亿比特的星际通信！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉