🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
好了,Deep Seek 发布了新 R1 Light 模型,今天我们来聊聊它,他们声称这个模型释放了超级推理能力,推理过程包含大量反思和验证,思维链长度可达数万字。
官方说,该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并且,因为 OpenAI 的 o1 模型并没有展示推理过程,而这个模型提供了原始的推理过程,它可以帮助我们更好地理解这些模型如何进行推理,甚至可能改善我们与这些模型的互动方式。
我记得以前有一个问题:“ 如果正六边形的短对角线是64,那么它的长对角线是多少?” 很少有模型能答对,像GPT-4o这些都答不对。
而这次 ...
你可以看到上面是它的全局思维链展开过程(可上下滑动)
真的 ... 看他的思考过程我感觉挺有趣的,充满了验证和思辨。
在最终的给出答案的环节中我发现了他有几次的对比核对的情况,一方面用更简单的解释,一方面来比较结果是否真的正确。
看过网上一些关于推理 LLM 的视频,感觉这确实是未来的发展方向之一,未来几年,投资重点将集中在这里。
我又问了:前40个质数和的后4位是多少?正确的应该是:3087。
因为前40个质数和刚好是4位数即3087,
Deppseek在第1次计算得到这个正确的数字后猜测了一下我的意图:我问的是“后4位“。
他觉得也许是自己算错了,真实的数字很可能多于4位,
所以用户才问后四位,所以他决定它采用分组相加的方式再次验证了一遍:
通过分组相加的方式它最终验证自己的结果是对的。
然而他最后还是采取了确保万无一失的方式
搜索一下网络上的资料再一次确认最终的结果为:3087。
真的 ... 给人一种交给他办事很安心的感觉。
与此同时另一边 ...
这是Gpt-4o的解答:
不理想的 ...
也许你在一些需要复杂确定性的事件上可以考虑开启这个R1按钮了:DeepSeek ,深度思考 - 探索未至之境。
是的,竞争越多,我们获得 AGI 的速度就越快。
以前一篇文章写到的 “ 一直以来,国外的网友对国内的Qwen系列和DeepSeek系列模型表现出浓厚的兴趣。”
大家对于Deepseek这次的发布也纷纷点赞:
网友们也讨论了o1/R1这种模式和sonnet的区别和特点,软件工程师们往往更喜欢Claude。
我试过了,在某些任务的编码方面,它似乎仍然比o1-preview差,但我认为它的数学能力更好,希望OpenAl现在能释放o1-full。
实时透明的思维过程非常重要!我们可以看到它的思考过程,这真是令人惊叹。
其他一些观点不一的评价:
DeepSeek为何能快速复制o1的效果:
母语模型,如果都按中文的基准来测试,o1也没有那么好,R1 在中文任务中表现的比英文更好,R1的评估基准可能是是中文的基准:
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
[1] https://api-docs.deepseek.com/zh-cn/news/news1120
[2] https://www.youtube.com/watch?v=ozx_I55tqok&t=275s
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~