首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

科技 2024-09-07 16:44 湖南

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

最近有一款新的Llama 3.1微调模型在网络上引起了关注，据称它比Claude 3.5 Sonet更好，是目前最好的开源模型。而且，这只是70B版本的微调模型，甚至不是405B版本。

这款模型名为Reflection 70B，之所以取这个名字，是因为它采用了一种新的训练技术，叫做反思微调（Reflection Tuning），这种技术教大语言模型（LLM）检测自己的推理错误并进行自我纠正。

创作者分享了基准测试的结果，正如你所看到的，它在几乎每个基准测试中都击败了其他所有模型，简直令人难以置信。

不过，仅凭这些基准测试还不足以完全信任它的能力，所以我们会亲自测试一下。

但是首先，让我给你解释一下什么是反思微调，这样我们才能理解它与众不同的地方，

以及为什么它有可能实现这些宣称的目标。

反思微调首次在这篇论文中被介绍。

反思微调方法的提议是，首先LLM考虑如何回答问题，然后它反思这个答案，意思是它会考虑自己所想的答案是否正确。如果认为需要调整，它会在生成最终输出之前做出调整。

模型会先思考，接着反思，然后才给出答案。它就像一个内部独白系统，挺酷的。但是，这可能也有一个缺点，那就是它可能会生成两到三倍于普通LLM的token数量，这会显著增加推理成本，这令人担忧。无论如何，我们来测试一下吧。

他们有一个托管的演示版可以试用，但不知为何无法使用，很多人对此抱怨。

不过它可以在Ollama上使用，所以我们可以从那里测试它。

然而，由于这是一个70B的模型，我无法在本地托管它，所以我会使用Lightning AI托管它，然后通过Open Web UI与之对话。我已经设置好了这一切，所以这不成问题。

无论如何，我们开始吧，看看它的表现。我将用这13个问题来测试它，所以让我们开始吧。

第一个问题是：哪个国家的名字以“lia”结尾，其首都是什么？答案应该是堪培拉或任何与“lia”押韵的国家首都。我们发送并查看结果。好的，这是答案，正确无误。

同时你可以看到它生成了多少token，这简直疯狂且完全不具成本效益。无论如何，标记为通过。

下一个问题是：与我们用来描述高大植物的词押韵的数字是多少？答案应该是“三”。让我们看看它的答案。好的，这是答案，正确无误，

所以标记为通过。

下一个问题是：John有三盒铅笔，每盒12支，总共有多少支铅笔？答案应该是36。我们发送并查看。好的，这是答案，正确无误，

所以标记为通过。

下一个问题是：Lucy的糖果是Mike的两倍，如果Mike有七颗糖果，那么Lucy有多少糖果？答案应该是14。我们发送并查看。这是答案，正确无误，所以标记为通过。

接下来的问题是：3307是质数吗？答案应该是“是的”。我们发送并查看。好的，这是答案，结果不正确。

即使经过所有的推理，模型仍然无法判断一个数字是否是质数，这很有意思。我们将其标记为未通过。

接下来的问题是：我有两个苹果，然后我再买两个。我用其中两个苹果做了一个派，吃掉了半个派。现在我还剩下多少苹果？答案应该是两个。我们发送并查看。好的，这是答案，

正确无误，所以标记为通过。

下一个问题是：Sally是个女孩，她有三个兄弟，每个兄弟都有两个相同的姐妹。Sally有几个姐妹？答案应该是一个。我们发送并查看。好的，这是答案，正确无误，

所以标记为通过。

接下来的问题是：如果一个正六边形的短对角线长度为64，它的长对角线是多少？答案应该是73.9。我们发送并查看。好的，这是答案，但不正确。我们将其标记为未通过。

接下来的问题是一些编程相关的内容。第一个问题是：创建一个HTML页面，包含一个按钮，点击时会放出五彩纸屑。你可以使用CSS和JS。我们发送并查看。这是生成的代码，让我们预览一下。

好的，这完全不起作用，我们将其标记为未通过。

下一个问题是：创建一个Python程序，输出基于用户输入的下一个X个闰年。我们发送并查看。这是代码，让我们运行一下。程序请求输入，我们输入数据后，输出正确无误。所以这很顺利，我们将其标记为通过。

接下来的问题是：生成一段SVG代码，绘制一只蝴蝶。好的，这是生成的代码，让我们预览一下。但这看起来不像蝴蝶，我们将其标记为未通过。

接下来的问题是：为一家AI公司创建一个着陆页，着陆页应包含四个部分：标题、横幅、功能介绍和联系我们页面。确保着陆页看起来简洁现代。你可以使用HTML、CSS和JS。我们发送并查看。这是生成的代码，让我们预览一下。

但这个页面看起来不太好，缺乏适当的间距或设计。相比之下，Llama 3.1生成的着陆页要好得多。所以我们将其标记为未通过。

下一个问题是：用Python编写一个在终端中运行的生命游戏。我们发送并查看。这是代码，让我们运行一下。好的，这个代码运行正常，

我没有任何问题，所以将其标记为通过。

现在，这是最终的测试结果图表。

我还添加了原始70B模型的测试结果。正如你所看到的，两者在五个问题上都失败了，虽然它们在某些问题上失败的原因不同。

这说明Reflection 70B并没有达到它所声称的与Claude或GPT-4o竞争的水平。尽管这是一个不错的模型，但它有很多限制。

虽然它在特定的推理任务上表现得很好，但总体上与其他模型相似。

可能原因是他们的目标并不是获取大量数据并教会模型如何推理，而本质上是教会模型认识到自己的错误。

创作者说：他们没有在过多的数据集上进行训练，他说他们一开始只有 1 万个样本，他们检查了一下效果，然后将其扩增到了 10 万个样本，其中包括一些代码数据和推理数据等。

他提到之前已有研究表明，通过让常规的指令模型进行反思，就能提升其性能。举例说，就算是 Claude 3.5 Sonnet 这样的模型，输出中也经常出现很多偏见，模型总是相信自己的结果是正确的。

线上访谈：https://www.youtube.com/live/5_m-kN64Exc

他们会在未来一周发布技术报告。

创作者表示，他们曾训练过8B版本的Reflection模型，但相比非反思的8B模型提升不大，70B模型的效果明显更好。因此，与其优化一个很快会过时的8B版本，他们更愿意专注于研究反思和其他可能超越反思的技术，短期内8B版本不太可能推出。

此外，该团队还在积极筹划打造 405B 参数量的 Reflection 模型，在训练完405b模型之后，未来他们将发布反思数据集。

🌟希望这篇文章对你有帮助，感谢阅读！如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我，以便我用来评估创作方向。

[1] video：https://www.youtube.com/watch?v=sX5J41Jmtkw

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzkyMzY1NTM0Mw==&mid=2247493007&idx=1&sn=454ed89ea31fdf2520f2db4f0eb87a8b

AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯，提升技术效率。

最新文章

Napkin AI：这款免费AI工具，能把复杂的想法变成精彩的卡片，效率高到飞起！（Lisp提示词那样）

Memfree：一个混合 AI 搜索引擎，输入输出支持多模态内容（知识库+联网混合Rerank）

面试大厂被怼：怎么连Attention都不会？

GPTMe：这个 AI 代理最简单，可以做任何事情！（控制浏览器、搜索、代码、视觉）

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）

Bolt.new：这款全新免费编码代理太棒了！轻松超越 v0 和 Cursor！（告别 ChatGPT、Claude）

Flux-1.1 Pro 免费体验：AI绘画最先进的模型刚刚问世！（击败 Flux-1、SD-3！）

Vertex AI + ClaudeDev + Aider：谷歌300美元额度，免费体验 Claude-3.5 API ！

刚刚！最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装 + Whisper-web）

Aider（已升级）：Aider利用双模型架构做到85% SOTA得分！（架构师/编辑师助你实现编程新高度）

免费工具！如何用Napkins和Llama-3.2快速生成网页应用？

Molmo ：开源多模态LLM超越 GPT-4o（实际测试）

Ai-artifacts：免费使用o1模型！还有Claude Artifacts 功能，几秒生成全栈APP（10+编程任务测试）

全新Llama 3.2系列：性能提升明显，但真的是最优选择吗？（已测试)

谷歌 Gemini 1.5 Pro-002 与 Flash-2 发布：快速、优质、低价的AI新选择！

OpenMusic：新手友好！用AI轻松创作、普通GPU+几行代码生成高质量音乐 - 本地安装

本地AI文件管理器：AI驱动+私有LLM，免费整理你的文件库

Claude Dev（最新升级）：新增文件引用、视觉捕获和更多自定义功能

Qwen-2.5 + ClaudeDev + Aider：这套免费的AI编程工具链，简直太棒了！

快速打造AI应用！Taipy：只用Python，轻松构建生产级AI Web应用，功能强大还简单!

Mistral Small-2 全新发布！API免费用，商业模型大降价50%

Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

g1：o1推理链开源实现，原理竟如此简单！解决 60-80% 的困扰LLM的简单逻辑问题

Vchitect 2.0：开源文本到视频生成模型，创作20秒高质量短视频 Vs Gen-3、Kling、CogVideoX-5B

Sentient Agent：让 AI 控制你的浏览器，一键完成任务！三行代码自动控制浏览器（填表、查股票、播放视频）

Llama 3.1 70B AQLM-PV版发布！大模型压缩后可在24GB显存GPU上本地运行！！

GameGen-O来了！只需一句话，生成你的梦幻开放世界游戏，AI一键生成“ 类黑神话 ”？

ClaudeDev 升级：全面支持 o1 & Gemini，升级你的开发体验！

DataGemma RAG 27B - 第一款挑战幻觉的模型 - 本地安装

Piiranha-v1 - 使用 AI 模型保护你的个人信息 - 本地安装

Pixtral 12B：本地部署、图像分析和OCR功能全解析

Chai-1模型助力药物研发！一键本地安装，让AI预测分子结构（生物学多模态LLM）

Amica 与 Ollama：语音识别与3D渲染结合的AI聊天助手 - 本地安装

LLaMA-Omni ：Llama-3.1构建的低延迟、高质量端到端语音交互模型，旨在实现 GPT-4o 级别的语音能力

KAN 2.0：MIT 的 “ AI炼金术 ” 能否让科学发现像刷抖音一样快？

升级Ollama！MiniCPM-V2_6图像识别模型上线，适用于手机上单张图片、多张图片和视频的 GPT-4V 级 MLLM

VSCode+Aider+Supermaven：打造免费开源的顶级AI开发环境，别再为Cursor花钱了！

每日AI 9/10：DeepSeek-Coder再进化！音频驱动Loopy、KubeAI Kubernetes 上私有化AI部署

Dark Idol Llama-3.1 8B：最强角色扮演AI，未审查版助你尽情创作、不受限制的互动体验

Crawl4AI：AI驱动的网页抓取神器，结合LLM实现自动化数据提取与处理

Deep Seek V2.5：新一代上线！结合编码与通用能力，超越前作

Yi-Coder 9B、1.5B：最佳小型开源编码LLM就在这里！（击败 DeepSeek、Qwen 及其他）

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

ClaudeDev（已升级）：Ollama、Groq全面支持！轻松集成AI工作流

首个100%开源专家混合模型，7B参数仅1B推理成本、开源MoE新选择！（附安装教程）

我的世界中诞生AI文明！1000个自主智能体协作建立经济、文化、宗教和政府

Composio神器登场！为AI代理提供100+集成工具，代码、搜索、API全搞定

Aider （升级版）：最强AI编程助手新版发布！更强大、支持Shell命令、剪切和缓存！

时序+大模型火了！67篇研究洞察，ICLR等顶会热议新方向（LLM Prompt、Agent、视觉）

每日AI：Vercel v0 太棒了！！MLE-Agent、专注RAG与工具调用优化的Command R+

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉