Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?

科技   2024-09-07 16:44   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

最近有一款新的Llama 3.1微调模型在网络上引起了关注,据称它比Claude 3.5 Sonet更好,是目前最好的开源模型。而且,这只是70B版本的微调模型,甚至不是405B版本。

这款模型名为Reflection 70B,之所以取这个名字,是因为它采用了一种新的训练技术,叫做反思微调(Reflection Tuning),这种技术教大语言模型(LLM)检测自己的推理错误并进行自我纠正。

创作者分享了基准测试的结果,正如你所看到的,它在几乎每个基准测试中都击败了其他所有模型,简直令人难以置信。

不过,仅凭这些基准测试还不足以完全信任它的能力,所以我们会亲自测试一下。

但是首先,让我给你解释一下什么是反思微调,这样我们才能理解它与众不同的地方,

以及为什么它有可能实现这些宣称的目标。

反思微调首次在这篇论文中被介绍。

反思微调方法的提议是,首先LLM考虑如何回答问题,然后它反思这个答案,意思是它会考虑自己所想的答案是否正确。如果认为需要调整,它会在生成最终输出之前做出调整。

模型会先思考,接着反思,然后才给出答案。它就像一个内部独白系统,挺酷的。但是,这可能也有一个缺点,那就是它可能会生成两到三倍于普通LLM的token数量,这会显著增加推理成本,这令人担忧。无论如何,我们来测试一下吧。

他们有一个托管的演示版可以试用,但不知为何无法使用,很多人对此抱怨。

不过它可以在Ollama上使用,所以我们可以从那里测试它。

然而,由于这是一个70B的模型,我无法在本地托管它,所以我会使用Lightning AI托管它,然后通过Open Web UI与之对话。我已经设置好了这一切,所以这不成问题。

无论如何,我们开始吧,看看它的表现。我将用这13个问题来测试它,所以让我们开始吧。

第一个问题是:哪个国家的名字以“lia”结尾,其首都是什么?答案应该是堪培拉或任何与“lia”押韵的国家首都。我们发送并查看结果。好的,这是答案,正确无误。

同时你可以看到它生成了多少token,这简直疯狂且完全不具成本效益。无论如何,标记为通过。

下一个问题是:与我们用来描述高大植物的词押韵的数字是多少?答案应该是“三”。让我们看看它的答案。好的,这是答案,正确无误,

所以标记为通过。

下一个问题是:John有三盒铅笔,每盒12支,总共有多少支铅笔?答案应该是36。我们发送并查看。好的,这是答案,正确无误,

所以标记为通过。

下一个问题是:Lucy的糖果是Mike的两倍,如果Mike有七颗糖果,那么Lucy有多少糖果?答案应该是14。我们发送并查看。这是答案,正确无误,所以标记为通过。

接下来的问题是:3307是质数吗?答案应该是“是的”。我们发送并查看。好的,这是答案,结果不正确。

即使经过所有的推理,模型仍然无法判断一个数字是否是质数,这很有意思。我们将其标记为未通过。

接下来的问题是:我有两个苹果,然后我再买两个。我用其中两个苹果做了一个派,吃掉了半个派。现在我还剩下多少苹果?答案应该是两个。我们发送并查看。好的,这是答案,

正确无误,所以标记为通过。

下一个问题是:Sally是个女孩,她有三个兄弟,每个兄弟都有两个相同的姐妹。Sally有几个姐妹?答案应该是一个。我们发送并查看。好的,这是答案,正确无误,

所以标记为通过。

接下来的问题是:如果一个正六边形的短对角线长度为64,它的长对角线是多少?答案应该是73.9。我们发送并查看。好的,这是答案,但不正确。我们将其标记为未通过。

接下来的问题是一些编程相关的内容。第一个问题是:创建一个HTML页面,包含一个按钮,点击时会放出五彩纸屑。你可以使用CSS和JS。我们发送并查看。这是生成的代码,让我们预览一下。

好的,这完全不起作用,我们将其标记为未通过。

下一个问题是:创建一个Python程序,输出基于用户输入的下一个X个闰年。我们发送并查看。这是代码,让我们运行一下。程序请求输入,我们输入数据后,输出正确无误。所以这很顺利,我们将其标记为通过。

接下来的问题是:生成一段SVG代码,绘制一只蝴蝶。好的,这是生成的代码,让我们预览一下。但这看起来不像蝴蝶,我们将其标记为未通过。

接下来的问题是:为一家AI公司创建一个着陆页,着陆页应包含四个部分:标题、横幅、功能介绍和联系我们页面。确保着陆页看起来简洁现代。你可以使用HTML、CSS和JS。我们发送并查看。这是生成的代码,让我们预览一下。

但这个页面看起来不太好,缺乏适当的间距或设计。相比之下,Llama 3.1生成的着陆页要好得多。所以我们将其标记为未通过。

下一个问题是:用Python编写一个在终端中运行的生命游戏。我们发送并查看。这是代码,让我们运行一下。好的,这个代码运行正常,

我没有任何问题,所以将其标记为通过。

现在,这是最终的测试结果图表。

我还添加了原始70B模型的测试结果。正如你所看到的,两者在五个问题上都失败了,虽然它们在某些问题上失败的原因不同。

这说明Reflection 70B并没有达到它所声称的与Claude或GPT-4o竞争的水平。尽管这是一个不错的模型,但它有很多限制。

虽然它在特定的推理任务上表现得很好,但总体上与其他模型相似。

可能原因是他们的目标并不是获取大量数据并教会模型如何推理,而本质上是教会模型认识到自己的错误。

创作者说:他们没有在过多的数据集上进行训练,他说他们一开始只有 1 万个样本,他们检查了一下效果,然后将其扩增到了 10 万个样本,其中包括一些代码数据和推理数据等。

他提到之前已有研究表明,通过让常规的指令模型进行反思,就能提升其性能。举例说,就算是 Claude 3.5 Sonnet 这样的模型,输出中也经常出现很多偏见,模型总是相信自己的结果是正确的。

线上访谈:https://www.youtube.com/live/5_m-kN64Exc

他们会在未来一周发布技术报告。

创作者表示,他们曾训练过8B版本的Reflection模型,但相比非反思的8B模型提升不大,70B模型的效果明显更好。因此,与其优化一个很快会过时的8B版本,他们更愿意专注于研究反思和其他可能超越反思的技术,短期内8B版本不太可能推出。

此外,该团队还在积极筹划打造 405B 参数量的 Reflection 模型,在训练完405b模型之后,未来他们将发布反思数据集。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

[1] video:https://www.youtube.com/watch?v=sX5J41Jmtkw

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章