AI最新进展:Reflection 70B Open LLM击败了最强大模型Claude。Reflection新方法介绍

文摘   2024-09-07 07:53   北京  

    昨天,Reflection 70B的发布算是给安静好久的LLM领域带来了一针兴奋剂。虽然Reflection这篇论文,已经发布了一段时间,但是并没有得到大规模的工业验证。这次Reflection 70B的发布,直接证明了作者的工作成绩,并且完全揭开了闭源模型的神秘性。开源模型,完全可以走出一条适合自己发展的路,甚至大概率会超过闭源模型。闭源与开源模型,最终可能会像windows与linux一样的结局。

先看看公告原文:


令人震惊! 70B 开放

@AIatMeta

Llama 3 比

@AnthropicAI

Claude 3.5 Sonnet 和

@OpenAI

使用 Reflection-Tuning 的 GPT-4o 更好!在 Reflection Tuning 中,LLM 接受合成、结构化数据的训练,以学习推理和自我纠正。 在助理的回复中,LLM: 1 ⃣首先输出其推理<thinking>标签。 2 ⃣如果模型检测到推理中的错误,它会使用<reflection>标签内的<thinking>部分来发出信号并尝试自我纠正。 3 ⃣一旦对其推理感到满意,它会在<output>标签。 模型结果: 89.9%MMLU,79.7%MATH,90.1%IFEval> Sonnet 3.5,GPT-4o世界顶级开放法学硕士(截至发布时)并使用 LMSys 的法学硕士净化器检查污染情况由 Llama 3.1 70B 训练,使用新的特殊令牌进行指导<thinking>,<reflection> ,<output> 405B 型正在开发中,有望成为现有最佳型号可用

@huggingface

生成参数温度 0.7,top_p 0.95不,80 亿规模的成功尚未实现附加<thinking>导致输出 token 数量和 e2e 延迟增加数据集和训练报告将于下周发布 型号: huggingface.co/mattshumer/Ref

@mattshumer_

@csahil28

@GlaiveAI

致以崇高的敬意。


Reflection方法,相当是重新合成了数据,带有思考、反思的阶段性内容。

我们只需要修改一下prompt,如下图的写法,很快就能用上。

现阶段,对齐方法与数据质量,还是大模型最为简单有效的提升方法。期待LLM未来出现新的技术突破,我也会继续给大家分享与讲解内部原理与机制。

行恒编程1对1
Python、R、CS编程1对1咨询辅导,一对一在线/线下会议教学模式,超过100次的高分成功辅导真实案例。智算中心运营方案规划与大模型AI咨询服务,2021年开始从事大模型架构工作。
 最新文章