昨天,Reflection 70B的发布算是给安静好久的LLM领域带来了一针兴奋剂。虽然Reflection这篇论文,已经发布了一段时间,但是并没有得到大规模的工业验证。这次Reflection 70B的发布,直接证明了作者的工作成绩,并且完全揭开了闭源模型的神秘性。开源模型,完全可以走出一条适合自己发展的路,甚至大概率会超过闭源模型。闭源与开源模型,最终可能会像windows与linux一样的结局。
先看看公告原文:
令人震惊! 70B 开放
@AIatMeta
Llama 3 比
@AnthropicAI
Claude 3.5 Sonnet 和
@OpenAI
使用 Reflection-Tuning 的 GPT-4o 更好!在 Reflection Tuning 中,LLM 接受合成、结构化数据的训练,以学习推理和自我纠正。 在助理的回复中,LLM: 1 ⃣首先输出其推理<thinking>标签。 2 ⃣如果模型检测到推理中的错误,它会使用<reflection>标签内的<thinking>部分来发出信号并尝试自我纠正。 3 ⃣一旦对其推理感到满意,它会在<output>标签。 模型结果: 89.9%MMLU,79.7%MATH,90.1%IFEval> Sonnet 3.5,GPT-4o世界顶级开放法学硕士(截至发布时)并使用 LMSys 的法学硕士净化器检查污染情况由 Llama 3.1 70B 训练,使用新的特殊令牌进行指导<thinking>,<reflection> ,<output> 405B 型正在开发中,有望成为现有最佳型号可用
@huggingface
生成参数温度 0.7,top_p 0.95不,80 亿规模的成功尚未实现附加<thinking>导致输出 token 数量和 e2e 延迟增加数据集和训练报告将于下周发布 型号: huggingface.co/mattshumer/Ref向
@mattshumer_
、
@csahil28
和
@GlaiveAI
致以崇高的敬意。
Reflection方法,相当是重新合成了数据,带有思考、反思的阶段性内容。
我们只需要修改一下prompt,如下图的写法,很快就能用上。
现阶段,对齐方法与数据质量,还是大模型最为简单有效的提升方法。期待LLM未来出现新的技术突破,我也会继续给大家分享与讲解内部原理与机制。