AI最新进展：Reflection 70B Open LLM击败了最强大模型Claude。Reflection新方法介绍

文摘 2024-09-07 07:53 北京

昨天，Reflection 70B的发布算是给安静好久的LLM领域带来了一针兴奋剂。虽然Reflection这篇论文，已经发布了一段时间，但是并没有得到大规模的工业验证。这次Reflection 70B的发布，直接证明了作者的工作成绩，并且完全揭开了闭源模型的神秘性。开源模型，完全可以走出一条适合自己发展的路，甚至大概率会超过闭源模型。闭源与开源模型，最终可能会像windows与linux一样的结局。‍‍‍‍‍‍‍‍‍‍

先看看公告原文：

令人震惊！头炸了 70B 开放

@AIatMeta

Llama 3 比

@AnthropicAI

Claude 3.5 Sonnet 和

@OpenAI

使用 Reflection-Tuning 的 GPT-4o 更好！在 Reflection Tuning 中，LLM 接受合成、结构化数据的训练，以学习推理和自我纠正。在助理的回复中，LLM： 1 ⃣首先输出其推理<thinking>标签。 2 ⃣如果模型检测到推理中的错误，它会使用<reflection>标签内的<thinking>部分来发出信号并尝试自我纠正。 3 ⃣一旦对其推理感到满意，它会在<output>标签。模型结果：战利品 89.9％MMLU，79.7％MATH，90.1％IFEval> Sonnet 3.5，GPT-4o 冠军奖牌世界顶级开放法学硕士（截至发布时）并使用 LMSys 的法学硕士净化器检查污染情况 Llama 由 Llama 3.1 70B 训练，使用新的特殊令牌进行指导<thinking>，<reflection> ，<output> 405B 型正在开发中，有望成为现有最佳型号可用

@huggingface

温度计生成参数温度 0.7，top_p 0.95 思考的脸不，80 亿规模的成功尚未实现附加<thinking>导致输出 token 数量和 e2e 延迟增加数据集和训练报告将于下周发布型号： huggingface.co/mattshumer/Ref向

@mattshumer_

、

@csahil28

和

@GlaiveAI

致以崇高的敬意。

Reflection方法，相当是重新合成了数据，带有思考、反思的阶段性内容。‍‍‍‍‍‍‍‍‍‍‍‍

我们只需要修改一下prompt，如下图的写法，很快就能用上。‍‍‍‍‍‍‍‍‍‍

现阶段，对齐方法与数据质量，还是大模型最为简单有效的提升方法。期待LLM未来出现新的技术突破，我也会继续给大家分享与讲解内部原理与机制。‍‍‍‍‍‍‍‍‍‍‍‍‍

行恒编程1对1

Python、R、CS编程1对1咨询辅导，一对一在线/线下会议教学模式，超过100次的高分成功辅导真实案例。智算中心运营方案规划与大模型AI咨询服务，2021年开始从事大模型架构工作。

最新文章

deepseek r1推理能力为什么这么强9

AutoSRT视频双语字幕生成Mac App的年终总结，发现与提升闲置Mac的新价值

国产推理模型Deepseek R1快速读

AI时代的文件系统颠覆者

AI下一个大事件将是Agentic AI。Agentic AI：AI领域的黑马，如何颠覆未来？

提升Ollama在Mac上运行速度，优化AutoSRT字幕生成速度

2025年的AI发展GPT-4、Gemini

AI用户故事：留学党的救星！AutoSRT一键搞定字幕翻译

AI：12月7日全球最新关键进展，对国内来说形势严峻

AI新产品AutoSRT：为你的视频增加双语字幕

一键为你的视频增加中英双语字幕，免费，无需联网

AI用户故事：00后大学女生在北京做陪诊，实现大学财务自由

【征文活动】分享您的《有空吗》产品使用经历

有空吗？原行恒晚自习全新改版升级，基于AI开发完成，全新的时间管理新模式提升会议安排、任务管理、灵活就业人员的工作效率新软件

我用Cursor AI开发了一个记录时间安排寻找空闲时间的web app，只用了4个小时

由AutoGLM卡顿想到的新型AI Agent通算智算协同解决方案

ChatGPT o1开源替代出现了

什么是专线网络？

FastAINet能否用于降低大模型训练的成本？

FastAINet通过光纤直连专线加速大模型训练与推理

AutoGLM的未来发展趋势

智算技术与算力规划设计及部署方案与实践在新疆/南京开班了！！！

FastAINet，AI时代的新型CDN

AI智算中心互联互通专线光纤网络解决方案: FastAI

ChatGPT Plus 企业共享计划之二：服务规格

chatgpt plus企业共享计划

Notebook LM是当下最好的笔记产品，也是最好的AI应用案例

GPT o1的局限性

在视频创作领域的探索，发布第一个AI视频制作镜像AI TAI Studio。让生产优质好玩的视频，越来越简单

中文TTS开源产品chattts使用体验

特斯拉FSD将要在明年一季度在中国上线，也就是2025年Q1，绝对的利好AI产业发展

scaling law将迎来大修改

AI里面一个非常简洁的多头注意力实现

OpenAI 正在逐渐失去产AI战争的红利

出二手浪潮10台a800，用了一年，还有两年质保

gpt5烟雾弹又来了

OpenAI 将跳过 GPT-5 直接上 GPT-6，内部代号 Orion（猎户座）

GPT5大概率今年发不了

将长文字转换为带声音的视频

出租手上富余的3台A800机器，价格可谈

读懂泛茶资本局的师傅：什么ai与什么G屁U的做局手法

市场价打5折出售两台华为昇腾910B3机器，23年底购入使用半年左右的机器

智谱开源CogVideoX安装体验

可以支持大概10亿参数的分布式大模型训练框架OpenDiLoCo

llama3.1的功能与能力对齐或超过闭源模型

一个关于多模态大模型与直播结合的互动应用想法

Autodl故障引发的启发：算力平台应该如何发展？

AI在金融选股上回测解读

2024世界人工智能大会见闻，焦急等待应用，落地

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉