首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

开源界的黑马！2人团队干翻GPT-4o，70B纠错技术引领新潮流

科技 2024-09-08 00:01 北京

来源 | 新智元 ID | AI-era

难倒一大片LLM经典难题，竟被突如其来的70B新模型破解？

而且是，一次就能做对那种。

别不信，就拿9.11和9.9谁大难题小试一下，模型不用思索便给出了正确答案。

即便是嘴漏误答之后，借助「反思」魔法，能够自动纠正。

如上所示，它可以反思，然后再自主改正。故名，Reflection 70B。

Reflection，一出世便被冠以「世界顶级开源」模型之称，性能强到令人发指。

在各项基准测试中，横扫MMLU、MATH、IFEval、GSM8K，甚至击败了GPT-4o，以及Llama 3.1超大杯。

背后这家AI写作初创HyperWrite鲜有人知，但不得不称赞的是，这一模型竟是由两个人肝了几周速成。

一个是创始人兼CEO Matt Shumer，另一位是联创Sahil Chaudhary。

Shumer介绍，未来还将上线405B模型，有望成为超越世界最顶尖闭源模型。

一上线流量暴增，GPU不够用了

AI圈里，许久未见如此之强的模型，多数人都跃跃欲试。

没想到，网友们的疯狂试用，导致演示网站流量激增，出现宕机。

为此，Shumer正和团队正忙于寻找足够的GPU，来满足如此激增的需求。

体验地址：https://reflection-playground-production.up.railway.app/

一位网友让Reflection直接上手最棘手的推理问题。

他表示，比得到答案更有趣的是，它所展开的推理步骤。

大模型在整个过程中，主动分析这些人物之间的关系，并一步一步推导，得出正确答案。

这个难题，Claude 3.5、GPT-4o却都回答失败了。

击败GPT-4o，开源新王登场

Reflection 70B受到如此热捧，是因为其背后采用了一种独特的创新技术。

它是基于Llama 3.1-70B Instruct微调而来，并使用了错误自我纠正技术——Reflection-Tunning。

新模型已经在多个基准上，经过了严格的测试，并且使用LMSYSLLM Decontaminator确保结果不受干扰。

总之，Reflection 70B性能大幅超越Llama模型，并与当前顶尖LLM相抗衡。

具体来说，Reflection 70B在与顶级闭源模型（Claude 3.5 Sonnet，GPT-4o）比较中，表现出色。

在MMLU、MATH、IFEval、GSM8K中测试基准上，都击败了GPT-4o。

更值得一提的是，仅凭70B参数彻底击败405B的Llama 3.1，差距显而易见。

自主纠错，全凭反思

大模型往往会生成错误信息，并且无法识别何时犯错，最令人头疼。

而Reflection-Tunning可以让LLM能够识别自身错误，并在做出回答前反思评估，自我纠正。

此外，它还将「规划」单独作为一个步骤，利用CoT缜密思考的过程，使得最终输出结果，更加简洁明了。

比如，下面9.11和9.9谁大的例子中，它将整个思考过程划分为四步。

这使得该模型在需要高精确度的任务中特别有用，因为它将推理分成不同步骤以提高精确度。

Glaive合成数据，加速训练

Reflection 70B之所以能够获得成功，另一个关键的因素就是Glaive生成的合成数据。

Glaive由荷兰工程师Sahil Chaudhary创立，专注于解决AI开发中最大的瓶颈之一：高质量、特定任务数据的可用性。

通过利用Glaive的技术，Reflection团队能够快速生成高质量的合成数据来训练Reflection 70B。期间，数据生成只需要花费几个小时而不是以往的几周。

对此，Shumer称赞道，「凭借着Glaive生成的定制合成数据，我们在三周内完成了五轮模型的训练。」

下周即将推出405B版本

乍一看，Reflection 70B仿佛是从无到有。但实际上，作为联创兼CEO的Matt Shumer多年来一直都在AI领域耕耘。

2020年，他与Jason Kuperberg创立了一家名为Otherside AI的公司，位于纽约长岛的Melville——一个距离纽约市东部约一小时车程的小镇。

其标志性的产品HyperWrite，最初是一个帮助用户根据要点撰写电子邮件和回复的Chrome扩展程序。随着不断的进化，如今已经可以完成撰写文章、总结文本，甚至组织电子邮件等各种任务了。

2023年3月，公司获得了280万美元的投资，并推出了全新的AI功能，例如将网络浏览器变成虚拟管家、预订航班，以及在LinkedIn上寻找求职者等等。

2023年11月，HyperWrite的用户数成功突破200万，而两位联创也登上了Forbes年度「30 Under 30」榜单。

如今，在快速发展的生成式AI领域，权力平衡似乎再次发生了变化。

Reflection 70B的发布仅仅是Reflection系列的开端。

即将在下周推出的405B版本，可谓是直接剑指诸如GPT-4o和Claude 3.5这些全球领先的专有或闭源LLM。

不难想象，随着AI的发展，Reflection在推理和错误校正方面的独特方法，很可能会成为开源模型的新标准。

参考资料：

https://x.com/mattshumer_/status/1831767014341538166

https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247546375&idx=1&sn=a664448cf44acfb9cc26a4b982f3cbd0

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

硕博招生将启！AI排名跻身前15，全球首所人工智能大学MBZUAI实力大增

谷歌女高管被裁员，3份兼职越干越开心！55岁正是闯的年纪！

李飞飞等14位斯坦福微软大牛等撰写《AGENT AI: 综述多模态交互的前沿展望》免费pdf分享

李飞飞等14位斯坦福微软大牛等撰写《AGENT AI: 综述多模态交互的前沿展望》免费pdf分享

痛惜！张祺乐副教授离世，年仅38岁……

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

OpenAI o1 self-play RL 技术路线推演

大模型千卡训练指南

逆天20w赞！吴恩达+Open AI打造《大模型通关指南》

[送5本]《架构思维：从程序员到CTO》揭秘程序员如何培养架构思维！

o1方法性能无上限！姚班马腾宇等数学证明：推理token够多，就能解决任意问题

对大模型演进方向的思考

52k star，北大内疯传《大学生CS自救指南》免费分享

被美国“制裁”的中国大学名单。。。

o1基石论文火爆传阅，Ilya仍是关键先生！核心项目清北校友闪光

技术上，如何复现 o1?

前英伟达科学家Anima Anandkumar斯坦福大学演讲，用实际案例揭示AI在这些领域的巨大潜力

10w网友点赞！清华大学《大模型研讨课》免费分享

36岁当上985高校院长！女教授称“最强大的背景”是......

吴恩达力荐LangChain经典课程-《LangChain大型语言模型(LLM)应用开发》免费分享

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

大模型千卡训练-经验指北

如何用1024张显卡训练一个模型

Github 13w Star，吴恩达强推《ChatGPT提示词工程》课程视频、配套代码及笔记分享

2024最新版，人大赵鑫老师《大语言模型》新书pdf分享

对大模型演进方向的思考！

李飞飞任CEO，空间智能公司World Labs亮相，全明星阵容曝光

张俊林-浅谈OpenAI o1的价值意义及RL 的Scaling Law

8月最新大模型新书-《自然语言处理：大模型理论与实践》西财赵宇教授新作

54K收藏神书-《Prompt 学习指南》中文版免费分享

李飞飞等14位斯坦福微软大牛等撰写《AGENT AI: 综述多模态交互的前沿展望》免费pdf分享

MOE vs MOT 让LLM更加有效

[送5本] 千问 | 面壁等团队强推《大型语言模型实战指南》新书分享

RWKV作者对OpenAI 发布 o1 系列模型的看法，很深刻

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

下载量超5w！机器学习入门圣经《机器学习导论》最新第四版PDF免费分享

下载量10w+！LLM经典《大型语言模型：语言理解和生成》pdf免费分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

谢尔盖布林：谷歌不敢用Transformer，作者剩一人了，现在我每天都在写代码

中科院提出大模型“基准泄露”排行榜，Qwen模型位居榜首

2024年新书-《掌握大语言模型》免费pdf分享

13万下载，亚马4.8高分，麻省开源《理解深度学习》分享！

麻省理工开源：《理解深度学习》，中文版来了！

下一代RAG：MemoRAG

华为三折叠手机19999元起！全展开10.2寸大屏3.6mm厚度，电池只留1.9mm

【包教包会】速通LLM《从头开始构建大型语言模型》免费pdf分享

Andrej Karpathy：自动驾驶已经实现 AGI，汽车其实就是机器人

Transformer已经彻底凉凉了！

2024最新版，人大赵鑫老师《大语言模型》新书pdf分享

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉