开源界的黑马!2人团队干翻GPT-4o,70B纠错技术引领新潮流

科技   2024-09-08 00:01   北京  

来源 | 新智元  ID | AI-era

难倒一大片LLM经典难题,竟被突如其来的70B新模型破解?
而且是,一次就能做对那种。
别不信,就拿9.11和9.9谁大难题小试一下,模型不用思索便给出了正确答案。
即便是嘴漏误答之后,借助「反思」魔法,能够自动纠正。
如上所示,它可以反思,然后再自主改正。故名,Reflection 70B。
Reflection,一出世便被冠以「世界顶级开源」模型之称,性能强到令人发指。
在各项基准测试中,横扫MMLU、MATH、IFEval、GSM8K,甚至击败了GPT-4o,以及Llama 3.1超大杯。
背后这家AI写作初创HyperWrite鲜有人知,但不得不称赞的是,这一模型竟是由两个人肝了几周速成。
一个是创始人兼CEO Matt Shumer,另一位是联创Sahil Chaudhary。
Shumer介绍,未来还将上线405B模型,有望成为超越世界最顶尖闭源模型。

一上线流量暴增,GPU不够用了


AI圈里,许久未见如此之强的模型,多数人都跃跃欲试。
没想到,网友们的疯狂试用,导致演示网站流量激增,出现宕机。
为此,Shumer正和团队正忙于寻找足够的GPU,来满足如此激增的需求。

体验地址:https://reflection-playground-production.up.railway.app/
一位网友让Reflection直接上手最棘手的推理问题。
他表示,比得到答案更有趣的是,它所展开的推理步骤。
大模型在整个过程中,主动分析这些人物之间的关系,并一步一步推导,得出正确答案。
这个难题,Claude 3.5、GPT-4o却都回答失败了。

击败GPT-4o,开源新王登场


Reflection 70B受到如此热捧,是因为其背后采用了一种独特的创新技术。
它是基于Llama 3.1-70B Instruct微调而来,并使用了错误自我纠正技术——Reflection-Tunning。
新模型已经在多个基准上,经过了严格的测试,并且使用LMSYSLLM Decontaminator确保结果不受干扰。
总之,Reflection 70B性能大幅超越Llama模型,并与当前顶尖LLM相抗衡。
具体来说,Reflection 70B在与顶级闭源模型(Claude 3.5 Sonnet,GPT-4o)比较中,表现出色。
在MMLU、MATH、IFEval、GSM8K中测试基准上,都击败了GPT-4o。
更值得一提的是,仅凭70B参数彻底击败405B的Llama 3.1,差距显而易见。

自主纠错,全凭反思


大模型往往会生成错误信息,并且无法识别何时犯错,最令人头疼。
而Reflection-Tunning可以让LLM能够识别自身错误,并在做出回答前反思评估,自我纠正。
此外,它还将「规划」单独作为一个步骤,利用CoT缜密思考的过程,使得最终输出结果,更加简洁明了。
比如,下面9.11和9.9谁大的例子中,它将整个思考过程划分为四步。
这使得该模型在需要高精确度的任务中特别有用,因为它将推理分成不同步骤以提高精确度。

Glaive合成数据,加速训练


Reflection 70B之所以能够获得成功,另一个关键的因素就是Glaive生成的合成数据。
Glaive由荷兰工程师Sahil Chaudhary创立,专注于解决AI开发中最大的瓶颈之一:高质量、特定任务数据的可用性。
通过利用Glaive的技术,Reflection团队能够快速生成高质量的合成数据来训练Reflection 70B。期间,数据生成只需要花费几个小时而不是以往的几周。
对此,Shumer称赞道,「凭借着Glaive生成的定制合成数据,我们在三周内完成了五轮模型的训练。」

下周即将推出405B版本


乍一看,Reflection 70B仿佛是从无到有。但实际上,作为联创兼CEO的Matt Shumer多年来一直都在AI领域耕耘。
2020年,他与Jason Kuperberg创立了一家名为Otherside AI的公司,位于纽约长岛的Melville——一个距离纽约市东部约一小时车程的小镇。
其标志性的产品HyperWrite,最初是一个帮助用户根据要点撰写电子邮件和回复的Chrome扩展程序。随着不断的进化,如今已经可以完成撰写文章、总结文本,甚至组织电子邮件等各种任务了。
2023年3月,公司获得了280万美元的投资,并推出了全新的AI功能,例如将网络浏览器变成虚拟管家、预订航班,以及在LinkedIn上寻找求职者等等。
2023年11月,HyperWrite的用户数成功突破200万,而两位联创也登上了Forbes年度「30 Under 30」榜单。
如今,在快速发展的生成式AI领域,权力平衡似乎再次发生了变化。
Reflection 70B的发布仅仅是Reflection系列的开端。
即将在下周推出的405B版本,可谓是直接剑指诸如GPT-4o和Claude 3.5这些全球领先的专有或闭源LLM。
不难想象,随着AI的发展,Reflection在推理和错误校正方面的独特方法,很可能会成为开源模型的新标准。
参考资料:
https://x.com/mattshumer_/status/1831767014341538166
https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/

深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
 最新文章