最新开源:英伟达开源Nemotron 70B刷爆SOTA,仅次于o1!

文摘   2024-10-18 13:45   广东  
NO.1

英伟达开源Llama 3.1 Nemotron 70B,吊打GPT-4o,仅次于o1!

昨晚,英伟达开源了超强模型 Llama-3.1-Nemotron-70B-Instruct,它击败了 OpenAI 的GPT-4、GPT-4o 和 Anthropic 的 Claude-3.5 Sonnet 等140多个开闭源模型,并且仅次于OpenAI最新模型o1

目前,Llama-3.1-Nemotron-70B-Instruct 已经可以在线体验了,模型权重已可在Hugging Face上获取。
  • 体验地址:https://huggingface.co/chat/

  • Hugging Face地址:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

Llama-3.1-Nemotron-70B-Instruct 是英伟达定制的大型语言模型,旨在提高 LLM 生成的用户查询响应的有效性

Llama-3.1-Nemotron-70B-Instruct 在 Arena Hard 基准上得分为 85.0,在 AlpacaEval 2 LC 基准上得分为 57.6,在 GPT-4-Turbo MT-Bench 基准上得分为 8.98。

在训练细节上,该模型在 Llama-3.1-70B-Instruct 基础上使用了 RLHF 技术(主要是 REINFORCE 算法),使用了一种新的混合训练方法,将 Bradley-Terry 和 Regression 一起用于训练奖励模型。

使用混合训练方法的关键,就是Nemotron的训练数据集——HelpSteer2,而英伟达也一并开源了。

  • 数据集地址:https://huggingface.co/datasets/nvidia/HelpSteer2

Llama-3.1-Nemotron-70B-Instruct 基于 Llama-3.1-Nemotron-70B-Reward 提供奖励信号,并利用 HelpSteer2-Preference 提示来引导模型生成符合人类偏好的答案。

英伟达开源的另一个模型 Llama-3.1-Nemotron-70B-Reward用于预测 LLM 生成的响应的质量。该模型使用 Llama-3.1-70B-Instruct Base 进行训练,并结合了 Bradley Terry 和 SteerLM 回归奖励模型方法。

Llama-3.1-Nemotron-70B-Reward 在 RewardBench 榜单的 Overall 排名中表现最佳,并在 Chat(聊天)、Safety(安全)和 Reasoning(推理)排名中也有出色表现。

NO.2

港大开源大模型LightRAG:更快、更强、更经济!

  • GitHub仓库:https://github.com/HKUDS/LightRAG

  • arXiv技术论文:https://arxiv.org/pdf/2410.05779

LightRAG 是由香港大学研究团队推出的一种简单且快速的检索增强生成(Retrieval-Augmented Generation, RAG)系统,旨在通过结合检索和生成技术来提高文本生成的质量和效率。

该项目提供了一种轻量级的解决方案,适用于需要高效信息检索和生成的自然语言处理任务。用户可以通过简单的API调用来实现多种检索模式,包括本地、全局和混合检索。

LightRAG 通过双层检索范式和基于图的索引策略提高了信息检索的全面性和效率,同时具备对新数据快速适应的能力。

在多个数据集上的实验表明,LightRAG 在检索准确性和响应多样性方面均优于现有的基线模型,并且在资源消耗和动态环境适应性方面表现更优,使其在实际应用中更为有效和经济。

LightRAG 的主要功能

  1. 增强信息检索:LightRAG结合外部知识源,提升大型语言模型在信息检索中的准确性和相关性。

  2. 处理复杂查询:系统能理解和处理涉及多个实体和复杂关系的查询。

  3. 生成准确回答:基于检索到的信息,生成与用户查询紧密相关的详细回答。

  4. 适应动态数据:快速整合新数据,确保系统在信息更新频繁的环境中保持准确性和时效性。

  5. 提高检索效率:基于优化的检索机制减少检索时间和计算资源消耗。

LightRAG 的应用场景

  1. 搜索引擎优化:LightRAG 增强搜索引擎的查询处理能力,提供更准确和相关的搜索结果。

  2. 智能客服系统:在客户服务领域,LightRAG 理解客户的复杂查询,提供详尽、准确的回答,提高客户满意度。

  3. 推荐系统:LightRAG 整合用户行为和产品信息,提供个性化的推荐,增强用户体验。

  4. 教育和学术研究:在教育平台或学术研究中,LightRAG 帮助学生和研究人员快速获取跨学科的深入信息,支持学习和研究。

  5. 医疗咨询:在医疗领域,LightRAG 辅助医生和患者快速获取最新的医疗知识和研究,支持临床决策。

NO.3

Mini-Omni2:实现具有视觉、语音和双工功能的开源 GPT-4o 模型

Mini-Omni2 是一个全方位交互模型,能够理解图像、音频和文本输入,并与用户进行端到端的语音对话。该项目具备实时语音输出、多模态理解和灵活的交互能力,支持在讲话时的中断机制。

相比Mini-Omni,Mini-Omni2 具备视觉和音频功能。

  • 项目地址:https://github.com/gpt-omni/mini-omni2

  • 论文地址:https://arxiv.org/html/2410.11190v1

图:Mini-Omni2 模型架构

Mini-Omni2 特征

  • 多模态交互:与 GPT-4o 一样,能够理解图像、语音和文本。

  • 实时语音对话功能。无需额外的 ASR 或 TTS 模型。

  • 一边说话一边思考,能够同时生成文本和音频。

  • 流音频输出功能。

  • 通过“音频到文本”和“音频到音频”批量推理进一步提升性能。

图:Mini-Omni2 的三阶段训练阶段

NO.4

OpenR:首个类 o1 开源推理框架,增强大型语言模型推理能力

  • 论文地址:https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf

  • 代码链接:https://github.com/openreasoner/openr

  • 教程链接:https://openreasoner.github.io/

来自伦敦大学学院、利物浦大学、上海交通大学、香港科技大学(广州)和西湖大学的研究人员推出了 OpenR,这是一个集成测试时间计算、强化学习和过程监督以改进 LLM 推理的开源框架。

图:系统设计图

受 OpenAI 的 o1 模型启发,OpenR 旨在复制和提高下一代 LLM 中的推理能力。

通过专注于数据采集、过程奖励模型和高效推理方法等核心技术,OpenR 成为第一个为 LLM 提供如此复杂推理支持的开源解决方案。

OpenR 旨在统一推理过程的各个方面,包括在线和离线强化学习训练和非自回归解码,目标是加速以推理为重点的 LLM 的开发。

该项目提供了多种训练和推理策略,包括生成和判别过程奖励模型训练、在线策略训练以及多种搜索策略。OpenR 支持在推理时进行计算和扩展,适用于需要复杂推理能力的任务。

图:开源代码算法实现框图


参考:
https://arxiv.org/pdf/2410.01257
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward
https://github.com/gpt-omni/mini-omni2

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章