昨晚,英伟达开源了超强模型 Llama-3.1-Nemotron-70B-Instruct,它击败了 OpenAI 的GPT-4、GPT-4o 和 Anthropic 的 Claude-3.5 Sonnet 等140多个开闭源模型,并且仅次于OpenAI最新模型o1。
体验地址:https://huggingface.co/chat/
Hugging Face地址:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF
Llama-3.1-Nemotron-70B-Instruct 是英伟达定制的大型语言模型,旨在提高 LLM 生成的用户查询响应的有效性。
在训练细节上,该模型在 Llama-3.1-70B-Instruct 基础上使用了 RLHF 技术(主要是 REINFORCE 算法),使用了一种新的混合训练方法,将 Bradley-Terry 和 Regression 一起用于训练奖励模型。
使用混合训练方法的关键,就是Nemotron的训练数据集——HelpSteer2,而英伟达也一并开源了。
数据集地址:https://huggingface.co/datasets/nvidia/HelpSteer2
Llama-3.1-Nemotron-70B-Instruct 基于 Llama-3.1-Nemotron-70B-Reward 提供奖励信号,并利用 HelpSteer2-Preference 提示来引导模型生成符合人类偏好的答案。
英伟达开源的另一个模型 Llama-3.1-Nemotron-70B-Reward,用于预测 LLM 生成的响应的质量。该模型使用 Llama-3.1-70B-Instruct Base 进行训练,并结合了 Bradley Terry 和 SteerLM 回归奖励模型方法。
GitHub仓库:https://github.com/HKUDS/LightRAG
arXiv技术论文:https://arxiv.org/pdf/2410.05779
该项目提供了一种轻量级的解决方案,适用于需要高效信息检索和生成的自然语言处理任务。用户可以通过简单的API调用来实现多种检索模式,包括本地、全局和混合检索。
LightRAG 通过双层检索范式和基于图的索引策略提高了信息检索的全面性和效率,同时具备对新数据快速适应的能力。
在多个数据集上的实验表明,LightRAG 在检索准确性和响应多样性方面均优于现有的基线模型,并且在资源消耗和动态环境适应性方面表现更优,使其在实际应用中更为有效和经济。
增强信息检索:LightRAG结合外部知识源,提升大型语言模型在信息检索中的准确性和相关性。
处理复杂查询:系统能理解和处理涉及多个实体和复杂关系的查询。
生成准确回答:基于检索到的信息,生成与用户查询紧密相关的详细回答。
适应动态数据:快速整合新数据,确保系统在信息更新频繁的环境中保持准确性和时效性。
提高检索效率:基于优化的检索机制减少检索时间和计算资源消耗。
搜索引擎优化:LightRAG 增强搜索引擎的查询处理能力,提供更准确和相关的搜索结果。
智能客服系统:在客户服务领域,LightRAG 理解客户的复杂查询,提供详尽、准确的回答,提高客户满意度。
推荐系统:LightRAG 整合用户行为和产品信息,提供个性化的推荐,增强用户体验。
教育和学术研究:在教育平台或学术研究中,LightRAG 帮助学生和研究人员快速获取跨学科的深入信息,支持学习和研究。
医疗咨询:在医疗领域,LightRAG 辅助医生和患者快速获取最新的医疗知识和研究,支持临床决策。
Mini-Omni2 是一个全方位交互模型,能够理解图像、音频和文本输入,并与用户进行端到端的语音对话。该项目具备实时语音输出、多模态理解和灵活的交互能力,支持在讲话时的中断机制。
相比Mini-Omni,Mini-Omni2 具备视觉和音频功能。
项目地址:https://github.com/gpt-omni/mini-omni2
论文地址:https://arxiv.org/html/2410.11190v1
图:Mini-Omni2 模型架构
多模态交互:与 GPT-4o 一样,能够理解图像、语音和文本。
实时语音对话功能。无需额外的 ASR 或 TTS 模型。
一边说话一边思考,能够同时生成文本和音频。
流音频输出功能。
通过“音频到文本”和“音频到音频”批量推理进一步提升性能。
图:Mini-Omni2 的三阶段训练阶段
论文地址:https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf
代码链接:https://github.com/openreasoner/openr
教程链接:https://openreasoner.github.io/
来自伦敦大学学院、利物浦大学、上海交通大学、香港科技大学(广州)和西湖大学的研究人员推出了 OpenR,这是一个集成测试时间计算、强化学习和过程监督以改进 LLM 推理的开源框架。
图:系统设计图
受 OpenAI 的 o1 模型启发,OpenR 旨在复制和提高下一代 LLM 中的推理能力。
通过专注于数据采集、过程奖励模型和高效推理方法等核心技术,OpenR 成为第一个为 LLM 提供如此复杂推理支持的开源解决方案。
OpenR 旨在统一推理过程的各个方面,包括在线和离线强化学习训练和非自回归解码,目标是加速以推理为重点的 LLM 的开发。
图:开源代码算法实现框图
参考:
https://arxiv.org/pdf/2410.01257
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward
https://github.com/gpt-omni/mini-omni2