最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

文摘 2024-10-18 13:45 广东

NO.1

英伟达开源Llama 3.1 Nemotron 70B，吊打GPT-4o，仅次于o1！

昨晚，英伟达开源了超强模型 Llama-3.1-Nemotron-70B-Instruct，它击败了 OpenAI 的GPT-4、GPT-4o 和 Anthropic 的 Claude-3.5 Sonnet 等140多个开闭源模型，并且仅次于OpenAI最新模型o1。

目前，Llama-3.1-Nemotron-70B-Instruct 已经可以在线体验了，模型权重已可在Hugging Face上获取。

体验地址：https://huggingface.co/chat/
Hugging Face地址：https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

Llama-3.1-Nemotron-70B-Instruct 是英伟达定制的大型语言模型，旨在提高 LLM 生成的用户查询响应的有效性。

Llama-3.1-Nemotron-70B-Instruct 在 Arena Hard 基准上得分为 85.0，在 AlpacaEval 2 LC 基准上得分为 57.6，在 GPT-4-Turbo MT-Bench 基准上得分为 8.98。

在训练细节上，该模型在 Llama-3.1-70B-Instruct 基础上使用了 RLHF 技术（主要是 REINFORCE 算法），使用了一种新的混合训练方法，将 Bradley-Terry 和 Regression 一起用于训练奖励模型。

使用混合训练方法的关键，就是Nemotron的训练数据集——HelpSteer2，而英伟达也一并开源了。

数据集地址：https://huggingface.co/datasets/nvidia/HelpSteer2

Llama-3.1-Nemotron-70B-Instruct 基于 Llama-3.1-Nemotron-70B-Reward 提供奖励信号，并利用 HelpSteer2-Preference 提示来引导模型生成符合人类偏好的答案。

英伟达开源的另一个模型 Llama-3.1-Nemotron-70B-Reward，用于预测 LLM 生成的响应的质量。该模型使用 Llama-3.1-70B-Instruct Base 进行训练，并结合了 Bradley Terry 和 SteerLM 回归奖励模型方法。

Llama-3.1-Nemotron-70B-Reward 在 RewardBench 榜单的 Overall 排名中表现最佳，并在 Chat（聊天）、Safety（安全）和 Reasoning（推理）排名中也有出色表现。

NO.2

港大开源大模型LightRAG：更快、更强、更经济！

GitHub仓库：https://github.com/HKUDS/LightRAG
arXiv技术论文：https://arxiv.org/pdf/2410.05779

LightRAG 是由香港大学研究团队推出的一种简单且快速的检索增强生成（Retrieval-Augmented Generation, RAG）系统，旨在通过结合检索和生成技术来提高文本生成的质量和效率。

该项目提供了一种轻量级的解决方案，适用于需要高效信息检索和生成的自然语言处理任务。用户可以通过简单的API调用来实现多种检索模式，包括本地、全局和混合检索。

LightRAG 通过双层检索范式和基于图的索引策略提高了信息检索的全面性和效率，同时具备对新数据快速适应的能力。

在多个数据集上的实验表明，LightRAG 在检索准确性和响应多样性方面均优于现有的基线模型，并且在资源消耗和动态环境适应性方面表现更优，使其在实际应用中更为有效和经济。

LightRAG 的主要功能

增强信息检索：LightRAG结合外部知识源，提升大型语言模型在信息检索中的准确性和相关性。
处理复杂查询：系统能理解和处理涉及多个实体和复杂关系的查询。
生成准确回答：基于检索到的信息，生成与用户查询紧密相关的详细回答。
适应动态数据：快速整合新数据，确保系统在信息更新频繁的环境中保持准确性和时效性。
提高检索效率：基于优化的检索机制减少检索时间和计算资源消耗。

LightRAG 的应用场景

搜索引擎优化：LightRAG 增强搜索引擎的查询处理能力，提供更准确和相关的搜索结果。
智能客服系统：在客户服务领域，LightRAG 理解客户的复杂查询，提供详尽、准确的回答，提高客户满意度。
推荐系统：LightRAG 整合用户行为和产品信息，提供个性化的推荐，增强用户体验。
教育和学术研究：在教育平台或学术研究中，LightRAG 帮助学生和研究人员快速获取跨学科的深入信息，支持学习和研究。
医疗咨询：在医疗领域，LightRAG 辅助医生和患者快速获取最新的医疗知识和研究，支持临床决策。

NO.3

Mini-Omni2：实现具有视觉、语音和双工功能的开源 GPT-4o 模型

Mini-Omni2 是一个全方位交互模型，能够理解图像、音频和文本输入，并与用户进行端到端的语音对话。该项目具备实时语音输出、多模态理解和灵活的交互能力，支持在讲话时的中断机制。

相比Mini-Omni，Mini-Omni2 具备视觉和音频功能。

项目地址：https://github.com/gpt-omni/mini-omni2
论文地址：https://arxiv.org/html/2410.11190v1

图：Mini-Omni2 模型架构

Mini-Omni2 特征

多模态交互：与 GPT-4o 一样，能够理解图像、语音和文本。
实时语音对话功能。无需额外的 ASR 或 TTS 模型。
一边说话一边思考，能够同时生成文本和音频。
流音频输出功能。
通过“音频到文本”和“音频到音频”批量推理进一步提升性能。

图：Mini-Omni2 的三阶段训练阶段

NO.4

OpenR：首个类 o1 开源推理框架，增强大型语言模型推理能力

论文地址：https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf
代码链接：https://github.com/openreasoner/openr
教程链接：https://openreasoner.github.io/

来自伦敦大学学院、利物浦大学、上海交通大学、香港科技大学（广州）和西湖大学的研究人员推出了 OpenR，这是一个集成测试时间计算、强化学习和过程监督以改进 LLM 推理的开源框架。

图：系统设计图

受 OpenAI 的 o1 模型启发，OpenR 旨在复制和提高下一代 LLM 中的推理能力。

通过专注于数据采集、过程奖励模型和高效推理方法等核心技术，OpenR 成为第一个为 LLM 提供如此复杂推理支持的开源解决方案。

OpenR 旨在统一推理过程的各个方面，包括在线和离线强化学习训练和非自回归解码，目标是加速以推理为重点的 LLM 的开发。

该项目提供了多种训练和推理策略，包括生成和判别过程奖励模型训练、在线策略训练以及多种搜索策略。OpenR 支持在推理时进行计算和扩展，适用于需要复杂推理能力的任务。

图：开源代码算法实现框图

参考：
https://arxiv.org/pdf/2410.01257
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward
https://github.com/gpt-omni/mini-omni2

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉