英伟达深夜开源nvidia/Llama-3.1-Nemotron-70B-Instruct-HF, 截至 2024 年 10 月 1 日,该模型在三个自动对齐基准测试(AlpacaEval 2 LC)中均排名第一,超过了强大的前沿模型,如 GPT-4o 和 Claude 3.5 Sonnet。
Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 定制的大型语言模型,提高针对用户查询生成的响应的有用性,该模型使用 RLHF(特别是 REINFORCE)进行训练,以 Llama-3.1-70B 指令模型为初始模型,利用 Llama-3.1-Nemotron-70B reward和 HelpSteer2-Preference prompts进行训练。
几个数据集对比来看:
Arena Hard
Nemotron: 85.0 claude Sonnet 3.5: 79.2 gpt 4o: 79.3 AlpacaEval 2
Nemotron: 57.6 claude Sonnet 3.5: 52.4 gpt 4o: 57.5 MT Bench
Nemotron: 8.98 claude Sonnet 3.5: 8.81 gpt4o: 8.74
paper:https://arxiv.org/abs/2410.01257
hf:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF
试玩:https://build.nvidia.com/nvidia/llama-3_1-nemotron-70b-instruct
另外,昨晚, 新款 Mistral-8B 和 Mistal-3B 刚刚发布!击败 LLaMA-3.1-8B 和 LLaMA-3.2-3B。blog: https://mistral.ai/news/ministraux/ hf: https://huggingface.co/mistralai/Ministral-8B-Instruct-2410
最后,周五晚上。跟刘聪老师及另外2个小伙伴一起,有一场关于大模型应用落地的直播分享,欢迎预约~