英伟达一夜封神,开源新模型打进全球前三!

学术   2024-10-17 10:20   湖北  

英伟达深夜开源nvidia/Llama-3.1-Nemotron-70B-Instruct-HF, 截至 2024 年 10 月 1 日,该模型在三个自动对齐基准测试(AlpacaEval 2 LC)中均排名第一,超过了强大的前沿模型,如 GPT-4o 和 Claude 3.5 Sonnet。

Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 定制的大型语言模型,提高针对用户查询生成的响应的有用性,该模型使用 RLHF(特别是 REINFORCE)进行训练,以 Llama-3.1-70B 指令模型为初始模型,利用 Llama-3.1-Nemotron-70B reward和 HelpSteer2-Preference prompts进行训练。

几个数据集对比来看:

  • Arena Hard

    • Nemotron: 85.0
    • claude Sonnet 3.5: 79.2
    • gpt 4o: 79.3
  • AlpacaEval 2

    • Nemotron: 57.6
    • claude Sonnet 3.5: 52.4
    • gpt 4o: 57.5
  • MT Bench

    • Nemotron: 8.98
    • claude Sonnet 3.5: 8.81
    • gpt4o: 8.74

paper:https://arxiv.org/abs/2410.01257 

hf:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

试玩:https://build.nvidia.com/nvidia/llama-3_1-nemotron-70b-instruct

另外,昨晚, 新款 Mistral-8B 和 Mistal-3B 刚刚发布!击败 LLaMA-3.1-8B 和 LLaMA-3.2-3B。blog: https://mistral.ai/news/ministraux/ hf: https://huggingface.co/mistralai/Ministral-8B-Instruct-2410

最后,周五晚上。跟刘聪老师及另外2个小伙伴一起,有一场关于大模型应用落地的直播分享,欢迎预约~




NLP前沿
一手ai news分享 \x26amp; 热点paper解读
 最新文章