Meta Llama 3.1 多语言大型语言模型 (LLM) 集合是一组经过预训练和指令调整的生成模型,大小分别为 8B、70B 和 405B(文本输入/文本输出)。Llama 3.1 指令调整的纯文本模型(8B、70B、405B)针对多语言对话用例进行了优化,在常见的行业基准上优于许多可用的开源和封闭聊天模型。
模型架构
Llama 3.1 是一种自回归语言模型,采用优化的 Transformer 架构。经过调整的版本使用监督式微调 (SFT) 和带人工反馈的强化学习 (RLHF),以符合人类对有用性和安全性的偏好。
今天发布的版本包括 8B、70B 和 405B Llama 3.1 模型,这些模型在训练前和训练后都使用比 Llama 3 更高质量和数量的数据进行训练。所有三个模型都采用了超过 15T的token进行训练。
8B、70B、405B的模型均采用GQA; 405B模型,有126层,词表大小128256,隐藏层维度16384;8B和70B模型与llama3一样;
支持多语言,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语;当然其他语言也可以使用,只是没有针对性进行安全测试。 所有新的 Llama 3.1 模型的上下文窗口增加了 16 倍,一直达到 128K token。 instruct模型微调使用了公开可用的指令数据集,以及超过2500万的合成数据;
8B模型预训练用了146万 GPU小时,70B模型预训练用了700万 GPU小时,405B模型预训练用了3084万 GPU小时; 通过这些新模型,还改进了工具的使用。Llama 3.1 支持零样本工具用于网络搜索、数学和代码执行。它知道抽象地调用什么工具以及如何解释这些工具的执行结果。
Benchmark 分数
Llama3.1系列的8B和70B模型的效果,普遍好于Llama3系列模型。尤其是Instruct模型提升较高,特别是通用、代码、数学和工具使用四个方面,大幅提高;额外添加的合成数据,应该是关键。
Base pretrained models
Instruction tuned models
模型使用
关于互联网持续学习圈