点击箭头处“蓝色字”关注更多AI资讯哦!
Llama 是由 Meta(FaceBook) AI 发布的一个允许商用的开源项目,对AI业内具有非常强的影响力。024年7月24日正式发布了其最新的开源大语言模型Llama 3.1系列,这一系列模型包括三个主要版本:8B、70B和405B参数规模。其中,405B版本因其庞大的参数数量和卓越的性能,被认为是迄今为止最强大的开源基础模型之一。
比起之前发布的支持8k上下文的Llama3, 以及支持4k的Llama2,Llama 3.1将上下文长度扩展到128K,增加了对八种语言的支持。405B版本在常识、可操纵性、数学、工具使用和多语言翻译方面与顶级AI模型相媲美。在实用性和安全性评估中,与那些市面上流行的闭源模型不相上下。
405B版本使用了超过15万亿个tokens进行训练,在超过16000个H100 GPU上进行训练,这是Meta有史以来第一个以这种规模进行训练的Llama模型
而在此之前发布的支持8k上下文的Llama3, 以及支持4k的Llama2支持,就都已经性能卓越到被认为是 GPT 系列最大的竞争对手之一。
Meta CEO扎克伯格在公开信中《Open Source AI Is the Path Forward》(https://ai.meta.com/blog/meta-llama-3-1/)中表示,开源大模型正在迅速缩小与闭源模型的差距,预计未来的Llama模型将成为业内最先进的。Meta对开源许可证进行了更改,允许开发人员使用Llama模型的输出来改进其他模型,进一步推动了开源AI的发展。
"在考虑未来的机遇时,请记住,今天大多数领先的科技公司和科学研究都是建立在开源软件的基础上的。如果我们共同投资于开源人工智能,下一代公司和研究将使用开源人工智能。这包括刚刚起步的初创公司,以及那些可能没有资源从头开始开发自己最先进人工智能的大学和国家的人。开源人工智能代表着世界最好的机会,利用这项技术创造最大的经济机会和安全保障。" -扎克伯格
Meta 致力于推动可公开访问的 AI 发展,发布了一系列有关 Llama 模型的重要信息,包括其性能优势、技术创新、应用场景、生态系统建设以及对开源的坚持。
目前大家通过 WhatsApp 和 meta.ai 来体验最新的Llama 3.1 405B。
地址:https://llama.meta.com/
快速一览此次发布的重点:
最新的系列模型将上下文长度扩展到了 128K、增加了对八种语言的支持,并包括顶级开源模型 Llama 3.1 405B;
Meta 的开源决心:强调开源对开发者、Meta 自身和世界的益处,持续推进 Llama 模型的开源。
Llama 3.1 405B 模型的卓越性能:具备最先进的能力,在多方面可与顶级 AI 模型竞争,扩展了上下文长度和语言支持。
新模型的创新与突破:包括合成数据生成和模型蒸馏等新工作流程的解锁,推动创新和应用发展。
模型构建与优化:采用标准解码器仅转换器模型架构,优化训练堆栈,提高数据质量和量化模型以降低计算需求。
指令和聊天微调:致力于提升模型响应用户指令的能力和安全性,平衡数据以确保各方面的高质量。
Llama 系统的发展:包括发布参考系统和新组件,致力于打造更灵活的整体系统,提出 Llama Stack 并寻求社区反馈。
开源的优势与影响:开发者可定制模型,降低成本,促进创新,使更多人受益,推动成为行业标准。
Llama 3.1 405B 的应用与支持:为开发者提供多种功能和优势,与社区合作确保生产部署。
Llama 3.1 介绍
Llama3.1-405B是第一个公开可用的模型,在一般知识、可操纵性、数学、工具使用和多语言翻译方面具有最先进的能力,可与顶级人工智能模型相媲美。
随着405B模型的发布,Meta准备为创新提供前所未有的增长和探索机会。Meta相信最新一代的Llama将点燃新的应用和建模范式,包括合成数据生成,以实现对较小模型的改进和训练,以及模型蒸馏——这是开源中从未实现过的如此规模的能力。
作为最新版本的一部分,Meta推出了8B和70B模型的升级版本。这些模型是多语言的,具有显著更长的128K上下文长度、最先进的工具使用和整体更强的推理能力。
新的Llama 3.1能够支持高级用例,如长格式文本摘要、多语言会话代理和编码助手。允许开发人员使用Llama 3.1最新的模型的输出来改进其他模型。
Meta信守了对开源的承诺,向社区直接提供这些最新的模型,供下载在 llama.meta.com 和 Hugging Face 上。
Meta 表示最新一代的 Llama 将激发新的应用程序和建模范式,包括利用合成数据生成来提升和训练更小的模型,以及模型蒸馏 —— 这是一种在开源领域从未达到的能力。
模型架构
Llama 3.1-405B作为迄今为止最大的模型,在超过15万亿个令牌上训练是一个重大挑战。为了实现这种规模的训练运行,并在合理的时间内取得效果,Meta显著优化了完整的训练堆栈,并将Meta的模型训练推进到超过1.60万H100 GPU,使405B成为第一个在这种规模上训练的Llama模型。
为了解决这个问题,我们做出了专注于保持模型开发过程可扩展和简单的设计选择。
Meta选择了标准的仅解码器转换器模型架构,只需进行少量调整,而不是混合专家模型,以最大限度地提高训练稳定性。
Meta采用了迭代后训练过程,其中每一轮都使用监督微调和直接偏好优化。这样的设计能够为每一轮创建最高质量的合成数据并提高每种能力的性能。
与以前版本的Llama相比,本次的训练还改进了用于训练前和训练后的数据的数量和质量。这些改进包括为预训练数据开发更仔细的预处理和管理管道,开发更严格的质保,以及为后训练数据过滤方法。
根据语言模型的缩放定律,新旗舰模型优于使用相同过程训练的较小模型。Meta也使用了405B参数模型来提高较小模型的训练后质量。
为了支持405B规模的模型的大规模生产推理,Meta将模型从16位(BF16)量化为8位(FP8)数值,有效降低了所需的计算要求,并允许模型在单个服务器节点中运行。
指令和对话微调
在Llama 3.1405B中,Meta努力提高模型响应用户指令的有用性、质量和详细instruction-following能力,同时确保高水平的安全性。Meta表示遇到的最大的挑战是支持更多功能、128K上下文窗口和增加模型大小。
在训练后,Meta通过在预训练模型之上进行几轮对齐来生成最终的聊天模型。每一轮都涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。使用合成数据生成来生成绝大多数SFT示例,多次迭代以生成跨所有功能的越来越高质量的合成数据。
除此外,Meta团队还投资于多种数据处理技术,以将这些合成数据过滤到最高质量。以实现跨功能扩展微调数据的数量。
Llama系统
Llama模型一直旨在作为一个整体系统的一部分工作,该系统可以协调多个组件,包括调用外部工具。Meta团队希望可以超越基础模型,让开发人员能够访问更广泛的系统,让他们能够灵活地设计和创建符合其愿景的自定义产品。基于此,Meta团队引入了核心LLM之外的组件的合并。
Meta团队发布了一个完整的Llama System参考系统,其中包括几个示例应用程序,并包括新组件,如Llama Guard 3,一个多语言安全模型和提示卫士,一个提示注入过滤器。这些示例应用程序是开源的,可以由社区建立。
Meta团队在GitHub上发布了一个评论请求,称之为“Llama Stack”。Llama Stack是一组标准化和有见解的接口,用于如何构建规范的工具链组件(微调、合成数据生成)和代理应用程序。Meta是希望这些能够在整个生态系统中得到采用,这将有助于实现更加简单的交互规范。
用Llama 3.1 405B构建应用
对于普通开发人员来说,使用405B规模的模型具有挑战性。虽然这是一个非常强大的模型,但Meta认识到它需要大量的计算资源和专业知识来使用。
Meta 对开源协议进行了更改,允许开发人员使用 Llama 模型(包括 405B)的输出来改进其他模型。此外,为了兑现开源承诺,从今天开始,Meta 将这些模型提供给社区,用户可以在 llama.meta.com 和 Hugging Face 上下载。
下载地址:
https://huggingface.co/meta-llama
https://llama.meta.com/
对于普通开发人员来说,使用405B规模的模型具有挑战性,需要大量的计算资源和专业知识来使用,405B模型能力包括:
Real-time and batch inference 实时和批量推理
Supervised fine-tuning 监督微调
Evaluation of your model for your specific application针对您的特定应用评估您的模型
Continual pre-training 持续预培训
Retrieval-Augmented Generation (RAG) 检索增强生成(RAG)
Function calling 函数调用
Synthetic data generation 合成数据生成
这就是Llama生态系统可以提供帮助的地方。在第一天,开发人员就可以利用405B模型的所有高级功能,并立即开始构建。开发人员还可以探索高级工作流程,如易于使用的合成数据生成,遵循模型蒸馏的交钥匙方向,并通过合作伙伴(包括AWS、NVIDIA和Database ricks)的解决方案实现无缝RAG。此外,Groq优化了云部署的低延迟推理,戴尔为本地系统实现了类似的优化。
发布即日起,Llama 3.1 405B 模型的所有高级功能都将开放,开发者们可以即刻上手。开发者们还可以探索更高阶的工作流,例如基于模型蒸馏的合成数据生成。这次升级,Meta 还无缝集成了合作伙伴 AWS、NVIDIA 和 Databricks 提供的解决方案,以实现更高效的检索增强生成(RAG)。此外,Groq 已经为在云端部署模型进行了低延迟推理的优化,也对本地系统进行了类似的性能提升。
Meta 这次还为 Llama 3.1 405B 内置了「工具大礼包」,内含 vLLM、TensorRT 和 PyTorch 等关键项目,从模型开发到部署「开箱即用」,一步到位。
操作演示
Llama 3.1 可以将故事翻译成西班牙语,以及基于用户的“数学问题”进行快速的推理。
可以支持8k token 的大型文档。
快速编写代码:
模型评估
Meta 在超过 150 个基准数据集上进行了评估,同时也进行了广泛的人类评估。
实验结果表明,旗舰模型 Llama 3.1 405B 在一系列任务中与领先的基础模型包括 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 具有竞争力。此外,8B 和 70B 小型模型与具有相似数量参数的闭源和开源模型具有竞争力。
和当下最强的 GPT-4 / Claude 3.5 旗鼓相当
扫码关注更多及时资讯
我们一起学AI!