7月23日,Meta发布最新款Llama 3.1开源大语言模型,并提供8B、70B及405B三个参数版本,这是Meta迄今为止最大的模型,其拥有大范围的新能力,包括改进的推理能力,以帮助处理复杂的数学问题或即时综合整本书的文本。同时英伟达AI Foundry将为全球企业提供Llama 3.1模型的定制服务。
01
Llama 3.1模型的特点
►Llama 3.1模型包含8B、70B 和405B三个参数版本,最大上下文提升到了128K,支持多语言,代码生成性能优秀,具有复杂的推理能力。
►从基准测试结果来看,Llama 3.1超过了GPT-4 0125,与GPT-4o、Claude 3.5互有胜负。
►提供开放/免费的模型权重和代码,带有许可证能允许用户进行微调,将模型蒸馏转移到其他形式,并支持在任何地方部署。
►提供Llama Stack API,便于集成使用,支持协调多个组件,包括调用外部工具。
►生态系统拥有超过25个合作伙伴,包括AWS、NVIDIA、Databricks、Groq、Dell、Azure和Google Cloud等。
02
对标GPT-4o、Claude 3.5 Sonnet
Llama 3.1 405B模型包含4050亿个参数,是近年来参数规模最大的模型之一。参数大致对应模型解决问题的能力,参数越多的模型通常表现越好。
Llama 3.1 405B与其他AI 模型的比较
Meta声称,Llama 3.1 405B在常识、可引导性、数学、工具使用和多语言翻译等一系列任务中,可与GPT-4、GPT-4o、Claude 3.5 Sonnet等领先的闭源模型相媲美。
此外,Meta高管表示,该模型主要用于为Meta内部和外部开发人员的聊天机器人提供支持,具备广泛的新功能,包括改进的推理能力,以帮助解决复杂的数学问题或即时综合整本书的文本。它还具有生成式AI功能,可以通过文本提示生成图像。
03
未来展望
Meta已经开始筹备Llama 4的训练,并计划在新版本中集成音频功能以及与MetaRay-Ban眼镜的配合使用,同时强调模型的开源性质将推动更小规模但高效能模型的发展。
来源|IT之家、华尔街见闻
编译|张羽翔
审核|尚健