挑战ChatGPT:Meta发布最新款大语言模型

文摘   2024-07-24 12:26   上海  

7月23日,Meta发布最新款Llama 3.1开源大语言模型,并提供8B、70B及405B三个参数版本,这是Meta迄今为止最大的模型,其拥有大范围的新能力,包括改进的推理能力,以帮助处理复杂的数学问题或即时综合整本书的文本。同时英伟达AI Foundry将为全球企业提供Llama 3.1模型的定制服务。

01

Llama 3.1模型的特点

Llama 3.1模型包含8B、70B 和405B三个参数版本,最大上下文提升到了128K,支持多语言,代码生成性能优秀,具有复杂的推理能力。


从基准测试结果来看,Llama 3.1超过了GPT-4 0125,与GPT-4o、Claude 3.5互有胜负。


提供开放/免费的模型权重和代码,带有许可证能允许用户进行微调,将模型蒸馏转移到其他形式,并支持在任何地方部署。


提供Llama Stack API,便于集成使用,支持协调多个组件,包括调用外部工具。


生态系统拥有超过25个合作伙伴,包括AWS、NVIDIA、Databricks、Groq、Dell、Azure和Google Cloud等。

02

对标GPT-4o、Claude 3.5 Sonnet

Llama 3.1 405B模型包含4050亿个参数,是近年来参数规模最大的模型之一。参数大致对应模型解决问题的能力,参数越多的模型通常表现越好。

Llama 3.1 405B与其他AI 模型的比较

Meta声称,Llama 3.1 405B在常识、可引导性、数学、工具使用和多语言翻译等一系列任务中,可与GPT-4、GPT-4o、Claude 3.5 Sonnet等领先的闭源模型相媲美。


此外,Meta高管表示,该模型主要用于为Meta内部和外部开发人员的聊天机器人提供支持,具备广泛的新功能,包括改进的推理能力,以帮助解决复杂的数学问题或即时综合整本书的文本。它还具有生成式AI功能,可以通过文本提示生成图像。

03

未来展望

Meta已经开始筹备Llama 4的训练,并计划在新版本中集成音频功能以及与MetaRay-Ban眼镜的配合使用,同时强调模型的开源性质将推动更小规模但高效能模型的发展。

来源|IT之家、华尔街见闻

编译|张羽翔
审核|尚健





上海市人工智能与社会发展研究会
上海市人工智能与社会发展研究会官方公众号,聚焦人工智能时代的前沿理论和现实议题,助力国家、城市、组织的数智化转型。
 最新文章