刚刚，与GPT-4o相媲美的开源大模型Llama 3.1发布了！

科技 2024-07-24 08:16 广东

就在刚刚，Meta 发布了其最先进的开源大语言模型——Llama 3.1 系列，其中就包括首个“前沿级”（frontier-level）的开源模型——Llama 3.1 405B。

据介绍，Llama 3.1 405B 具有强大的灵活性、控制性和最先进的功能，可与 GPT-4o、Claude 3.5 Sonnet 等最优秀的闭源模型相媲美。而且 Llama 3.1 系列模型将上下文长度扩展到了 128K，并增加了对八种语言的支持。

Meta 表示，他们将通过提供更多与模型协同工作的组件（包括参考系统），继续将 Llama 打造成一个系统，并希望为开发人员提供工具，帮助他们创建自己的定制智能体和新智能体行为。

此外，Meta 也将通过新的安全和保障工具（包括 Llama Guard 3 和 Prompt Guard）帮助开发者负责任地进行开发。

Meta 在在官方博客中写道，“迄今为止，开源大语言模型在功能和性能方面大多落后于封闭的同类产品。如今，我们迎来了一个由开源引领的新时代。我们将公开发布 Meta Llama 3.1 405B，我们相信它是世界上规模最大、功能最强的开放基础模型。”

Llama 3.1 405B 终于来了

Llama 3.1 405B 是首个在常识、可操纵能力、数学、工具使用和多语种翻译等方面媲美顶级闭源人工智能模型的公开发布的模型。

Meta 认为，最新一代的 Llama 将点燃新的应用和建模范式，包括生成合成数据以改进和训练更小的模型，以及模型提炼--这是开源软件从未达到过的能力。

作为最新版本的一部分，他们推出了 8B 和 70B 模型的升级版本。这两个版本支持多种语言，上下文长度大大增加，达到 128K，工具使用 SOTA，整体推理能力更强。这使得 Llama 3.1 系列模型能够支持高级用例，如长文本摘要、多语言对话智能体和编码助手。

值得一提的是，Meta 还修改了许可证，允许开发人员使用 Llama 模型（包括 405B 模型）的输出结果来改进其他模型，并在 llama.meta.com 和 Hugging Face 上向社区提供这些模型的下载。

模型评估

针对 Llama 3.1 系列模型，Meta 评估了 150 多个基准数据集的性能，这些数据集涵盖了多种语言。此外，他们还进行了广泛的人工评估，将 Llama 3.1 与其他竞争模型进行了比较。

实验评估结果表明，Llama 3.1 405B 在广泛的任务中都能与 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 相媲美。此外，Llama 3.1 的小型模型与参数量相近的模型相比也具有竞争力。

模型架构

作为 Meta 迄今为止最大的模型，在超过 15 万亿个 token 上训练 Llama 3.1 405B 是一项重大挑战。为了在合理的时间内完成如此大规模的训练运行并取得这样的结果，Meta 对整个训练堆栈进行了大幅优化，并将模型训练推送到 1.6 万多个 H100 GPU 上，使 405B 成为第一个以如此规模训练的 Llama 模型。

为了解决这个问题，Meta 在设计时选择了保持模型开发过程的可扩展性和直接性（straightforward）。

为了最大限度地提高训练的稳定性，他们选择了标准的仅解码器 transformer 模型架构，并作了较小的调整，而没有采用混合专家模型。
他们采用了迭代后训练程序，每一轮都使用监督微调和直接偏好优化。这使得他们能够为每一轮训练创建最高质量的合成数据，并提高每种能力的性能。

与以前版本的 Llama 相比，Meta 改进了预训练和后训练所用数据的数量和质量。这些改进包括为预训练数据开发了更细致的预处理和整理管道，为后训练数据开发了更严格的质量保证和过滤方法。

正如语言模型的缩放规律所预期的那样，Llama 3.1 405B 优于使用相同程序训练的较小模型。他们还利用 Llama 3.1 405B 提高了小型模型的后期训练质量。

为了支持 Llama 3.1 405B 的大规模生产推理，他们将模型从 16 位（BF16）量化为 8 位（FP8）数值，有效降低了所需的计算要求，使模型可以在单个服务器节点内运行。

指令和 chat 微调

在 Llama 3.1 405B 中，Meta 努力提高模型在响应用户指令时的帮助性、质量和详细的指令跟随能力，同时确保高度的安全性，面临的最大挑战是支持更多的功能、128K 上下文窗口和更大的模型尺寸。

在后期训练中，他们通过在预训练模型的基础上进行多轮对齐来生成最终的聊天模型。每一轮都包括监督微调、拒绝采样和直接偏好优化。

他们使用合成数据生成技术来生成绝大多数 SFT 示例，并进行多次迭代，以在所有功能中生成质量越来越高的合成数据。

此外，他们还使用了多种数据处理技术，以过滤最高质量的合成数据。这使得他们能够在各种能力之间扩展微调数据量。

他们还仔细平衡数据，以在所有功能中生成高质量的模型。例如，即使扩展到 128K 上下文，他们也能在短上下文基准上保持模型的质量。同样，即使增加了安全缓解措施，Llama 3.1 系列模型也能继续提供最有帮助的答案。

开放推动创新

Meta 在官方博客中写道，与封闭的模型不同，Llama 模型权重可供下载。开发人员可以完全根据自己的需求和应用定制模型，在新的数据集上进行训练，并进行额外的微调。这使得更广泛的开发者社区和全世界都能更充分地发挥生成式人工智能的能力。开发人员可以根据自己的应用进行完全定制，并在任何环境中运行，包括预置环境、云环境，甚至是笔记本电脑上的本地环境，而无需与 Meta 共享数据。

Meta 也表示，虽然很多人可能会认为封闭模型更具成本效益，但根据 Artificial Analysis 的测试，Llama 模型的单位 token 成本在业内最低。

正如 Mark Zuckerberg 所指出的那样，开源将确保全世界更多的人能够享受到人工智能带来的好处和机会，确保权力不会集中在少数人手中，确保这项技术能够在全社会范围内得到更均衡、更安全的部署

END

“AI+研发数字峰会（AiDD）”旨在帮助更多企业借助AI技术，使计算机能够更深入地认知现实世界，推动研发全面进入数智化时代。北京站即将于8月16-17日盛大启幕！本届峰会共设十五大分论坛，两个大厂专场，围绕AIGC产品创新、AI原生应用开发、LLM测评、智能体与具身智能、领域多模态大模型、知识工程等技术热点，邀请近百家企业界和工业界大咖共赴盛会。

点击下方“阅读原文”或扫描下方海报二维码了解更多峰会信息。

软件工程3.0时代

由于大模型（LLM）正在改变着千行百业，软件工程（SE）更是首当其冲，迎来软件工程3.0新时代：模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法，介绍SE3.0时代的工具与实践。

最新文章

敏捷教练会悲伤吗？Agile Alliance已并入PMI

展望2025年智能软件工程

共促软件行业智能化转型，智能化软件开发产业图谱编制正式启动

2024年，大模型驱动的智能软件研发有哪些进展？

汽车将进化成为智能时代的空间机器人

大模型时代的软件工程教育，路在何方？

OpenAI 将一场发布会改为12天直播：Day 1发布了两大产品chatGPT pro和o1正式版

想了解智能化软件工程现状？快来参与 2024 年度调研吧！

做正确之事：软件研发的成功之道

2024 年 12 个最佳UI自动化测试工具推荐

大模型下半场：如何开发出杀手级的工具或应用？

从自动化软件测试到自主测试，还差几步？

错了，打开“深度思考”，的确做对了

让DeepSeek最新推理模型R1-lite做一道数学题，结果走进死胡同了！

重磅消息：Grok-3终结了黎曼猜想？而却因此被迫暂停训练

Tong test：AGI测试评级的标准与平台

“软件质量报道” 下决心迎接 “软件工程3.0时代”

大模型时代的软件研发：正确的打开方式

十大生成式 AI 趋势和20家有前途的初创公司

谷歌DORA：2024年加速DevOps状态报告

AiDD峰会的“AI+测试”议题全面亮相

神了：Claude 3.5能像人一样使用计算机，而且在编程、软件研发上进步显著

邀您共赴年末盛会｜QECon北京站议题出炉

深度剖析：字节跳动大模型训练被实习生“投毒”事件

当AI接连不断赢得诺贝尔奖：是人类的终点还是新的起点？

从木匠到AI教父：Geoffrey Hinton的传奇之路

历史性里程碑：诺贝尔物理学奖首次授予AI学者

两张架构图，让你感受一下大模型的惊艳

最新！明天上交所全网测试

A股沸腾，系统被买崩了？压力测试没做好？

Sam Altman昨天发文：AI 奇点近在咫尺，我们将进入“智能时代”

QECon主旨演讲之一：代码大模型改进的双引擎:数据增强和知识增强

强化学习中的自博弈（Self-play）会开启大模型的“后训练”时代？

chatGPT o1 preview用一个小时干完了博士一年写的代码

软件工程3.0的解释

OpenAI o1 新模型在解决博士级别的科学问题上超越人类

AI 大模型：软件研发的革新力量与未来展望

面向开发人员的 12款强大的 AI 工具（下）

面向开发人员的 12个款强大的 AI 工具（上）

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

推荐一款强大的开源编程助手Cursor

AiDD2024 「AI+研发数字峰会」北京站圆满收官！

由一份财报解读，给您参加AiDD峰会的四大理由

AI代替了我的右手，而且我再也回不去了！

AI+人访谈录：半路入行找到“人生坐标”

刚刚，与GPT-4o相媲美的开源大模型Llama 3.1发布了！

万字长文技术分析：CrowdStrike导致大规模系统崩溃事件

测试三大难题之一 “测试有效性” 的应对策略

软银孙正义：10年内，超级智能ASI水平将是人类的10000倍

测试三大难题之一 “测试充分性” 的应对策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉