Llama 3.1和xAI的超集群加速AI军备竞赛

文摘科技 2024-07-24 08:00 天津

文｜庞德公

编辑｜郭嘉

--->更多内容，请移步“鲁班秘笈”！！<---

LLama 3.1

先来看看LLama 3.1 405B的效果，例如输入生成上海印象的四连图，然后一键再生成短视频，整体还是可圈可点。

从下面的各项基准而言，LLama3.1系列在同等量级中均有不俗的表现，尤其是405B已经和闭源的GPT-4o不分伯仲，甚至略压一头。

从各种考试成绩来看也是妥妥的优等生：

<405B的对手主要是GPT-4o和Claude3.5 Sonet>

来关注下最强的Llama 3 405B，它是一个密集的Transformer，具405B个参数和一个最多 128K个 token 的上下文窗口。同时Meta还留了一个伏笔，它们目前通过组合方法将图像、视频和语音功能集成到Llama 3，这种方法在图像、视频和语音识别任务上的表现与最先进的方法不相上下。由于仍在开发中，因此这个生成模型尚未广泛发布。

Meta认为，开发高质量基础模型有三个关键杠杆：数据、规模和管理复杂性。因此在本次系列模型中，针对这三个方面进行创新：

• 数据：与 Llama 的先前版本相比，提高了用于预训练和后训练的数据的数量和质量。这些改进包括为预训练数据开发更仔细的预处理和管理管道，以及为后训练数据开发更严格的质量保证和过滤方法。在大约15T多语言标记的语料库上对Llama 3进行了预训练，而Llama 2的语料库只有 1.8T。

• 规模：旗舰语言模型使用3.8× 10^25FLOP 进行预训练，几乎是Llama 2 最大版本的50倍。具体来说在 15.6T文本标记上预训练了一个具有405B可训练参数的旗舰模型。

• 管理复杂性：选择标准密集 Transformer模型架构并进行了一些小的调整，而不是混合专家模型 (MoE)，以最大限度地提高训练稳定性。同样，采用基于监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO) 等相对简单的训方法练后阶段，而不是更复杂的强化学习算法，这些算法往往不太稳定且更难扩展。

上表为本次系列模型的具体参数细节，更多的技术侧解析将在后续推出~

孟菲斯超级集群

埃隆·马斯克和xAI推出了孟菲斯超级集群，被吹捧为“世界上最强大的人工智能训练集群”。同时宣布在12月之前发布Grok 3.0。

该集群拥有100,000个Nvidia H100 GPU。Grok 2.0已经完成了其训练阶段，并计划即将发布。xAI的目标是到 2024年底，通过Grok 3.0创建“世界上在各个评估基准上最强大的 AI”。它每小时可以消耗高达150兆瓦的电力，相当于为100,000个家庭供电，设施每天至少需要100万加仑的水进行冷却。专家预测它的能力可能会超过目前顶级超级计算机（如Frontier和Aurora）的两倍以上。

计算能力的大规模投资遵循了人工智能模型“越大越好”的行业趋势。更好的人工智能模型需要更多的计算能力，从理论上讲，孟菲斯集群可以在短短一周内训练出GPT-4的模型，而最初估计需要三个月的时间。

鲁班模锤

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化，依托语料库构建数据可信流通方案，为所有企业提供平等的数据增益服务。

最新文章

神经网络与2024诺贝尔物理奖

利用语料来透析（“哲学思考”） “数字孪生” 上

WordLlama：在消费级GPU上奔跑的“瘦子”

AI新思考：“浴火重生”的草莓模型

Apple发布iPhone16和Apple Intelligence

突发：Runway删库跑路，备受瞩目的Stable Diffusion v1.5不见了！

优雅谈大模型：白话ZeRO 下

Jamba前生今世：1.5开源来袭

AI架构系列：去其形而留其意

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

FlashAttention3：再次深度挖掘硬件潜力

Grok 2携AI图片生成重生

TorchChat：Ollama的潜在对手

优雅谈大模型：Python编程篇

AIGC中数据治理的“科林格里奇困境”

泡沫还是机遇？复盘18个月的AI装备竞赛

三个臭皮匠与一个诸葛亮：覆盖率与正确率的博弈

NiFi ：1 初识这把“十年一剑”的利器

Flux：Midjourney的新图像模型挑战者

Apple在Swift中引入同态加密

Meta再下一城：SAM 2

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

新版PyTorch：AI任务加速与Intel GPU集成

优雅谈大模型：白话ZeRO 上

Llama 3.1和xAI的超集群加速AI军备竞赛

LLama3.1 405B即将来袭：开源首次超越GPT-4o

优雅谈大模型：“System2”与“System 1”

本周当之无愧：小模型周

百万专家小专家：“N个小皮匠”？！

SpreadsheetLLM：微软对Excel编码的“摊膀伏”

LLM基础模型系列：Prefix-Tuning

FlashAttention3：“苗条”的就是比较好！

数据跨境法案：美国篇下

MobileLLM：“苗条”的模型比较好！

白话无人驾驶：2 运动规划

白话无人驾驶：1风暴来袭

优雅谈大模型：白话向量数据库

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

LLM基础模型系列：Prompt-Tuning

LLM基础模型系列：Fine-Tuning总览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉