首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Llama 3.1磁力链提前泄露！开源模型王座一夜易主，GPT-4o被超越

教育 2024-07-24 04:35 广东

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→ FightingCV交流群

历史再次重演，Llama 3.1 405B提前泄露了！

现在，基准测试和磁力链已经传得满天飞了。

除了最大的405B，Meta这次还升级了5月初发布的8B和70B模型，并将上下文长度全部提升到了128K。

至此，模型版本也正式从Llama 3迭代到了Llama 3.1。

根据磁力链提供的信息，新模型大小为763.48GiB（约820GB）。

从泄露的「基准测试」可以看出，连8B小模型都很能打，而70B的模型，性能在多项基准上都能赶超GPT-4o了。

开发者们看到测试结果后也原地炸锅，Topology CEO Aidan McLau惊呼道——

如果Llama 3-405B的基准测试是真的，它将

- 成为世界上最好的模型

- 每个人都可调

- 比GPT-4o还便宜！

HyperWriteAI CEO Matt Schumer预言：它定将成为开源模型中的SOTA。（连70B都能和GPT-4o掰手腕，何况这还是在指令微调之前。）

想象一下，一个GPT-4o级别的模型，以每秒330个token的速度运行，价格还要便宜10倍。这简直太令人兴奋了。

明天，将是狂野的一天！

而小扎的一句话，更是暗示着405B的到来——重大一周前的宁静时刻。

众多网友在线逼问OpenAI：新模型啥时候放出？

Llama 3.1家族，明日上线

根据泄露的模型卡，Llama 3.1将在23日发布。

许可证为「定制商业许可」和「Llama 3.1社区许可」。

泄露的Model Card：https://pastebin.com/9jGkYbXY

具体来说，多语言大模型 Llama 3.1系列是一组预训练和指令微调的生成模型，包括8B、70B和405B三种参数规模。

指令微调后的Llama 3.1纯文本模型（8B、70B、405B），针对多语言对话用例进行了优化。

除了英语，它还可以支持7种语言，包括德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

据介绍，Llama 3.1的新增能力包括，更长的上下文、支持多语言输入和输出，以及开发者与第三方工具的集成。

基准测试

在GitHub上一张基准图（现404）显示，Llama 3.1在基准测试中的优异表现。

具体来说，在基准预训练模型的基准评测中，Llama 3.1 405B在通用任务、知识推理、阅读理解上创下最新纪录。

尤其在，MMLU、SQuAD细分基准上，提升最为明显。

与此同时，Llama 3.1 8B和70B参数版本，相较于Llama 3，得到了细微地改善。不过，有些指标，70B Llama 3.1还不如前一代。

另外，指令微调模型中，看得出Llama 3.1 405B比预训练模型更强。在推理、代码、数学、工具使用、多语言基准上，纷纷碾压微调后的8B和70B版本。

Llama 3.1 8B和70B微调模型，同样在多项能力任务中，性能大幅提升。

还有网友汇总了其他领先模型的基准，通过对比可以看出，Claude 3.5 Sonnet才是所有基准中的王者。

Llama 3.1 405B微调版本仅在数学基准MMLU Pro上，最能打，以73.3%成绩打败所有大模型。

另外，405B在GPQA（研究生水平的专业知识和推理）、数学、DROP（阅读理解）、MGSM（多语言数学）、HumanEval（编程），BBH（知识评估）基准上，与GPT-4o不相上下。

而且，405B大幅领先最新GPT-4o mini模型。

Llama 3.1是一个自回归语言模型，使用优化的Transformer架构。调整后的版本使用了SFT和RLHF，以符合人类对安全的偏好。

对于Llama 3.1系列模型，token计数仅指预训练数据。

所有模型的版本，都使用分组查询注意力（GQA）来提高推理的可扩展性。

15T token训练数据

与Llama 3一样，Llama 3.1也是在大约15万亿个来自公开可用来源的token上进行了预训练。

微调数据包括公开可用的指令数据集，以及超过2500万个合成样本，预训练数据截止到2023年12月。

商用研究皆可

Llama 3.1支持多语言环境下的商业和研究用途。

经过指令微调的纯文本模型适用于聊天助手，而预训练模型可以适应各种自然语言生成任务。Llama 3.1模型集合还支持利用其模型输出来改进其他模型，包括合成数据生成和模型蒸馏。

违反使用法律法规、被使用政策和Llama 3.1社区许可证禁止、支持语言之外的使用，都属于超出范围。

并且团队强调，除了支持的8种语言，Llama 3.1在更广泛的语言集合上进行了训练。开发者对其进行微调，就可以在其他语言上适用，前提是遵守社区许可证等政策，并保证使用是安全和负责的。

3930万GPU小时训练

在预训练时，Meta使用了定制的训练库、Meta定制的GPU集群和生产基础设施。微调、注释和评估也都是在生产基础设施上进行的。

训练累计使用了3930万GPU小时的计算时间，硬件类型为H100-80GB（TDP为700W）。

训练时间是训练每个模型所需的总GPU时间，功耗是每个GPU设备的峰值功率容量，根据功率使用效率进行了调整。

训练的总位置基温室气体排放估计为11,390吨二氧化碳当量（CO2eq）。

Meta强调，自2020年以来，自己一直保持着净零的温室气体排放，并且100%的电力都是由可再生资源生成的，因此基于市场基准的总温室气体排放为0吨二氧化碳当量。

重大风险

在重大风险上，Meta也做了测试。

包括CBRNE（化学、生物、放射性、核和爆炸材料）有用性、儿童安全和网络攻击。

在网络攻击上，团队调查了LLMs是否可以提高人类在黑客任务中的能力，包括技能水平和速度。

研究重点在评估LLMs在网络攻击行动中用作自主Agent的能力，特别是被勒索软件攻击时。

主要目标就是评估这些模型是否能在没有人为干预的情况下，有效地作为独立Agent执行复杂的网络攻击。

网友炸锅，再一次见证历史

磁力链放出后，迫不及待的网友直接开始下载，不过这可能需要等待很久。

一部分网友开始坐等Llama 3.1 405B明天发布，再一次见证历史！

开源模型与闭源模型的差距，再次缩小了。

还有人测试了「9.11和9.9谁大」的经典陷阱题，Llama 3.1-405B竟答对了。

对于「GPU穷人」来说，820GB在笔记本上运行实在是太勉强了。

参考资料：

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756

往期回顾

基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

最新论文解析

NeurIPS2022 Spotlight | TANGO：一种基于光照分解实现逼真稳健的文本驱动3D风格化

ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！

ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！

ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

http://mp.weixin.qq.com/s?__biz=MzIzNzU4OTAxMQ==&mid=2247530553&idx=1&sn=c445e8a51f8b6c908a6207e141c84ba3

一个专注于解析计算机视觉、多模态方向前沿论文，解答科研问题，分享科研时事的公众号！

最新文章

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

SpaceX再创历史，人类首次商业太空行走成就达成！

AI 之王 GPT-6 猎户座来了！大模型杀疯了

mPLUG-DocOwl2: OCR-free多页文档理解新SOTA，单页视觉token仅324！

MIT提出了全新AI架构，霸榜各大检测、分割、跟踪、大模型榜单！

离谱，深圳某公司重新定义8小时工作制！

英伟达下一代GPU泄露！RTX 5080比4090提升10%，5090功耗高达600W

RepControlNet：一种新的扩散模型推理加速技术！

斯坦福利用视觉表示法则优化多模态语言模型，计算成本降低 99.7% ！

高校大厂首次用LLM解决时序传统问题

MoE再下一城！港大提出AnyGraph：首次开启「图大模型」Scaling Law之路

CVPR 2025投稿须知

ECCV 2024 | R-Adapter：零样本模型微调新突破，提升鲁棒性与泛化能力

涂鸦、边界框和点通吃，SAM-COD在伪装目标检测中的应用！

商汤营收大涨21%，六成来自生成式AI

Llama3.1根本卖不动！业内人士：开源模型成本反而更高

计算机视觉大佬推荐的深度学习书

CVPR'24满分论文，首个可变形的3D高斯动态重建

ECCV 2024 ｜ 3秒让AI变乖，生成风险图片减少30%！复旦新研究拿下扩散模型概念移除新SOTA

语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

人民日报，单篇报道特色名校

大学教授连开2枪杀妻，本人：系误杀！

一文看懂Mamba，Transformer最强竞争者

国务院任免！她卸任教育部副部长

NeurIPS高分论文，多模态融合！

ECCV 2024 Oral 满分论文！SpikeYOLO：高性能低能耗目标检测网络

为什么最近多模态大模型工作中用Q-Former结构的变少了？

迈向多图长序列理解，阿里开源多模态大模型 mPLUG-Owl3

最强大模型一夜封神！

首个像人类一样思考的网络！Nature子刊：AI模拟人类感知决策

TII发布首个纯无注意力大模型，非Transformer架构站起来了

无痛涨点的82个即插即用缝合模块

清华光学AI登Nature！物理神经网络，反向传播不需要了

正义还是败类？探究奥特曼角色争议背后的马库斯道德危机！

李政道将安葬于苏州

Diffusion反馈强势助力CLIP秒变火眼金睛：北京智源研究院、中科院自动化所联合推出DIVA

ECCV 2024 | 2000 FPS！使用2D GS进行图像表示和压缩！

李沐回归B站详解Llama-3.1论文！

YOLO魔改发论文！11个即插即用的实战项目

大学教师被举报家暴、性骚扰女学生，校方回应

苹果让大模型学会偷懒：更快吐出第一个token，准确度还保住了

ChatGPT版「Her」被玩疯：哭着读诗，中文表现也很亮

ChatGPT版“Her”突然开放，多模态赢麻了！

Meta「分割一切」进化2.0！一键跟踪运动物体，代码权重数据集全开源，网友：真正的OpenAI

2024毕业生薪酬排行榜发布！

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

最新开源的Transformer压缩方法，让模型超级高效！

Llama 3.1磁力链提前泄露！开源模型王座一夜易主，GPT-4o被超越

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉