首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

重磅！Llama3.1的405B权重和评测提前泄漏

文摘 2024-07-23 10:22 上海

LLama3 405B的风声已久，此前有小道消息提到：

「Meta Platforms计划在7月23日发布其开源的Llama 3模型的最大版本，据一位Meta员工透露。这个版本拥有4050亿个参数，这些参数或"设置"决定了LLama3-405B大模型如何回答问题。此外，这个版本将是多模态的，能够理解并生成图像和文本。」

信息源：https://www.theinformation.com/briefings/meta-platforms-to-release-largest-llama-3-model-on-july-23

但最近网友已经发布了泄漏版的LLama3-405B的评测效果图。

目前，405B在官网页面显示的仍在训练中，并没有更新。往往小道消息传的是特别准的，昨天已经有媒体报道过3.1的权重页面，但是当时参数还没有下载地址。

比如：

并且这个页面已经404了，越来越像真的了。

但在7.22日晚间，权重就已经被神秘大佬泄漏出来了。

几个消息源和下载渠道如下：

LLaMA 3.1 405B base model available for download Resources 764GiB(~820GB)!

HF link: https://huggingface.co/cloud-district/miqu-2 （已经失效）

目前还在的有这个版本：https://huggingface.co/mradermacher/Meta-Llama-3-405B-Instruct-Up-Merge-GGUF/tree/main（GGUF的指令微调版本）

模型的关键参数信息为

118 layers

Embedding size 16384

Vocab size 128256

~404B parameters

其他备份下载链接

Magnet: magnet:?xt=urn:btih:c0e342ae5677582f92c52d8019cc32e1f86f1d83&dn=miqu-2&tr=udp%3A%2F%2Ftracker.open bittorrent.com%3A80

Torrent: https://files.catbox.moe/d88djr.torrent

Credits: https://boards.4chan.org/g/thread/101514682#p101516633

405B的dense参数还是十分夸张的，如果按fp16，全都load到内存里，就需要接近1TB的内存了，普通消费者看看就好。根据泄漏的评测结果看，效果匹敌GPT4o，但根据GPT4o的速度来看，GPT4o是远远小于100B的dense模型。

最终发布时间可能定在7.24日，更多官方信息，让我们拭目以待！

进交流群请添加小助手微信

关于互联网持续学习圈

互联网持续学习圈是由清华大学计算机系校友、前阿里和微软算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者等，是持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先，文艺其从，陪你进化二十年。

http://mp.weixin.qq.com/s?__biz=MzkwODIxMzA2OQ==&mid=2247487568&idx=3&sn=7bcb62e45287fa514a6b66a05605bcdb

互联网持续学习圈

清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者，持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先，文艺其从，陪你进化二十年。

最新文章

闭源模型的统治时代将结束？Llama3.1系列模型正式开源，最大405B

语言模型是如何获得复杂推理能力的？ICML文章给出新的解释

英伟达又涨了！“中国特供”B20芯片被曝，马斯克豪掷10万块H100训Grok，算力是GPT-4的四倍！

马斯克又整活了！！！特斯拉明年将内部率先启用人形机器人，目标年产10亿台，售价约2万美元

Nvidia提出ChatQA 2，提升LLM的Long Context和RAG能力

重磅！Llama3.1的405B权重和评测提前泄漏

大模型面试最新高频问题整理（三）

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…

微软、Meta继续加码AI，云支出创历史新高 | AI脱水

ICML2024会议召开，Google Research相关活动

Google大语言模型Gemma 2介绍及其微调（上篇）

完全激活稀疏大模型，Q-Sparse突破LLM推理效能

奥特曼深夜发动价格战，GPT-4o mini暴跌99%！清华同济校友立功，GPT-3.5退役

阿里千问团队AutoIF，让LLMs学会自我指导，简单有效，性能显著

【每日Leetcode】贪心系列（二）

千问2技术报告解读

LLM在论文评审中被滥用？ICML2024论文研究结果

【每日Leetcode】BFS系列（一）

AI独角兽开始卖身大厂

如何提升大模型RAG系统的效果？RAG推理增强(二)

2024年大模型LLM还有哪些可研究细分领域？

专为Excel而生的大模型来了！

如何提升大模型的Agent推理规划等能力？

【每日Leetcode】拓扑排序系列

大模型面试最新高频问题整理（二）

AI的尽头是能源？奥特曼投资核能初创公司Oklo有望2027年启动首座反应堆

四万字聊搜索系统

中国AI论文数量全球第一！中科院拿下研究机构双第一，腾讯企业排第三

大模型MOE框架发展系统总结

CoAct：模拟人类社会“全局-局部”多层级规划的多智能体自主协作

【每日Leetcode】DFS系列（一）

高盛研究主管批评“AI泡沫”：投入太多，收益太少，比2000年泡沫更大

AI芯片路线图：3张图表和7大影响

ICML 2024 | Med-ST：解锁时空信息在医学多模态预训练中的能力

【每日Leetcode】堆系列（二）

超越DPO之Step-DPO

LEARN：百川大模型在快手推荐中的应用

【每日Leetcode】并查集系列

大厂开启AI大模型人才抢夺战

Meta关于深度学习推荐系统的Scaling Law的研究

【每日Leetcode】动态规划系列-有状态的序列型

大模型数学能力增强方法总结

Runway凭借Gen-3 Alpha估值将达到40亿美金，为日常性收入的160倍！！

RegMix-用回归任务解决大模型数据混合问题

教育领域大模型技术与应用

微软GraphRAG框架实现逻辑详解

【每日Leetcode】单调栈系列（二）

赢麻了！苹果再获OpenAI董事会观察员席位！0元白嫖ChatGPT，比肩微软

金融领域文档智能应用实践

UniRec：考虑序列时间间隔和item交互频率的序列推荐方法

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉