重磅!Llama3.1的405B权重和评测提前泄漏

文摘   2024-07-23 10:22   上海  

LLama3 405B的风声已久,此前有小道消息提到:

「Meta Platforms计划在7月23日发布其开源的Llama 3模型的最大版本,据一位Meta员工透露。这个版本拥有4050亿个参数,这些参数或"设置"决定了LLama3-405B大模型如何回答问题。此外,这个版本将是多模态的,能够理解并生成图像和文本。」

信息源:https://www.theinformation.com/briefings/meta-platforms-to-release-largest-llama-3-model-on-july-23

但最近网友已经发布了泄漏版的LLama3-405B的评测效果图。

目前,405B在官网页面显示的仍在训练中,并没有更新。往往小道消息传的是特别准的,昨天已经有媒体报道过3.1的权重页面,但是当时参数还没有下载地址。

比如:

并且这个页面已经404了,越来越像真的了。

但在7.22日晚间,权重就已经被神秘大佬泄漏出来了。

几个消息源和下载渠道如下:

LLaMA 3.1 405B base model available for download Resources 764GiB(~820GB)!

HF link: https://huggingface.co/cloud-district/miqu-2 (已经失效)

目前还在的有这个版本:https://huggingface.co/mradermacher/Meta-Llama-3-405B-Instruct-Up-Merge-GGUF/tree/main(GGUF的指令微调版本)

模型的关键参数信息为

118 layers

Embedding size 16384

Vocab size 128256

~404B parameters

其他备份下载链接

Magnet: magnet:?xt=urn:btih:c0e342ae5677582f92c52d8019cc32e1f86f1d83&dn=miqu-2&tr=udp%3A%2F%2Ftracker.open bittorrent.com%3A80

Torrent: https://files.catbox.moe/d88djr.torrent

Credits: https://boards.4chan.org/g/thread/101514682#p101516633

405B的dense参数还是十分夸张的,如果按fp16,全都load到内存里,就需要接近1TB的内存了,普通消费者看看就好。根据泄漏的评测结果看,效果匹敌GPT4o,但根据GPT4o的速度来看,GPT4o是远远小于100B的dense模型。

最终发布时间可能定在7.24日,更多官方信息,让我们拭目以待!


进交流群请添加小助手微信


关于互联网持续学习圈

互联网持续学习圈是由清华大学计算机系校友、前阿里和微软算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者等,是持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。

互联网持续学习圈
清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者,持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。
 最新文章