LLama3 405B的风声已久,此前有小道消息提到:
「Meta Platforms计划在7月23日发布其开源的Llama 3模型的最大版本,据一位Meta员工透露。这个版本拥有4050亿个参数,这些参数或"设置"决定了LLama3-405B大模型如何回答问题。此外,这个版本将是多模态的,能够理解并生成图像和文本。」
信息源:https://www.theinformation.com/briefings/meta-platforms-to-release-largest-llama-3-model-on-july-23
但最近网友已经发布了泄漏版的LLama3-405B的评测效果图。
目前,405B在官网页面显示的仍在训练中,并没有更新。往往小道消息传的是特别准的,昨天已经有媒体报道过3.1的权重页面,但是当时参数还没有下载地址。
比如:
并且这个页面已经404了,越来越像真的了。
但在7.22日晚间,权重就已经被神秘大佬泄漏出来了。
几个消息源和下载渠道如下:
LLaMA 3.1 405B base model available for download Resources 764GiB(~820GB)!
HF link: https://huggingface.co/cloud-district/miqu-2 (已经失效)
目前还在的有这个版本:https://huggingface.co/mradermacher/Meta-Llama-3-405B-Instruct-Up-Merge-GGUF/tree/main(GGUF的指令微调版本)
模型的关键参数信息为
118 layers
Embedding size 16384
Vocab size 128256
~404B parameters
其他备份下载链接
Magnet: magnet:?xt=urn:btih:c0e342ae5677582f92c52d8019cc32e1f86f1d83&dn=miqu-2&tr=udp%3A%2F%2Ftracker.open bittorrent.com%3A80
Torrent: https://files.catbox.moe/d88djr.torrent
Credits: https://boards.4chan.org/g/thread/101514682#p101516633
405B的dense参数还是十分夸张的,如果按fp16,全都load到内存里,就需要接近1TB的内存了,普通消费者看看就好。根据泄漏的评测结果看,效果匹敌GPT4o,但根据GPT4o的速度来看,GPT4o是远远小于100B的dense模型。
最终发布时间可能定在7.24日,更多官方信息,让我们拭目以待!
关于互联网持续学习圈