Meta开源了Llama3.1系列模型,最大参数规模为405B,开源也是好起来了,榜单指标直逼GPT4-o。
开源追上闭源模型不再是梦!Llama系列模型确实是开源界的头部,真金白银砸出来的就是不一样。
不过现在大家也都知道,榜单效果和真实使用效果也不是完全正比的,后面看看对lmsys战榜单,还有大家的实测效果吧!
HF: https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f
Llama3.1系列模型细节
15T Tokens预训练;占比知识50、数学25、代码17、语言8 8B、70B、405B的模型均采用GQA; 405B模型,有126层,词表大小128256,隐藏层维度16384;8B和70B模型与llama3一样就不介绍了;
支持上下文长度128k; 支持多语言,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语;当然其他语言也可以使用,只是没有针对性进行安全测试。 instruct模型微调使用了公开可用的指令数据集,以及超过2500万的合成数据
8B模型预训练用了146万 GPU小时,70B模型预训练用了700万 GPU小时,405B模型预训练用了3084万 GPU小时;
Llama3.1系列模型效果
Llama3.1系列的8B和70B模型的效果,普遍好于Llama3系列模型。尤其是Instruct模型提升较高,特别是通用、代码、数学和工具使用四个方面,大幅提高;额外添加的合成数据,应该是关键。
模型使用
Llama3-405B模型整体结构没有变化,所有直接transformers走起。
PS:模型下载有困难的同学,详见我之前写的一篇文章《大模型下载使我痛苦》。
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
当然为了加速或者节省显存,也可以vllm、ollama、llamacpp等框架来加载量化模型,这里就不详细介绍了。
写在最后
不过405B模型太大了,部署成本太高了,即使效果很棒,但有多少企业有资格玩一把呢?
个人玩家就更不用说了,光模型大小就820G,别说有没有显卡,也许都没有820G磁盘空间下载都没资格,太难了!
不过后面各大平台(阿里、百度、SiliconFlow)应该会有调用API,到时候体验效果也不费事儿。
又有新工作可做了,应该很快会有Chinese-Llama-3.1工作出来,没资源的小伙伴,等就完事儿了。
最后,Qwen系列是不是也要加把劲了,都给我卷起来!
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注是我坚持的最大动力!
欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!
我们的口号是“生命不止,学习不停”!
往期推荐:
一大堆Chinese Llama3正在袭来 LLM2LLM:迭代数据增强策略提升大模型微调效果 如何快速提高大模型的向量表征效果? RAG系统中答案无关片段对LLMs生成答案有何影响? InternLM2技术报告 Qwen1.5-MoE模型:2.7B的激活参数量达到7B模型的性能 RAG与Long-Context之争—没必要争 角色扮演大模型的碎碎念 自我蒸馏方法-减轻大模型微调过程中的灾难性遗忘 Yi技术报告细节分享 大模型增量预训练新技巧-解决灾难性遗忘 如何提高LLMs的文本表征(Text Embedding)能力? DEITA-大模型指令微调的数据高效筛选方法 大模型微调技巧 | 高质量指令数据筛选方法-MoDS 辟谣!微软撤回声称ChatGPT为20B参数的论文,并给出解释。 如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型? 大模型微调技巧-在Embeeding上加入噪音提高指令微调效果 如何从数据集中自动识别高质量的指令数据 BaiChuan2技术报告细节分享&个人想法 大模型LLM微调经验总结&项目更新 打造LLM界的Web UI 是我们在训练大模型,还是大模型在训练我们? Llama2技术细节&开源影响 大模型时代-行业落地再思考 垂直领域大模型的一些思考及开源模型汇总 如何评估大模型-LLMs的好坏?