Qwen2又出新作Math大模型,你值得拥有。
我没有等来Qwen2.5,但等来了Qwen2-Math,在数学推理能力上大幅度提高,先来一张图阵阵场子,72B模型超过GPT4-o、Claude-3.5-Sonnet和Gemini-1.5-Pro。
Blog: https://qwenlm.github.io/blog/qwen2-math/
HF:https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
本次开源共涉及3个尺寸2个版本,分别为Qwen2-Math-1.5B、Qwen2-Math-1.5B-Instruct、Qwen2-Math-7B、Qwen2-Math-7B-Instruct、Qwen2-Math-72B和Qwen2-Math-72B-Instruct。
模型训练初始化采用Qwen2-1.5B、Qwen2-7B和Qwen2-72B,训练语料涉及高质量的数学网络文本、书籍、代码、考试题目以及由Qwen2模型合成的数学预训练数据。
指令微调阶段是先用Qwen2-Math-72B训练了一个数学专用的奖励模型,然后利用该奖励模型和指示模型回答问题是否正确这两个指标一起拒绝采用构建SFT数据集,并利用GRPO进一步对齐模型效果。
注意:模型在预训练和指令微调阶段为了防止数据泄露,均进行数据去污染除了,移除测试集中13-gram重复且最长公共子序列比例大于0.6的训练样本。
模型在GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23多个等数据集上均取得了很好的效果。
相较于原版Qwen2有很大的提升
HF快速使用:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen2-Math-1.5B-Instruct"
device = "cuda"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Find the value of $x$ that satisfies the equation $4x+5 = 6x+7$."
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
最后说一下,官方表示目前的模型仅为英文模型,后续会推出中英双语模型。
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注是我坚持的最大动力!
欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!
我们的口号是“生命不止,学习不停”!
往期推荐:
一大堆Chinese Llama3正在袭来 LLM2LLM:迭代数据增强策略提升大模型微调效果 如何快速提高大模型的向量表征效果? RAG系统中答案无关片段对LLMs生成答案有何影响? InternLM2技术报告 Qwen1.5-MoE模型:2.7B的激活参数量达到7B模型的性能 RAG与Long-Context之争—没必要争 角色扮演大模型的碎碎念 自我蒸馏方法-减轻大模型微调过程中的灾难性遗忘 Yi技术报告细节分享 大模型增量预训练新技巧-解决灾难性遗忘 如何提高LLMs的文本表征(Text Embedding)能力? DEITA-大模型指令微调的数据高效筛选方法 大模型微调技巧 | 高质量指令数据筛选方法-MoDS 辟谣!微软撤回声称ChatGPT为20B参数的论文,并给出解释。 如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型? 大模型微调技巧-在Embeeding上加入噪音提高指令微调效果 如何从数据集中自动识别高质量的指令数据 BaiChuan2技术报告细节分享&个人想法 大模型LLM微调经验总结&项目更新 打造LLM界的Web UI 是我们在训练大模型,还是大模型在训练我们? Llama2技术细节&开源影响 大模型时代-行业落地再思考 垂直领域大模型的一些思考及开源模型汇总 如何评估大模型-LLMs的好坏?