通义千问Qwen2.5-Coder 全系列来咯！强大、多样、实用！

科技 2024-11-12 08:31 北京

一、引言

千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列，致力于持续推动 Open Code LLMs 的发展。

● 强大:Qwen2.5-Coder-32B-Instruct 成为目前 SOTA 的开源代码模型，代码能力追平 GPT-4o。在展现出强大且全面的代码能力的同时，具备良好的通用和数学能力;

● 多样:在之前开源的两个尺寸 1.5B/7B 的基础上，本次开源共带来四个尺寸的模型，包括 0.5B/3B/14B/32B。截止目前 Qwen2.5-Coder 已经覆盖了主流的六个模型尺寸，以满足不同开发者的需要;

● 实用:在两种场景下探索 Qwen2.5-Coder 的实用性，包括代码助手和 Artifacts，一些样例展示出 Qwen2.5-Coder 在实际场景中应用的潜力;

二、强大：代码能力达到开源模型SOTA

● 代码生成:Qwen2.5-Coder-32B-Instruct 作为本次开源的旗舰模型，在多个流行的代码生成基准(EvalPlus, LiveCodeBench, BigCodeBench)上都取得了开源模型中的最佳表现，并且达到和 GPT-4o 有竞争力的表现。

● 代码修复:代码修复是一个重要的编程能力，Qwen2.5-Coder-32B-Instruct 可以帮助用户修复代码中的错误，让编程更加高效。Aider 是流行的代码修复的基准，Qwen2.5-Coder-32B-Instruct 达到 73.7 分，在 Aider 上的表现与 GPT-4o 相当。

● 代码推理:代码推理指的是模型能否学习代码执行的过程，准确的预测模型的输入与输出。上个月发布的 Qwen2.5-Coder-7B-Instruct 已经在代码推理能力上展现出了不俗的表现，本次 32B 模型在代码推理上更进一步。

● 多编程语言:智能的编程助手应该熟悉所有编程语言，Qwen2.5-Coder-32B-Instruct 在 40 多种编程语言上表现出色，在 McEval 上取得了 65.9 的分数，其中 Haskell, Racket 等语言表现令人印象深刻，这得益于在预训练阶段独特的数据清洗和配比。

另外，Qwen2.5-Coder-32B-Instruct 的多编程语言的代码修复能力仍然令人惊喜，这将有助于用户理解和修改自己熟悉的编程语言，极大缓解陌生语言的学习成本。与 McEval 类似，MdEval 是多编程语言的代码修复基准，Qwen2.5-Coder-32B-Instruct 在 MdEval 上取得了 75.2 的分数，在所有开源模型中排名第一。

● 人类偏好对齐:为了检验 Qwen2.5-Coder-32B-Instruct 在人类偏好上的对齐表现，构建了一个来自内部标注的代码偏好评估基准 Code Arena(类似 Arena Hard)。采用 GPT-4o 作为偏好对齐的评测模型，采用 'A vs. B win' 的评测方式，即在测试集实例中，模型 A 的分数超过模型 B 的百分比。下图结果表现出 Qwen2.5-Coder-32B-Instruct 在偏好对齐方面的优势。

三、全面：丰富的模型尺寸

本次 Qwen2.5-Coder 开源了丰富的模型尺寸，共包含 0.5B/1.5B/3B/7B/14B/32B 六个尺寸，不仅能够满足开发者在不同资源场景下的需求，还能给研究社区提供良好的实验场。下表是详细的模型信息:

一直相信 Scaling Law 哲学。评估了不同尺寸的 Qwen2.5-Coder 在所有数据集上的表现，以验证 Scaling 在 Code LLMs 上的有效性。

对于每一个尺寸，都开源了 Base 和 Instruct 模型，其中 Instruct 模型作是一个可以直接聊天的官方对齐模型，Base 模型作为开发者微调自己模型的基座。

下面是不同尺寸的 Base 模型表现:

下面是不同尺寸的 Instruct 模型表现:

为了更加直观，展示了不同尺寸 Qwen2.5-Coder 和其他开源模型在核心数据集上的对比。

● 对于 Base 模型，选择 MBPP-3shot 作为评估指标，大量的实验表明，MBPP-3shot 更适合评估基础模型，且能够和模型的真实效果有较好的相关性。

● 对于 Instruct 模型，选择 LiveCodeBench 最新的 4 个月(2024.07 - 2024.11)的题目作为评估，这些最新公布的，不可能泄露到训练集的题目，能够反映模型的 OOD 能力。

模型尺寸和模型效果之间符合预期的存在正相关，并且 Qwen2.5-Coder 在所有尺寸下都取得了 SOTA 的表现，这鼓励着继续探索更大尺寸的 Coder。

模型许可

Qwen2.5-Coder的0.5B、1.5B、7B、14B、32B模型均采用Apache 2.0许可证，3B模型使用“Research Only”许可。

三、模型链接和体验

Qwen2.5-Coder 模型链接:

https://modelscope.cn/collections/Qwen25-Coder-9d375446e8f5814a

模型集合 demo 链接:

https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo

小程序体验：

Artifacts 体验链接:

https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-Artifacts

四、模型推理

transformers: 单卡运行 Qwen2.5-32B-Instrtuct 量化模型。

from modelscope import AutoModelForCausalLM, AutoTokenizermodel_name = "Qwen/Qwen2.5-Coder-32B-Instruct-GPTQ-Int4"model = AutoModelForCausalLM.from_pretrained( model_name,torch_dtype="auto",device_map="auto" )tokenizer = AutoTokenizer.from_pretrained(model_name)prompt = "write a quick sort algorithm."messages = [{"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant."},{"role": "user", "content": prompt} ]text = tokenizer.apply_chat_template( messages,tokenize=False,add_generation_prompt=True )model_inputs = tokenizer([text], return_tensors="pt").to(model.device)generated_ids = model.generate( **model_inputs,max_new_tokens=512 )generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

显存占用:

Ollama:一行命令使用 Ollama 运行魔搭 Qwen2.5-Coder GGUF 模型

#设置下启用ollama serve#ollama run ModelScope 任意 GGUF 模型ollama run modelscope.cn/Qwen/Qwen2.5-32B-Instruct-GGUF

在安装了 Ollama 的环境上(建议使用>=0.3.12 版本)，直接通过上面的命令行，就可以直接在本地运行模型。

vLLM，推理加速

pip install vllm -Uexport VLLM_USE_MODELSCOPE=True vllm serve Qwen/Qwen2.5-Coder-7B-Instruct# 推理代码:from openai import OpenAI# Modify OpenAI's API key and API base to use vLLM's API server. openai_api_key = "EMPTY"openai_api_base = "http://localhost:8000/v1"client = OpenAI(api_key=openai_api_key,base_url=openai_api_base, )completion = client.completions.create(model="Qwen/Qwen2.5-Coder-1.5B-Instruct",print("Completion result:", completion)prompt="San Francisco is a")

五、模型微调

我们介绍使用 ms-swift 对 qwen2.5-coder 进行自我认知微调，并对微调后模型进行推理。

swift 开源地址:

https://github.com/modelscope/ms-swift

自我认知数据集链接:

https://modelscope.cn/datasets/swift/self-cognition

如果需要使用其他数据集进行微调，只需要修改即可。

自定义 dataset 支持传入本地路径、modelscope 和 huggingface 中的 dataset_id 。

文档可以查看 :

https://swift.readthedocs.io/zh-cn/latest/Instruction/%E8%87%AA%E5%AE%9A%E4%B9%89%E4%B8%8E%E6%8B%9 3%E5%B1%95.html#id3

在开始微调之前，请确保您的环境已正确安装:

# 安装 ms-swiftgit clone https://github.com/modelscope/ms-swift.gitcd swiftpip install -e .[llm]

# 微调脚本:# Experimental environment: A10, 3090, V100, ... # 15GB GPU memory CUDA_VISIBLE_DEVICES=0 swift sft \  --model_type qwen2_5-coder-3b-instruct \   --model_id_or_path qwen/Qwen2.5-Coder-3B-Instruct \   --dataset swift/self-cognition#500 \              AI-ModelScope/Magpie-Qwen2-Pro-200K-Chinese#500 \              AI-ModelScope/Magpie-Qwen2-Pro-200K-English#500 \   --logging_steps 5 \  --max_length 4096 \  --learning_rate 1e-4 \  --output_dir output \   --lora_target_modules ALL \   --model_name 小黄 'Xiao Huang' \   --model_author 魔搭 ModelScope \   --system 'You are a helpful assistant.'

微调显存消耗:

微调后推理脚本如下，这里的 ckpt_dir 需要修改为训练生成的 last checkpoint 文件夹。

# Experimental environment: A10, 3090, V100, ... # 直接推理CUDA_VISIBLE_DEVICES=0 swift infer \  --ckpt_dir output/qwen2_5-coder-3b-instruct/vx-xxx/checkpoint-xxx# 使用 vLLM 进行推理加速 CUDA_VISIBLE_DEVICES=0 swift infer \  --ckpt_dir output/qwen2_5-coder-3b-instruct/vx-xxx/checkpoint-xxx \   --infer_backend vllm   --max_model_len 8192   --merge_lora true

推理结果:

六、模型应用：Cursor，Artifacts和interpreter

实用的 Coder 一直是的愿景，为此本次探索了 Qwen2.5-Coder 在代码助手、 Artifacts 、interpreter 场景下的实际表现。

Qwen2.5-Coder 遇到 Cursor:万能代码小助手

只能代码助手目前已经得到广泛的应用，但目前大多依赖闭源模型，希望 Qwen2.5-Coder 的出现能够为开发者提供一个友好且强大的选择。

配置 Qwen2.5-Coder-32B-Instruct 的 openai 兼容 api(URL 和 API Key)

体验 Qwen2.5-Coder 强大的生成/编辑/补全能力吧!(Command+K)

Qwen2.5-Coder 遇到Artifacts：prompt编程不是梦

Artifacts 是代码生成的重要应用之一，帮助用户创作一些适合可视化的作品，clone魔搭创空间，即可本地搭建一个Artifacts。

git clone https://www.modelscope.cn/studios/Qwen/Qwen2.5-Coder-Artifacts.git cd Qwen2.5-Coder-Artifactspip install -r requirements.txtpip install gradiopython app.py

示例视频：

Qwen2.5-Coder 遇到Interpreter：AI操作电脑

在MAC安装环境：

pip install open-interpreter

进入Python环境：

from interpreter import interpreterinterpreter.llm.api_base = "YOUR_BASE_URL" interpreter.llm.api_key = "YOUR_API_KEY" interpreter.llm.model = "openai/Qwen-Coder-32B-Instruct" interpreter.chat("Can you set my system to light mode?")

示例视频：

http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247542183&idx=2&sn=dcea4c9fda4a3933a5a5c0336db5cb58

阿里云开发者

阿里巴巴官方技术号，关于阿里的技术创新均呈现于此。

最新文章

阿里重磅开源 Fluss: Flink Unified Streaming Storage

我的程序突然罢工了｜深入探究HSF调用异常，从死锁到活锁的全面分析与解决

通过文本生成个性化语音会定制在你的“心趴”上吗？

前端大模型入门（三）：编码(Tokenizer)和嵌入(Embedding)解析

写了BUG还想跑?---闲鱼异常日志问题自动追踪-定位-分发机制

官宣开源｜阿里云与清华大学共建AI大模型推理项目Mooncake

一文了解应用网关的演进历程和分类

性能提升利器｜PolarDB- X 超详细列存查询技术解读

AI编码，十倍提速，通义灵码引领研发新范式

就3步，用通义灵码写一个数字华容道小游戏

作为开发者，我如何提高任务型大模型应用的响应性能

DAS自治服务：轻松实现数据库SQL优化

10 倍性能提升， GraalVM 应用可观测实践

分布式读写锁的奥义：上古世代 ZooKeeper 的进击

喜报｜浙江省科技进步奖一等奖！阿里云云原生技术实现新突破

使用YOLOv8完成对图像的目标检测任务（从数据准备到训练测试部署的完整流程）

【由浅到深】从神经网络原理、Transformer模型演进、到代码工程实现

一文彻底搞定Redis与MySQL的数据同步

阿里CEO吴泳铭-2024互联网大会发言：AI的最大价值是推动生产力变革

为什么大模型连"Strawberry"的"r"都数不对？

突破T-SQL限制：利用CLR集成扩展RDS SQL Server的功能边界

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

构建理想容器镜像——以CSI为例

开源新发布｜PolarDB-X v2.4.1 重点增强企业级运维能力

为Go应用无侵入地添加任意代码

前端大模型入门（二）：掌握Langchain的核心Runnable接口

“无”中生有：基于知识增强的RAG优化实践

如何为应用提速？高性能数据库Tair构建缓存

前端大模型入门（一）：用 js+langchain 构建基于 LLM 的应用

什么才是架构师的真内核？

探索JavaScript原型链：深入理解与实战应用

万字干货｜复杂表格多Agent方案：从LLM洞察、系统性思考到实践经验总结

GraphRAG：基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践

【提效】docker镜像构建优化-提速10倍

AI经营｜多Agent择优生成商品标题

通义千问Qwen2.5-Coder 全系列来咯！强大、多样、实用！

如何才能在Java中优雅的操纵时间？

一文详谈领域驱动设计实践

白话文讲解大模型｜ Attention is all you need

你的object可能没别人的快/小

基于开源框架Spring AI Alibaba快速构建Java应用

Apache Flink 的过去、现在及未来

再也不用心惊胆战地使用FastJSON了——序列化篇

终于不用为写文档摘要发愁了！AI总结助手帮你实现

告别头文件，编译效率提升 42%！C++ Modules 实战解析 | 干货推荐

多模态大模型微调实践！PAI+LLaMA Factory搭建AI导游

探索LLM推理全阶段的JSON格式输出限制方法

10分钟构建能主动提问的智能导购助手

“四两拨千斤” —— 1.2MB 数据如何吃掉 10GB 内存

关于单次亿级图片素材调度、处理及使用的工程实践总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉