大家好,我是章北海
现在市面上再有大模型发布,很难掀起大波澜了,尤其是国内百模大战背景下。
前几天看到阿里开源了通义千问 Coder
系列的 6 款 Qwen-2.5-Coder
模型。
说是编程能力又大幅提升了,甚至超越 GPT-4o
。
由于阿里没有给我广告费,我就不吹嘘它如何牛逼了。
倒是感觉官方这张图很有漂亮
既然大模型都这么能打了,那能不能复刻这张图呢?
我找了 GPT-4o、Claude-3-opus、Claude-3.5-sonnet-20241022
这几位经常被超越的loser
结果并不理想
我还试了号称很难打的其他几个,不提名字了,效果更差,懒得再深入了
然后优化了提示词,让其先抽取并整理好数据再用 python
绘制极坐标图,效果好点了:
不过 Python
的天花板貌似也止于此了
想要更漂亮,害得上 R
用 GPT-4o 复刻结果如下:
调整一下图例、去掉背景色
再上 PS
,或许就完整复刻官方那张图了
代码如下:
# 加载必要的库
library(ggplot2)
library(tidyr)
library(dplyr)
# 数据准备
data <- data.frame(
Benchmark = c("HumanEval", "MBPP", "EvalPlus Average", "MultiPL-E", "McEval",
"LiveCodeBench", "CRUXEval-O", "BigCodeBench",
"AiderPass@2", "Spider", "BIRD-SQL", "CodeArena"),
Qwen2.5_Coder_32B_Instruct = c(92.7, 90.2, 86.3, 79.4, 65.9, 31.4, 83.4, 38.3, 73.7, 85.1, 58.4, 68.9),
DeepSeek_Coder_V2_Instruct = c(88.4, 89.2, 83.8, 79.9, 62.9, 27.9, 75.1, 36.3, 72.9, 81.3, 51.9, 57.4),
DeepSeek_Coder_33B_Instruct = c(79.3, 81.2, 74.9, 69.2, 54.3, 21.3, 50.6, 29.8, 59.4, 73.8, 45.6, 16.8),
CodeStral_22B = c(78.1, 73.3, 73.5, 70.2, 50.5, 22.6, 63.5, 29.8, 51.1, 76.6, 46.2, 21.7),
GPT_4o_2024_08.06 = c(92.1, 86.8, 84.4, 79.1, 65.8, 34.6, 89.2, 37.6, 71.4, 79.8, 54.2, 69.1)
)
# 数据转换为长格式
data_long <- data %>%
pivot_longer(cols = -Benchmark, names_to = "Model", values_to = "Score")
# 绘制极坐标图
ggplot(data_long, aes(x = Benchmark, y = Score, fill = Model)) +
geom_bar(stat = "identity", position = "dodge") +
coord_polar() +
theme_minimal() +
theme(
axis.text.x = element_text(angle = 45, hjust = 1),
legend.position = "bottom",
legend.text = element_text(size = 8),
plot.title = element_text(hjust = 0.5)
) +
guides(fill = guide_legend(nrow = 2)) + # 设置图例为两行
labs(title = "Benchmark Scores by Model",
fill = "Model")
Claude-3-opus
表现也不俗
最后生成图形如下:
最后说一句
由于用的比较少,我本地没再安装 R
和 Rstudio
https://posit.cloud
可以创建 Rstudio
空间,和本地没区别,感兴趣可以去试试。
为了避免被喷,再说一下,其实也测试了 Qwen2.5
和 Deepseek
deepseek
就不放了,他绘制了一幅条形图
至此
如有收获,敬请点个 【在看】,感谢