用 R 复刻了一张图，附代码

科技 2024-11-15 10:59 英国

大家好，我是章北海

现在市面上再有大模型发布，很难掀起大波澜了，尤其是国内百模大战背景下。

前几天看到阿里开源了通义千问 Coder 系列的 6 款 Qwen-2.5-Coder 模型。

说是编程能力又大幅提升了，甚至超越 GPT-4o。

由于阿里没有给我广告费，我就不吹嘘它如何牛逼了。

倒是感觉官方这张图很有漂亮

既然大模型都这么能打了，那能不能复刻这张图呢？

我找了 GPT-4o、Claude-3-opus、Claude-3.5-sonnet-20241022 这几位经常被超越的loser

结果并不理想

我还试了号称很难打的其他几个，不提名字了，效果更差，懒得再深入了

然后优化了提示词，让其先抽取并整理好数据再用 python 绘制极坐标图，效果好点了：

不过 Python 的天花板貌似也止于此了

想要更漂亮，害得上 R

用 GPT-4o 复刻结果如下：

调整一下图例、去掉背景色

再上 PS，或许就完整复刻官方那张图了

代码如下：

# 加载必要的库
library(ggplot2)
library(tidyr)
library(dplyr)

# 数据准备
data <- data.frame(
  Benchmark = c("HumanEval", "MBPP", "EvalPlus Average", "MultiPL-E", "McEval", 
                "LiveCodeBench", "CRUXEval-O", "BigCodeBench",
                "AiderPass@2", "Spider", "BIRD-SQL", "CodeArena"),
  Qwen2.5_Coder_32B_Instruct = c(92.7, 90.2, 86.3, 79.4, 65.9, 31.4, 83.4, 38.3, 73.7, 85.1, 58.4, 68.9),
  DeepSeek_Coder_V2_Instruct = c(88.4, 89.2, 83.8, 79.9, 62.9, 27.9, 75.1, 36.3, 72.9, 81.3, 51.9, 57.4),
  DeepSeek_Coder_33B_Instruct = c(79.3, 81.2, 74.9, 69.2, 54.3, 21.3, 50.6, 29.8, 59.4, 73.8, 45.6, 16.8),
  CodeStral_22B = c(78.1, 73.3, 73.5, 70.2, 50.5, 22.6, 63.5, 29.8, 51.1, 76.6, 46.2, 21.7),
  GPT_4o_2024_08.06 = c(92.1, 86.8, 84.4, 79.1, 65.8, 34.6, 89.2, 37.6, 71.4, 79.8, 54.2, 69.1)
)

# 数据转换为长格式
data_long <- data %>%
  pivot_longer(cols = -Benchmark, names_to = "Model", values_to = "Score")

# 绘制极坐标图
ggplot(data_long, aes(x = Benchmark, y = Score, fill = Model)) +
  geom_bar(stat = "identity", position = "dodge") +
  coord_polar() +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    legend.position = "bottom",
    legend.text = element_text(size = 8),
    plot.title = element_text(hjust = 0.5)
  ) +
  guides(fill = guide_legend(nrow = 2)) +  # 设置图例为两行
  labs(title = "Benchmark Scores by Model",
       fill = "Model")

Claude-3-opus 表现也不俗

最后生成图形如下：

最后说一句

由于用的比较少，我本地没再安装 R 和 Rstudio

https://posit.cloud 可以创建 Rstudio 空间，和本地没区别，感兴趣可以去试试。

为了避免被喷，再说一下，其实也测试了 Qwen2.5 和 Deepseek

deepseek 就不放了，他绘制了一幅条形图

至此

如有收获，敬请点个 【在看】，感谢

http://mp.weixin.qq.com/s?__biz=MzA4MjYwMTc5Nw==&mid=2648992662&idx=1&sn=179a020db28df28f08a4b65faa6b4ecb

机器学习算法与Python实战

长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态，分享Python、机器学习等技术文章。回复机器学习有惊喜资料。

最新文章

人生苦短、程序员必备神器！从开发到部署的主流工具全景图

机器学习数据降维与可视化：t-SNE详解与实践【附代码】

用 R 复刻了一张图，附代码

快速学会登上nature的热门算法，LSTM！

值得开发者好好看一看的AI大模型入门教程（内含300道AI面试真题）

50K*16薪，进字节了！

教授何恺明在MIT的第二门课——《深度生成模型》，PPT陆续已出

机器学习进阶必备-10 个高效 Python 工具包完全指南

再见 EasyExcel ！

【赠】出书了，《破解深度学习》来了！

大模型发展方向，你绝对想不到！

机器学习数据预处理中的数据泄露问题！

【RAG实战】基于TextIn打造上市公司财务报表智能问答系统

涨点神器！100个即插即用缝合模块【合集下载】

手搓AI大模型应用获25万用户，辞职创业，收入不如摆摊，网友建议：重新进厂打工

腾讯活菩萨？最强大模型开源，免费商用。

面了一个字节50k大佬，见识到了基础天花板！

微软研究院出品：让 GPT-4V秒懂屏幕截图，本地部署

面了一个字节50k大佬，见识到了基础天花板！

微软研究院出品：让 GPT-4V秒懂屏幕截图，本地部署

15岁山东初中生做CTO，开源项目被100万收购

继续折腾 Obsidian，本地部署one-api，畅通免费大模型

100+深度学习各方向数据集资源大盘点

深度学习面试题合集（PDF下载）

AI 证件照制作工具

神经网络首看书《神经网络与机器学习》，中英文版本PDF下载

被李宏毅大神点赞，深度学习详解，开源了

Anthropic官方深入探讨prompt工程 | 全文脱水中文版

算法入门，《算法图解（第2版）》终于来了！

分享 7 个用 Python 开发成的数据库

“院士之乡”：一共走出26位院士，百位高校校长，一万名教授

黄仁勋预言成真了！！

黑神话火后，印度人想偷走“孙悟空”！疯狂篡改维基百科？

一文读懂模型的可解释性（附代码）

华为牛逼！用 AI 操作手机，做出来了

现在入局 AI 真不晚！

纯血版鸿蒙，扬名海外！国产操作系统的新时代，就要来了。

一个超强的构建Agent的大模型框架

Numpy中数组和矩阵操作的数学函数

RAG入门与实战

10 分钟掌握 Pandas 核心操作：从零开始的数据分析实战

统计学神书，中文版，来了

一网打尽！欧式、曼哈顿、切比雪夫距、闵可夫斯基、汉明、杰拉德、相关距离......原理与可视化解析，附Python代码

【免费PDF下载】数学推导，7万字学会支持向量机

AI 觉醒，学会模仿人类用电脑！编程吊打OpenAI o1

斯坦福NLP实验室重磅开源：DSPy，让大模型开发更简单，附代码

香港大学最新成果——LightRAG大，幅降低大模型问答成本

【PDF下载】无监督机器学习：200页的练习册

被导师放养，后果可能很严重。。。

从A到Z，一文通览Python所有内置函数：编程效率提升 100%

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉