优雅R：散点图是真没人用了吗？

文摘 2024-09-18 09:00 爱尔兰

随着数据科学领域的快速发展和工具的日益丰富，越来越多的研究者开始追求复杂的可视化技术，散点图这种简单直观的工具逐渐被各种多维度、花哨的图表所取代。许多人在论文中通过炫技式的可视化展示复杂数据，忽略了图表应有的清晰性和易读性。这种趋势虽然增强了视觉效果，但在数据传达和解释性上却打了折扣。

散点图简介

散点图（Scatter Plot）是数据可视化中最基础但也最有效的工具之一。它通过在二维坐标系中绘制数据点，展示两个连续变量之间的关系。横轴和纵轴分别表示两个变量的数值，每个点的位置对应这两个变量的取值。散点图的优势在于其直观性，能够快速揭示变量之间的相关性、趋势以及潜在的异常值。

散点图的应用场景

尽管复杂可视化越来越流行，散点图依然在许多场景中具有不可替代的作用，特别是在以下情况下：

变量相关性分析：散点图能够直观展示两个变量之间是否存在线性或非线性关系，适合用于回归分析的前期探索。
异常值检测：通过观察散点图中的离群点，研究者可以快速发现异常数据。
群体分类：通过不同的颜色或形状编码，散点图可以展示不同类别之间的分布情况，便于比较不同群体的特征。
数据分布可视化：除了变量关系，散点图还可以结合边缘直方图等工具，展示变量的分布特征。

基本散点图示例代码

下面是一段R语言代码，用于生成最常规的分组散点图，展示两个变量之间的关系并通过颜色区分不同的类别：

# 安装并加载 ggplot2 包
library(ggplot2)

# 生成简单的数据集
set.seed(123)
n <- 100
x <- rnorm(n, mean = 5, sd = 2)  # 先生成 x
y <- 2 * x + rnorm(n)            # 根据 x 生成 y

data <- data.frame(
  x = x,
  y = y,
  group = sample(letters[1:3], n, replace = TRUE)  # 分类变量
)

# 创建基础散点图，按 group 变量分组并用颜色区分
ggplot(data, aes(x = x, y = y, color = group)) +
  geom_point() +
  labs(title = "基础分组散点图", x = "自变量 X", y = "因变量 Y", color = "分组") +
  theme_minimal()

# 保存为 PNG
ggsave("scatter_plot.png", width = 6, height = 4)

高级散点图示例代码

为了展示如何在散点图中添加更多信息，以下代码通过颜色、大小、透明度等属性进行多维度的可视化：

# 安装并加载所需的包
library(ggplot2)
library(ggExtra)

# 生成包含多个维度的模拟数据
set.seed(123)
n <- 1000
data <- data.frame(
  x = rnorm(n, mean = 5, sd = 2),
  y = 2 * data$x + rnorm(n),
  group = sample(letters[1:4], n, replace = TRUE),
  size_var = abs(rnorm(n, mean = 50, sd = 25)), 
  color_var = rnorm(n, mean = 100, sd = 10)
)

# 创建高级散点图，包含颜色、大小和透明度编码
base_plot <- ggplot(data, aes(x = x, y = y)) +
  geom_point(aes(color = color_var, size = size_var, shape = group), alpha = 0.6) +
  scale_color_gradient(low = "blue", high = "red") +
  labs(title = "复杂散点图", x = "自变量 X", y = "因变量 Y", color = "颜色变量", size = "大小变量") +
  theme_minimal() +
  geom_smooth(method = "lm", se = FALSE, color = "black", linetype = "dashed")

# 添加边缘直方图
complex_plot <- ggMarginal(base_plot, type = "histogram", fill = "lightblue", color = "black")

# 打印图表
print(complex_plot)

结论

尽管如今很多研究者在论文中追求复杂的可视化技术，散点图仍然是数据分析中不可或缺的基础工具。它的简单直观性使得研究者能够快速发现变量间的关系和模式，同时在必要时也能通过组合多维信息来增加复杂性。在进行数据可视化时，保持图表的清晰性和易读性始终应该是首要考虑因素。

感谢关注，你的支持是我不懈的动力！

科研代码

专注R和Python的数据分析。

最新文章

资深博导：你得学会用R导出图表啊！你是想给我代码让我自己run吗？

为什么说在中国做科研最忌讳踏实？

审稿人：你都用ggplot2画图了，就不能提高下审美吗？

视频教程：主成分分析，视频号，已出道！

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

审稿人：PCA的误区就是"分类"，但Python可以画得很漂亮！

审稿人：神经网络就比线性模型高级吗？R代码一模一样！

今年顶会这情况。。。大家提前做准备吧！

资深博导：你用上中下三种方法重新画一个聚类分析图，准备发NC!

堪比诺奖级别！曾被审稿人拒稿多次，R和python惊现神级操作，还得是寒门学子！

审稿人：贝叶斯分类模型不是“画圈圈”，跟判别模型其实不一样！

审稿人：我看的是你的三种回归建模吗？，我要的你的诚意！同意接收！

4万粉丝福利送书：说说做微信公众号的心得体会

杂志编辑：随机森林别做太复杂，审稿人哪里懂什么超参数

杂志编辑：别argue了，交叉验证不做？审稿人拒稿你，也正常啊。

来了！GPT4o接入个人微信！！

审稿人：一篇论文，三种热图的计算方法都用上，年轻人！不讲武德啊。

导师说：这就是你的线性模型？不如直接用非线性回归。

学R语言，看这两本教程就够了

研究生期间靠自己买车买房的都是些什么人？

R的ggplot2碾压Python的Seaborn + Matplotlib？我不知道，不过都比盗版的origin强

导师问：你R代码没写对啊，第一句就报错“no package called ‘ggplot2’”？如何高情商回答！

答辩专家：这就是能发Nature的随机森林R语言代码吗？

ChatGPT: 三句话，我让审稿人爱上你的配色！

印度导师：我喜欢中国学生，自学能力强，能够自己找标准数据集学习数据分析。

唐长老怒斥：白骨精会用三种语言写代码，你把她打死干什么？你以为你是chatGPT啊

审稿人：就是你们实验室一直用线性回归发表论文吗？

杀疯了，天才博士少年连发Nature：科研工作者使用GPT迎来突破性进展

导师：你去画一些好看的热图(Heatmap)来！用R！

导师30岁：“伸手党”才是好学生，很多学生遇到R包报错就不学了！

文末赠书| 科技论文写作：如何应对奇葩审稿人？

海归博导：还是中国学生靠谱，像R数据导入这种基本操作，在国外得手把手教！

生命科学数据分析技能普及（第一批）

中英文致谢教程：怎样把5个前女友都放到致谢里？

导师：听说现在流行做数据融合，你研究研究，发个Nature!

导师：你怎么连PLS-DA都不会?奥，我也没教过你。

博后属于一种保定的驴：拉磨，火烧，熬阿胶

导师：方差齐不齐次都不测了吗？

学R语言，看这两本教程就够了

你们要的返场来了，再推荐一次。

杂志主编：你论文的英语水平就像我儿子的中文水平！

PCA绘图哪家强？R和Python都玩出花来了

虽然SVM算法已经用烂了，但审稿专家就是喜欢！

文末赠书！这套畅销20万册的数据分析书，又出新作了！

审稿人：这么简单吗！5行R语言代码就能做出聚类分析的热图？

Python机器学习：自从学会数据结构，脸上的笑容就没停过！

Rstudio十年老用户：只有我看不懂Quarto这种换皮操作吗？

审稿人：箱线图用R语言添加上显著性标记，好看多了！

朋友圈热议：柱状图不够用了，现在都用堆积柱状图

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉