美国统计教授写了一个R包{quartets}，还大声疾呼：统计必须配上图！

学术科学 2024-03-18 10:57 浙江

这篇文章介绍一个R包，名为{quartets}，可以帮助我们更直观的理解为什么做统计分析必须要配上图片！

首先安装和载入相关R包：

install.packages("quartets")
library(quartets)

# 下面的R包如果没有安装，需安装
library(ggplot2)
library(dplyr)
library(flextable)

R包get！

将使用到这个R包带有的数据集，名为anscombe_quartet，查看下概况：

summary(anscombe_quartet)

其中x和y为两个连续变量，dataset包含四个不同的组别（数据集），这个待会再介绍。

一般来说，拿到数据之后，需要做统计描述，查看常见的统计量。下面按照dataset为组别进行统计描述，代码如下：

anscombe_quartet %>%
  group_by(dataset) %>%
  summarize(mean_x = mean(x),
            var_x = var(x),
            mean_y = mean(y),
            var_y = var(y),
            cor_xy = cor(x, y)) %>%
  flextable()

从输出结果的第一列dataset可知，这个分组变量所包含的组别一共为4个（分别为linear, nonlinear, outlier和leverage）。

从上表可知，在每一个数据集中（每一行中），x的均数，x的方差，y的均数，y的方差，以及x和y的相关系数几乎是相等的。

白纸黑字，铁证如山！

然后，我们就认为这四组数据中的x和y是一样的！

事实真的是这样吗？！

答案是：NO！

真相可以用作图的形式揭晓，代码如下：

ggplot(anscombe_quartet, aes(x, y)) +
  geom_point() + 
  geom_smooth(method = "lm") +
  facet_wrap(~ dataset)

令人震惊！

相同的统计描述（上面的表格），却呈现出完全不一样的模式，这将会对后续的建模产生重大的影响！

如果这个例子还不能说服你，请看下面这个例子（更加戏剧化！）。

请出数据集datasaurus_dozen，查看下概况：

summary(datasaurus_dozen)

这里的dataset也是一个分类变量，包含13个水平。

下面，按组别的进行统计描述，代码如下：

datasaurus_dozen %>%
  group_by(dataset) %>%
  summarize(mean_x = mean(x),
            var_x = var(x),
            mean_y = mean(y),
            var_y = var(y),
            cor_xy = cor(x, y)) %>%
  flextable()

在不同的组别中（13个组别），x的均数，x的方差，y的均数，y的方差，以及x和y之间的相关系数，几乎也是一致的！

下面，画出按照13个水平进行分组的x-y散点图，代码如下：

ggplot(datasaurus_dozen, aes(x, y, color = dataset)) +
  geom_point() + 
  geom_smooth(method = "lm") +
  facet_wrap(~ dataset) + 
  theme(legend.position = "none")

！！！

不管你服不服，反正我是服了。

如果有读者想要画出其中的霸王龙作为收藏，时刻警示自己作图的重要性，可以这么做：

ggplot(datasaurus_dozen[datasaurus_dozen$dataset == "dino",], aes(x, y)) +
  geom_point(color = "purple") + 
  theme_classic()

一条紫色的霸王龙，请收下！

好啦，今天的内容就到这里。如果有帮助，记得分享给需要的人！

参考文献

https://cran.r-project.org/web/packages/quartets/index.html

公众号的线上课程

1. 《R语言和统计新手课程》

2. 《回归：从入门到进阶》

统计咨询

《服务介绍和经典合作案例》

公众号核心成员的成果发表

《SCI医学1区影响因子9分论文》

公众号核心成员担任SCI杂志Associate Editor!

《JAD杂志Associate editor》

《Frontiers in Neuroscience, Frontiers in Neurology and Frontiers in Psychiatry杂志的神经退行性病变板块》

▌本文由R语言和统计首发

▌课程相关咨询可添加R师妹微信: kefu_rstats

▌编辑：June

▌邮箱：contact@rstats.cn

▌网站：www.rstats.cn

▌我们致力于让R语言和统计变得简单！

http://mp.weixin.qq.com/s?__biz=Mzk0MzE5OTAxMg==&mid=2247509287&idx=1&sn=0d6fdac21aa120c792275b762f0e0950

R语言和统计

我们定期更新与R有关的内容，比如R编程基础，作图，实用R包的解读，统计学基础知识，前沿的统计方法，机器学习等等。

最新文章

《回归课程》更新：分位数回归 Quantile regression！

《线性混合模型和纵向数据分析》：含我们团队发表的中科院1区论文纵向分析实战！

{styler}: 我是你的专属代码造型师,附操作视频~

{wesanderson}：电影级配色！《布达佩斯大饭店》也能画在图里～

《R语言和统计新手课程》：学习一门新语言，开辟一条新的路！

只会{ggplot2}作图不太够，快来试试这个“牛图”—— {cowplot}！

不懂矩阵代数（Matrix algebra）到底能不能做统计? 附R代码!

《线性混合模型和纵向数据分析》：含我们团队发表的中科院1区论文纵向分析实战！

审稿人：请给出回归系数的鲁棒标准误，谢谢！

别再只画柱状图了！四种方法教你画克里夫兰点状图！附代码，快收藏～

《回归：从入门到进阶》上线！包含更新内容：多重填补!

审稿人：请画出多重填补后的图，谢谢！

{vipor}: 1+1>2的小提琴散点图！

《R语言和统计新手课程》：速速上车！

{modelr}: 让建模变得简单！

{ggdist}：如果需要了解自己数据的分布，一定要画这几个图看看！

《线性混合模型和纵向数据分析》：含我们团队发表的中科院1区论文纵向分析实战！

神作！此R包的一个函数可以出8份有关回归模型的报告！

{see}：研究好物分享！能将统计模型画成图，还能拼接多个图片～

《线性混合模型和纵向数据分析》：含课程作者发表的中科院1区9分论文纵向分析实战！

与牛顿同名的统计教授写的R包可以关注下！非常实用的制作表格的R包~

{tidytable}: 兼具快速和简单的数据处理R包～

美国统计教授的成名之作--Harrell's C指数，发在JAMA上！

{hrbrthemes}：图片风格还能这么换！？

《线性混合模型和纵向数据分析》解析关键技术！8折钜惠24小时抢购！

最新！R的4.4.0版本发布！是时候停用{dplyr}了？

这位心脏病学教授写了一个R包，解释置信区间到底是怎么回事！

《R语言和统计新手课程》：速速上车！

{rempsyc}：极简代码画出符合SCI发表要求的多种图型！

为了简化制作论文表格的工作，他自己创建了一个函数！

审稿人：你的模型结果汇报的太含糊！请给出预测变量效应图，谢谢！

{tidyheatmaps}：画热图这么轻松，必须为我所用！

《回归：从入门到进阶》上线！包含更新内容：多重填补!

两周前刚发表！加拿大博士生的论文教你如何使用最前沿的技术识别异常值！

实用！这几个函数让长宽数据的转换变得无比丝滑~

《R语言和统计新手课程》：速速上车！

德国教授写了一篇论文和一个R包{cutpointr}，强烈推荐采用鲁棒方法寻找最优切割点！

顶尖研究者每天都在用！如何拼接数据集？送你超级实用的四招！

《R语言和统计新手课程》：赶紧上车！

《The R journal》杂志主编写了一个R包{vivid}，可将机器学习模型作图！

实用基本功！三种画生存曲线的方法一次拿走～

得回归者得天下！《回归：从入门到进阶》课程上线！

美国统计教授写了一个R包{quartets}，还大声疾呼：统计必须配上图！

3分钟搞定雷达图，小白也能轻松上手！

《R语言和统计新手课程》：让入门变得简单！

《回归：从入门到进阶》课程上线！

他们写了一个R包{InteractionPoweR}，同时还发了一篇13.6分的论文！

手把手重复类似《Nature》论文的图！多个组别画图，xy轴互换，legend调整~

审稿人：你的回归模型靠谱吗？请提供回归诊断图！谢谢！

{ggh4x}：如何精修你的图片！让你的作图技能更上一层楼～

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉