青椒注意：有必要提示学生“上课没用”，特别是数据分析，从描述性统计开始！

文摘 2025-01-22 09:01 荷兰

很多刚入职的年轻导师工作比较忙，把很多实验和数据分析的工作统统交给学生，却不注意了解学生是否明白基本的统计学常识？是否愿意去自学博士期间的数据分析知识。因为就算学生在本科和硕士阶段上过某些统计类或数据分析的课程，但是从基础概念到实际操作还有很多路要走。年轻导师还是要注意去检查学生的数据分析是否真的做对了，以免最基础的实验分析除了偏差，但是论文却早就投出去了。

今天我们要介绍的“描述性统计”就是简单到不能再简单的最基础的数据分析，如果学生对此心存疑虑，那一定有必要专门辅导一下，这恐怕也是导师责任的一部分。

前言

描述性统计是数据分析中最基础的一部分，许多人认为它简单易学，甚至可以”无师自通”，不需要花时间专门学习。然而，事实并非如此。在当今理工类学科中，统计学思维往往被忽视，许多学生和研究者过于依赖实验和论文撰写，而忽略了数据分析的基础功力。正是因为对描述性统计和统计学基础的轻视，许多科研项目中出现了本可以避免的错误。这些问题不仅影响了结果的解读，还可能严重削弱研究的可信度。因此，系统学习描述性统计非常重要，尤其是在实际数据分析实践中进行学习，更能帮助我们真正理解和掌握这门技术。

1. 描述性统计的概念

描述性统计(descriptive statistics)是一种用于总结和描述数据集中特征的统计方法。

它包括：

集中趋势：均值、中位数、众数等，用于描述数据的中心位置。
离散程度：方差、标准差、极差等，用于描述数据的分散程度。
分布形状：偏度、峰度，用于描述数据的形状特征。

2. 描述性统计在科研中的应用

描述性统计是科研数据分析的基础步骤，可以帮助研究者快速了解数据的总体特征并为后续的推断性分析提供依据。

例如：

比较不同实验组的均值差异。
确定数据是否存在异常值。
检查数据分布是否接近正态分布。

描述性统计常用的软件

除了 R 语言之外，还有多种软件可以用来计算描述性统计量：

Python：通过 pandas 和 numpy 等库，可以快速计算均值、中位数、标准差等统计量。
Excel：适用于简单的统计计算，内置函数如 AVERAGE、MEDIAN 等可以完成基础分析。
SPSS：专为社会科学研究设计，界面友好，适合处理较复杂的描述性统计。
SAS：高效处理大规模数据，适用于商业统计分析。
MATLAB：在工程和科学研究中广泛使用，适合处理数值分析和统计。选择哪种工具取决于数据规模、任务复杂性以及用户的编程经验。

3. 用 R 语言实现描述性统计

我们以一组模拟数据为例，演示如何使用 R 语言进行描述性统计分析。

# 加载必要的库
library(ggplot2)
library(dplyr)

# 生成示例数据
set.seed(42)
data <- data.frame(
  Group = rep(c("A", "B"), each = 50),
  Value = c(rnorm(50, mean = 75, sd = 10), rnorm(50, mean = 80, sd = 15))
)

# 计算描述性统计量
summary_stats <- data %>%
  group_by(Group) %>%
  summarise(
    Mean = mean(Value),
    Median = median(Value),
    StdDev = sd(Value),
    Range = max(Value) - min(Value)
  )
print(summary_stats)

## # A tibble: 2 × 5
##   Group  Mean Median StdDev Range
##   <chr> <dbl>  <dbl>  <dbl> <dbl>
## 1 A      74.6   74.0   11.5  49.4
## 2 B      81.5   84.0   13.9  68.5

结果解读

运行上述代码后，将输出两组数据 (A 组和 B 组) 的描述性统计量表，例如：

Group	Mean	Median	StdDev	Range
A	74.6	74.0	11.5	49.4
B	81.5	84.0	13.9	68.5

Mean (均值)：表示两组数据的中心位置，B 组的均值略高于 A 组。
Median (中位数)：A 组和 B 组的中位数接近其均值，表明数据分布较为对称。
StdDev (标准差)：B 组的标准差较大，说明数据的离散程度高于 A 组。
Range (极差)：B 组的值域范围更广，进一步验证了其数据分散性。

这些结果为我们提供了数据的初步特征，可以为后续的分析提供支持。

4. 可视化比较平均数、中位数等

为了更直观地比较平均数、中位数以及数据分布，我们使用 R 绘制箱线图和均值点的叠加图。

# 绘制箱线图并叠加均值
ggplot(data, aes(x = Group, y = Value, fill = Group)) +
  geom_boxplot(alpha = 0.7, outlier.color = "red", outlier.shape = 16) +
  stat_summary(fun = mean, geom = "point", shape = 18, size = 4, color = "black", aes(group = Group)) +
  labs(
    title = "Comparison of Mean, Median, and Data Distribution",
    x = "Group",
    y = "Value"
  ) +
  scale_fill_manual(values = c("#56B4E9", "#E69F00")) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.position = "none"
  )

总结

描述性统计是数据分析的重要组成部分，通过集中趋势、离散程度和分布形状的分析，可以快速了解数据的基本特征。在实践中，借助 R 语言和其他工具，我们不仅能高效地进行描述性统计，还能通过可视化手段直观地呈现数据特性。这些技能对于科研工作者来说是必备的，有助于提高数据分析的准确性和效率。

感谢关注，你的支持是我不懈的动力！

科研代码

专注R和Python的数据分析。

DeepSeek血屠三万亿美股！谁还用ChatGPT啊？用Python演示什么是可生成式AI。

外国博士:中国博士很优秀，但很爱跪舔导师，这样不好！我说了不要用神经网络建模！

外导当众羞辱新生：“你的代码都是ChatGPT复制的”。请学会用代码补全写Python！

外导震惊：韩国学生不让我过中国新年？我不想吃辣白菜，我要用XGBoost发论文！

审稿人：不要学老外，用深度学习“灌水”发论文，30个样品，有必要上深度学习吗?

青椒注意：有必要提示学生“上课没用”，特别是数据分析，从描述性统计开始！

导师说学会Python必备代码，准备发NCS论文，太吓人了！

审稿人：给我看看原始数据好吗？你的回归模型的准确率太高了！

退学博士破防痛哭：读研不是上岸，曾经熬夜用R优化模型！

一年涨粉4万！公众号“科研代码”2024年创作回顾

搞科研，原来“模仿”才是最快发论文的方法？

韩国教授吐槽中国博士:“英语不好，Python虚拟环境也不会！！”

粉丝赠书！一法破万法，《AI帮你赢：人人都能用的AI方法论》

博士答辩：发8篇SCI论文的好学生答不出置信区间的含义？不开玩笑，这很普遍！

缅甸军阀：印度博士听话加班不睡觉，泰国快快给我送，写R代码，做正态分布！

导师：求求你！我的学生祖宗，把数据用R清洗好了再建模，不就不报错了吗？

海归博导：我以为R包的安装不用教，直到遇到自己的学生

Follow Michael, english data analysis中英双语数据分析教程来了，还有视频呢！

坚持用R画正确的中国地图，审稿人无能狂怒！

导师：你不会用R做数据筛选，那还不如用Excel

医学数据：我写好这个模型的代码，主任当场给我敬酒！

审稿人：为什么行业大牛的论文总喜欢用这个图？3个R包就能做！

印度青椒：我的爸爸不是校长，我还有希望吗？

审稿人：你以为100%准确率是好事吗？恰恰相反，都overfitting了！

海归博导：中国学生要自信！1个中国的好硕士顶国外的3个博士，组学数据分析已经超越国外同龄人！

审稿人：要警惕打着机器学习的名义“造”论文，特别是判别分析（LDA）

导师：人家隔壁组5行代码就做出了RCS图，你们行不行！

医学科研绘图：年底了，我还在做火山图返修论文，圣诞老人当场对我敬礼！

审稿人：一个Cox比例风险模型，拯救多少医学人的数据分析！

学R语言，看这两本教程就够了

裁员了，很严重，大家做好准备吧！

医学科研绘图：我用R画出这三个图，印度审稿人当场向我敬礼！

“颜值就是影响因子”：R可视化美学提升之条形图代码

资深博导：我从不反对用ChatGPT搞科研，但你得学会用啊！报个班吧，组里给你花钱！

审稿人：看在你弦图好看的份上，勉强大修！R画的吧？

tiff还是png？原来R做PCA绘图可以随意设置分辨率。300dpi，提交！

资深博导：你得学会用R导出图表啊！你是想给我代码让我自己run吗？

为什么说在中国做科研最忌讳踏实？

审稿人：你都用ggplot2画图了，就不能提高下审美吗？

视频教程：主成分分析，视频号，已出道！

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

审稿人：PCA的误区就是"分类"，但Python可以画得很漂亮！

审稿人：神经网络就比线性模型高级吗？R代码一模一样！

今年顶会这情况。。。大家提前做准备吧！

资深博导：你用上中下三种方法重新画一个聚类分析图，准备发NC!

堪比诺奖级别！曾被审稿人拒稿多次，R和python惊现神级操作，还得是寒门学子！

审稿人：贝叶斯分类模型不是“画圈圈”，跟判别模型其实不一样！

审稿人：我看的是你的三种回归建模吗？，我要的你的诚意！同意接收！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉