青椒注意:有必要提示学生“上课没用”,特别是数据分析,从描述性统计开始!

文摘   2025-01-22 09:01   荷兰  

很多刚入职的年轻导师工作比较忙,把很多实验和数据分析的工作统统交给学生,却不注意了解学生是否明白基本的统计学常识?是否愿意去自学博士期间的数据分析知识。因为就算学生在本科和硕士阶段上过某些统计类或数据分析的课程,但是从基础概念到实际操作还有很多路要走。年轻导师还是要注意去检查学生的数据分析是否真的做对了,以免最基础的实验分析除了偏差,但是论文却早就投出去了。

今天我们要介绍的“描述性统计”就是简单到不能再简单的最基础的数据分析,如果学生对此心存疑虑,那一定有必要专门辅导一下,这恐怕也是导师责任的一部分。

前言

描述性统计是数据分析中最基础的一部分,许多人认为它简单易学,甚至可以”无师自通”,不需要花时间专门学习。然而,事实并非如此。在当今理工类学科中,统计学思维往往被忽视,许多学生和研究者过于依赖实验和论文撰写,而忽略了数据分析的基础功力。正是因为对描述性统计和统计学基础的轻视,许多科研项目中出现了本可以避免的错误。这些问题不仅影响了结果的解读,还可能严重削弱研究的可信度。因此,系统学习描述性统计非常重要,尤其是在实际数据分析实践中进行学习,更能帮助我们真正理解和掌握这门技术。


1. 描述性统计的概念

描述性统计(descriptive statistics)是一种用于总结和描述数据集中特征的统计方法。

它包括: 

  • 集中趋势:均值、中位数、众数等,用于描述数据的中心位置。 

  • 离散程度:方差、标准差、极差等,用于描述数据的分散程度。 

  • 分布形状:偏度、峰度,用于描述数据的形状特征。


2. 描述性统计在科研中的应用

描述性统计是科研数据分析的基础步骤,可以帮助研究者快速了解数据的总体特征并为后续的推断性分析提供依据。

例如: 

  • 比较不同实验组的均值差异。 

  • 确定数据是否存在异常值。 

  • 检查数据分布是否接近正态分布。

描述性统计常用的软件

除了 R 语言之外,还有多种软件可以用来计算描述性统计量: 

  • Python:通过 pandas 和 numpy 等库,可以快速计算均值、中位数、标准差等统计量。 

  • Excel:适用于简单的统计计算,内置函数如 AVERAGE、MEDIAN 等可以完成基础分析。 

  • SPSS:专为社会科学研究设计,界面友好,适合处理较复杂的描述性统计。 

  • SAS:高效处理大规模数据,适用于商业统计分析。 

  • MATLAB:在工程和科学研究中广泛使用,适合处理数值分析和统计。选择哪种工具取决于数据规模、任务复杂性以及用户的编程经验。


3. 用 R 语言实现描述性统计

我们以一组模拟数据为例,演示如何使用 R 语言进行描述性统计分析。

# 加载必要的库
library(ggplot2)
library(dplyr)

# 生成示例数据
set.seed(42)
data <- data.frame(
Group = rep(c("A", "B"), each = 50),
Value = c(rnorm(50, mean = 75, sd = 10), rnorm(50, mean = 80, sd = 15))
)

# 计算描述性统计量
summary_stats <- data %>%
group_by(Group) %>%
summarise(
Mean = mean(Value),
Median = median(Value),
StdDev = sd(Value),
Range = max(Value) - min(Value)
)
print(summary_stats)
## # A tibble: 2 × 5
## Group Mean Median StdDev Range
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 A 74.6 74.0 11.5 49.4
## 2 B 81.5 84.0 13.9 68.5
结果解读

运行上述代码后,将输出两组数据 (A 组和 B 组) 的描述性统计量表,例如:

GroupMeanMedianStdDevRange
A74.674.011.549.4
B81.584.0
13.968.5
  • Mean (均值):表示两组数据的中心位置,B 组的均值略高于 A 组。

  • Median (中位数):A 组和 B 组的中位数接近其均值,表明数据分布较为对称。

  • StdDev (标准差):B 组的标准差较大,说明数据的离散程度高于 A 组。

  • Range (极差):B 组的值域范围更广,进一步验证了其数据分散性。

这些结果为我们提供了数据的初步特征,可以为后续的分析提供支持。


4. 可视化比较平均数、中位数等

为了更直观地比较平均数、中位数以及数据分布,我们使用 R 绘制箱线图和均值点的叠加图。

# 绘制箱线图并叠加均值
ggplot(data, aes(x = Group, y = Value, fill = Group)) +
geom_boxplot(alpha = 0.7, outlier.color = "red", outlier.shape = 16) +
stat_summary(fun = mean, geom = "point", shape = 18, size = 4, color = "black", aes(group = Group)) +
labs(
title = "Comparison of Mean, Median, and Data Distribution",
x = "Group",
y = "Value"
) +
scale_fill_manual(values = c("#56B4E9", "#E69F00")) +
theme_minimal(base_size = 14) +
theme(
plot.title = element_text(hjust = 0.5, face = "bold"),
legend.position = "none"
)



总结

描述性统计是数据分析的重要组成部分,通过集中趋势、离散程度和分布形状的分析,可以快速了解数据的基本特征。在实践中,借助 R 语言和其他工具,我们不仅能高效地进行描述性统计,还能通过可视化手段直观地呈现数据特性。这些技能对于科研工作者来说是必备的,有助于提高数据分析的准确性和效率。

感谢关注,你的支持是我不懈的动力!

科研代码
专注R和Python的数据分析。
 最新文章