HF.095 I Nature帮你整理了最核心的统计概念和方法,你确定不看看吗?(三)

学术   2024-12-12 08:02   浙江  



自2013年9月起,《Nature Methods》(IF:47.99)开设了一个名为“Point of Significance”的定期专栏。该专栏旨在为生物学研究人员提供核心统计概念和方法的基本介绍,包括实验设计。虽然这些文章针对的是生物学家,但对其他学科的研究人员也很有帮助。

目前该栏目已经更新了42种重要的统计概念,并提供了相关的图式。由于上一期的内容受到好评,本期图绘我们继续分享另外5种常用统计概念,同时为了方便我们的读者们学习与实践,我们也在方法后面附上了可参考的实现途径。


专栏部分目录页面


01误差线


误差线常用来表示估计中的不确定性,在散点图和条形图等可视化中十分常见。误差线有三种常见的类型,分别为标准差(s.d.)均值标准误差(s.e.m.)置信区间(Cl)。在对结果进行解读时,一定要注意明确使用的是何种误差线类型,具体而言,基于s.d.的误差线传递了总体的分布情况,可用作新样本范围的预测因子;基于s.e.m.的误差线反映了均值的不确定性及其对样本量的依赖性;基于Cl的误差线是一个区间估计值,用于指示测量的可靠性(95%的Cl相对常见)。同时,值得注意的是要警惕小样本量的误差线,并不稳健,最好显示单个数据值。


置信区间的大小和位置取决于样本

误差线宽度和间距的解释取决于误差线类型


图片来源:

https://www.nature.com/articles/nmeth.2659


实现参考:

[1]【科研绘图】【误差线图】:你真的懂误差线图吗?

[2] CNS绘图:满足所有可能的误差线的绘制


02模型选择和过拟合



在前面的推送中,已经介绍了线性回归和逻辑回归的相关内容,HF.048 I Nature帮你整理了最核心的统计概念和方法,你确定不看看吗?(二)那如何选择合适的模型进行拟合?该专栏给出了答案。

为数据集找到具有适当复杂性的模型需要在偏差和方差之间找到平衡。根据未用于训练或选择模型的数据评估模型非常重要。小样本量在生物学研究中很常见,这使得模型选择更具挑战性。测试集(F1score等指标)和交叉验证方法(K折叠交叉验证)能帮助避免过度拟合,并生成一个在新数据上表现良好的模型。

过拟合,是模型选择进行拟合分析的一个常见陷阱,即模型不仅拟合系统中变量之间的潜在关系底层模型),还拟合每个观察到的样本所特有的噪声。太简单而无法捕获基础模型的模型可能具有高偏差和低方差(欠拟合),过分复杂的模型通常具有低偏差和高方差(过拟合)。




模型选择和过拟合

将数据拆分为训练集、验证集和测试集来选择和验证模型

图片来源:

https://www.nature.com/articles/nmeth.3968

实现参考:

[1]通透!过拟合和欠拟合 全面总结!!


03方差分析


方差分析(Analysis of variance, ANOVA)用于评估不同数据之间差异的统计显著性,分为单因素方差分析和多因素方差分析。方差分析要求从近似正态分布中随机选择的独立样本,这些样本具有相等的方差,不受处理的影响。其中,d.f.为自由度,SS为各种量与其均值的偏差的平方和,MS均方为平方和与自由度的比值,F统计量用于检验处理均值之间的系统差异。

方差分析

图片来源:

https://www.nature.com/articles/nmeth.3005

实现参考:

[1]统计检验—方差检验(ANOVA)分析变量间的显著性差异

[2]R语言绘图19|详解单因素方差分析(ANOVA)


04统计学与机器学习


机器学习专注于预测,使用通用学习算法在通常丰富而笨重的数据中寻找模式1、2 。机器学习方法在处理“宽数据”(输入变量的数量超过受试者的数量)时特别有用,而处理“长数据”(受试者的数量大于输入变量的数量)时则不然。机器学习对数据生成系统做出的假设很少;即使在没有精心控制的实验设计的情况下收集数据,并且存在复杂的非线性相互作用,它们也能有效。然而,尽管预测结果令人信服,但缺乏明确的模型会使机器学习解决方案难以直接与现有的生物学知识相关联。

经典推理和 ML 分析

图片来源:

https://www.nature.com/articles/nmeth.4642/figures/2

实现参考:

[1]【机器学习】几种常见的机器学习分类模型及代码实现

[2]  R语言中的机器学习:10个常用算法及其实现


05机器学习:监督方法


在监督学习中,一组输入变量(例如血液代谢物或基因表达水平)用于预测定量响应变量(例如激素水平)或定性响应变量(例如健康个体与患病个体)。之前讨论过几种监督学习算法,包括逻辑回归和随机森林,以及它们在不同样本大小和预测变量数量下的典型行为。作者将在机器学习的背景下研究两种非常常见的监督方法:线性支持向量机(SVM) K-最近邻(KNN)。两者都已成功应用于生物学和医学中具有挑战性的模式识别问题1。

SVM 和 KNN 体现了机器学习(ML) 中的几个重要权衡。SVM 通常比KNN 计算要求低,而且更容易解释,但它只能识别有限的一组模式。另一方面,KNN 可以找到非常复杂的模式,但其输出更难解释。为了说明这两种算法,作者将它们应用于分类,因为它们在预测分类输出(例如,健康与疾病)方面往往比在用数字输出(例如,激素水平)近似目标函数方面表现更好。这两种学习技术都可用于一次区分多个类别,使用多个预测因子并获得每个类别成员的概率。

支持向量机 (SVM) 通过最大化类别分隔边距的宽度来对点进行分类

K最近邻 (KNN) 分类器的图示

图片来源:

https://www.nature.com/articles/nmeth.4551

实现参考:

[1]机器学习入门(二)—— 模型训练篇:监督学习


往期推荐

[1]  HF.044 | Nature帮你整理了最核心的统计概念和方法,你确定不看看吗?

[2]  HF.048 I Nature帮你整理了最核心的统计概念和方法,你确定不看看吗?(二)

一图胜千言!水文图绘改版后致力于分享水文相关的精美图表,为读者提供作图思路和经验,帮助大家制作更漂亮丰富的图表。同时欢迎留言咨询绘图难点,我们会针对性地分享相关绘制经验。


编辑:温今甫 马孟良|校稿:hydro90编委团




Hydro90
水文青年学术交流平台
 最新文章