Ecology最新综述:统计生态学百年历史回顾(全文)

文摘   2024-05-17 20:06   江苏  

这篇论文的标题是《A Century of Statistical Ecology》,由 Neil A. Gilbert、Bruna R. Amaral、Olivia M. Smith、Peter J. Williams、Sydney Ceyzyk、Samuel Ayebare、Kayla L. Davis、Wendy Leuenberger、Jeffrey W. Doser 和 Elise F. Zipkin 共同撰写。于在5月13日在《Ecology》期刊上,回顾了统计生态学作为一个子学科的发展历程,以及《Ecology》期刊在其中所扮演的角色。以下是对论文内容的全文翻译:


摘要:

随着近几十年来数据和计算能力的激增,统计建模已成为理解生态模式和过程的重要工具。生态统计建模面临两大挑战:首先,生态数据可能不符合传统方法;其次,专业的生态学家通常没有接受过广泛的统计培训。为了应对这些挑战,《Ecology》期刊发表了许多创新的统计生态学论文,引入了新的建模方法,并提供了关于统计最佳实践的可访问指南。在本文中,我们反思了《Ecology》的历史以及其在统计生态学子学科出现中的作用,我们将统计生态学定义为使用数学方程、概率和经验数据研究生态系统。我们展示了在《Ecology》上发表的过去一个世纪中影响深远的36篇统计生态学论文,并在此过程中评论了该领域的演变。随着数据和计算能力的持续增长,我们预计统计生态学将继续增长,以应对复杂分析,并为《Ecology》发表创新和有影响力的论文,推动学科发展并指导实践生态学家。

 关键词:数据、科学史、模型选择、定量生态学、统计生态学、不确定性


Ecology》:统计生态学的重要发表阵地

《Ecology》是一本综合性期刊,发表有关许多生物群落的不同类群的论文,解决各种生态问题。 自该期刊创刊以来,专注于生态研究方法发展的论文一直是《Ecology》领域的核心。 例如,《Ecology》在第三年发表了对Arrhenius公式的批评,该公式模拟了种-面积的关系,重点关注实验设计考虑因素,解释了为什么该公式无法拟合经验数据(Gleason,1922)。《Ecology》中出现的方法论文中,一个值得注意的亚领域是统计生态学,尤其是近几十年来。 我们在本文中的目标是突出《Ecology》中出现的有影响力的统计生态学论文,并在此过程中追踪生态数据分析中重要概念和方法的发展。 我们展示的《Ecology》自创刊以来36 篇论文,突出了一个世纪的统计生态学创新性的成果。


统计生态学是什么?

统计生态学是使用数学方程、概率和经验数据研究生态系统的学科。它与理论(或数学)生态学紧密相关。统计生态学的两个特点使其与理论生态学区分开来:首先,统计生态学持有数据优先的观点。数据分析和解释——无论是经验的还是模拟的——是统计生态学研究的最前沿。这与理论建模工作形成对比,后者的重点是探索复杂系统的行为,对数据的应用是次要的。第二个特点是不确定性。统计生态学关注估计或预测某些生态量,以及与该估计或预测相关的不确定性。这与理论方法形成对比,后者通常提供数学公式的确定性输出,其中量化不确定性不是中心焦点(尽管随机数学模型是例外)。总的来说,很难在子学科之间划出严格的界限,因此定义存在模糊性。然而,为了本回顾的目的,我们将统计生态学定义为使用带有概率不确定性度量的数学方程来解释或预测生态现象的实证努力。


识别《Ecology》杂志上的统计生态学创新论文

我们进行了文献综述,以识别在《Ecology》百年历史中出现的创新统计生态学论文。我们在2023年2月15日从Web of Science下载了从《Ecology》创刊至2023年2月号发表的所有论文的完整记录(n = 17,589)。然后,我们筛选了所有论文的标题和摘要(或当摘要不存在时的第一页),移除了非研究项目(如更正、社论和书评),并辨别每篇论文是否专注于统计生态学。我们使用“数据优先”和“不确定性”标准来区分统计生态学论文和理论及数学生态论文。我们认为“专注于统计生态学”的论文是描述了新的建模框架、扩展了之前描述的模型,或提供了关于应用统计方法的综述或指导的论文;仅仅应用已建立的统计方法并不符合条件。我们确定了1447篇统计生态学论文,占《Ecology》在其前103年发表的研究论文的8.8%。毫不奇怪,每年在《Ecology》上发表的统计生态学论文的比例随着时间增加(图1)。统计生态学论文的快速增长始于1970年左右,与计算技术的进步相一致;比例在21世纪初达到高峰,2010年后下降,可能是由于像《Methods in Ecology and Evolution》这样的聚焦方法期刊的出现。我们使用引用次数来帮助识别创新论文,理由是影响大的论文获得的引用更多(Teplitskiy et al.,2022年),尽管我们承认这种方法可能会由于引用行为中的性别同质性而在选定的论文中造成性别偏见(Zhou et al.,2024)。我们保留了至少获得当年《Ecology》所有研究文章引用次数的第75%分位数的统计生态学论文,剩下424篇文章。这代表了所有统计生态学论文(n = 1447)的29.3%和所有研究文章中引用次数超过第75%分位数的文章(n = 4550)的9.3%,表明专注于统计生态学的论文相对于它们在《Ecology》高引用论文中的基线普遍性而言更高引一些。我们随后阅读了每篇论文,将其归类为七个(非互斥的)主题(图2):(1)个体模型(占424篇高引用统计生态学论文的12.0%),(2)种群模型(37.3%),(3)群落方法(30.5%),(4)生态系统方法(6.1%),(5)空间方法(19.9%),(6)模型选择和评估(5.2%),以及(7)工具和最佳实践(17.0%)。请注意,报告的百分比总和不为100,因为一篇论文可以归类为多个类别。我们选择了36篇论文来突出展示在这个系列中,选择展示每个类别中引用排名最高的几篇论文(图3)。我们专注于那些我们认为已经影响了统计生态学以及更广泛生态学方向的论文。由于我们的目标是传达统计生态学几十年来如何发展的故事——而不是提供一个尖端统计方法的概述——因此,这里描述的一些工作不再代表数据分析的最佳实践。最后,我们承认这些高引用论文的作者(特别是早年的)反映了生态学的排他史,并希望向前看,统计生态学将看到越来越多多样化生态学家的参与(Beck et al.,2014;Gilbert,2018;Martin,2012;Whelan和Schimel,2019)。



图1. 从 1920 年到 2022 年在《Ecology》上发表的以统计生态学为重点的论文比例的时间序列。粗红线:10年移动平均线。


图2 详细审查的 424 篇高被引统计生态学论文中每个主题按时间段的流行情况



图3.  7个主题中36 篇杰出的统计生态学论文的时间表


 

主题1:个体模型 (5篇论文)

统计生态学论文在这个类别中寻求理解动物个体的运动和行为。随着20世纪50年代末和60年代无线电遥测技术的出现,以及随后野生动物追踪工作的爆炸性增长(Benson,2010),研究人员需要相应的统计方法来理解这些数据。追踪数据的分析目标包括估计栖息地范围、理解栖息地选择和描述运动模式。这些领域的方法发展仍然非常活跃,特别是考虑到“高通量”运动数据(Nathan et al.,2022)的增长和追踪设备微型化,使其能够应用于小至昆虫的物种(Knight et al.,2019)。从位置数据估计动物的栖息地范围最初看起来很简单(只需在地图上绘制点),但伴随着许多统计学问题挑战。Worton(1989)引入了一种用于动物位置的核平滑方法来描述栖息地范围。这种非参数方法比参数方法有所改进,因为它适应了多峰分布(即非圆形栖息地范围)。该论文还提供了一种用于选择适当平滑参数的交叉验证方法。接下来的几年中,栖息地范围建模继续取得进展,包括Fleming et al.(2015),他们提出了一种通过将位置数据中的自相关性视为有用信息而不是讨厌的参数来估计动物栖息地范围的方法。传统的核密度方法——如Worton(1989)所述——假设此类数据的独立性,结果大大低估了栖息地范围大小,并且在面对新数据时表现不佳。评估资源选择是使用个体动物数据的研究的主要焦点。Johnson(1980)引入了一种通过排序来描述使用和可用性(例如食物或栖息地)的方法。这种方法创新性在于,即使在改变分析中包含的“组分”(食物、栖息地类型)时,它也提供了偏好和避免的一致估计,并且它可以转化为现有的统计假设检验方法。此外,论文的讨论概述了栖息地选择的层次性质(从物种的地理范围到个体栖息地内食物资源的选择),这是一个现在在动物生态学中无处不在的框架,使该论文成为引用经典。Northrup et al.(2013)为执行资源选择分析时定义可用位置提供了实际指导。通过模拟,他们展示了可用性的空间不匹配(即,从与动物可以访问/使用的空间范围不同的空间范围中抽取随机的“可用”位置)会导致资源偏好的有偏估计。环境变量的空间自相关性加剧了这个问题。由于定义资源可用性是关键的——但很大程度上是任意的——对于此类分析,这篇论文是任何执行资源选择研究的人的有价值参考文献。最后,运动生态学已经作为生态学的子学科出现,其统一的观点是,描述个体的运动可以洞察生理、行为和种群问题(Converse et al.,2022;Patterson et al.,2008)。状态空间模型在这一领域是一个重要工具,因为它们试图区分生态现实(动物的运动)和数据收集或观察过程。Jonsen et al.(2005)展示了如何将状态空间建模应用于位置数据,以对动物运动以及行为状态进行推断。他们模型的重要特征包括(1)其能够适应复杂的误差结构(例如,来自不规则时间间隔的数据)和(2)基于模型的极端(错误)位置过滤,无需对位置数据进行临时过滤。他们将模型应用于跟踪北大西洋海豹的数据,区分迁徙和觅食行为。

 

主题2:种群模型(6篇论文)

种群建模的核心目标包括估计物种分布、种群多度(或密度)、种群统计参数(例如存活率)和随时间变化的种群趋势。在《Ecology》创刊之前和同时期,像Malthus, Lotka, and Volterra.这样的科学家的工作就吸引了大量关注,并且我们认为这些工作——以及随后几十年出现在《Ecology》中的许多种群研究(例如,De Bach & Smith, 1941)——更好地被归为为理论或数学建模。然而,种群的统计模型在《Ecology》创刊的第一个几十年中也取得了许多进展。例如,Cottam et al.(1953)评估了评估植物空间模式是随机或非随机的方法,这是估计种群密度时一个重要的考虑因素。他们发现,通过多种抽样方法(样方、个体间距离),在假设抽样了合适数量的个体的情况下,可以做出准确的估计。也许这篇论文最值得注意的方面是作者使用了一个计算机模拟的个体种群,这对于20世纪50年代初来说是一项相当大的创举。数据模拟对于理解和验证方法至关重要,至今仍是统计生态学的核心组成部分(DiRenzo et al.,2023)。与植物种群研究方法不同,估计动物的种群参数面临着动物运动和检测不完善等挑战。捕获-再捕获建模,被广泛认为是估计动物种群多度以及各种种群统计参数的黄金标准,并在过去一个世纪中经历了广泛的发展(Seber & Schofield, 2019)。例如,Burnham和Overton(1979)通过开发一种考虑个体动物检测性变化的方法,描述了捕获-再捕获建模的一个重要进展。这种检测异质性会导致多度估计的系统性负偏差(Kéry & Royle, 2015);因此,这种方法在面对个体间“捕获性”变化时增强了多度估计,例如,由于动物间的特殊性。由于种群是个体的集合,因此从概念上讲,将个体及其运动的模型联系起来以估计种群参数是可取的。Gardner et al.(2022)通过一个综合的动物运动和空间捕获-再捕获模型实现了这一点。捕获-再捕获的后继者,空间捕获-再捕获模型(Borchers & Efford, 2008; Royle & Young, 2008),通过在陷阱中对个体的重复检测的空间模式估计个体动物的活动中心,从而提供了一种强大的方法来估计种群密度和其他种群统计参数。然而,空间捕获-再捕获对动物运动和空间使用的处理方式过于简单化(而且往往是不现实的)(Theng et al.,2022)。Gardner et al.(2022)通过将动物运动模型(例如,相关随机游走)注入到空间捕获-再捕获中来纠正这一点;他们的模拟表明,仅使用空间捕获-再捕获数据就可以估计动物运动参数,但是辅助的遥测数据改进了这些参数的估计。Gardner et al.(2022)的方法是将动物运动与种群动态联系起来的框架,并为进一步发展提供了机会(例如,应用于开放种群,替代运动模型)。并非所有种群都可以直接捕获或以其他方式标记,因此MacKenzie et al.(2002)通过为“未标记”的动物种群开发占有模型做出了宝贵贡献。借鉴捕获-再捕获的理念,占有模型认识到个体的检测是不完美的,因此这些模型依赖于多个地点的物种检测历史(而不是地点内个体的检测历史)来估计检测概率,从而提供更准确的物种出现模式和分布估计。原始的占有模型已经被多种方式改编。在《Ecology》上单独发表的论文中,扩展包括多季节占有模型来估计地点的殖民和灭绝率(MacKenzie et al.,2003),假阳性模型来考虑物种的误识别(Chambert et al.,2015;Clare et al.,2021;Royle & Link, 2006),以及从检测-非检测数据中估计多度的模型(Royle & Nichols, 2003)。通过时间理解种群趋势一直是数学生态学中种群建模努力的主要焦点。Clark和Bjørnstad(2004)通过使用状态空间模型对种群时间序列进行建模,给出了统计生态学的观点。像Jonsen et al.(2005)描述的个体运动的状态空间建模方法一样,这些模型区分了生态过程(种群大小)和观察过程(如何调查这些种群)。此外,种群的状态空间建模直接适应了相邻时间步骤中种群大小之间的时间依赖性。虽然种群时间序列的建模工具本身很有价值,但这些状态空间模型是集成种群模型的关键组成部分,集成种群模型已成为估计种群大小和种群统计参数的重要工具(Saunders et al.,2019;Schaub & Kéry, 2021)。最后,种群建模的一个共同目标是估计物种出现数据与环境模式(例如气候、土地覆盖、地形)之间的关系;这些相关性允许预测物种范围图。许多看似不同的方法(例如占有模型、随机森林、最大熵)都属于这个广泛的物种分布建模类别。Araújo和Peterson(2012)提供了关于物种分布建模的假设和方法的视角,重点关注基于与气候变量关联的大规模努力来绘制物种分布图。例如,他们讨论了物种分布模型的平衡假设,这意味着物种可以在所有具有适宜气候条件的位置中找到。这种假设简化了物种分布也受生物相互作用和扩散影响的现实,这意味着仅气候模型可能会高估物种的分布。除了假设之外,作者还讨论了物种分布建模的应用,包括确定适合迁移的地点和评估气候变化对物种分布的影响。

 

主题3:群落模型(8篇论文)

群落是生态学的核心。许多有影响力的描述群落统计分析的论文在《Ecology》上发表。这些论文分为三个广泛的类别:专注于量化生物多样性的模型,将物种组成与环境模式相关的模型,以及估计物种生态位重叠的模型。生物多样性的基本度量是物种丰富度。然而,物种丰富度难以观察,因此已经提出了许多方法来估计给定区域内存在的物种数量。Heck et al.(1975)提供了一种罕见方法的发展,这是一种在20世纪60年代末开发的方法,通过将检测到的物种数量与样本大小绘制成曲线来估计物种丰富度。Heck et al.(1975)提供了计算预期物种数量以及物种丰富度方差的公式,并展示了如何通过将公式应用于初始彻底调查来分配最优的采样努力。Chao和Jost(2012)基于样本覆盖率而非样本大小提供了估计物种丰富度的重要进展。覆盖率或“完整性”是群落中与样本中检测到的物种相关的个体数量的比例,并且,违反直觉的是,可以从数据中估计。这种方法特别适用于比较不同多样性(例如,温带与热带群落)的群落的应用。基于样本大小的方法在这种情况下会给出物种丰富度的偏差估计,因为给定大小的样本可能完全表征低多样性群落,但未能全面代表高多样性群落。物种丰富度只是许多可以用来表征群落的生物多样性变量之一。功能多样性,或群落中性状组合的多样性,对于理解许多生态现象可能很有用。Villéger et al.(2008)提出了三个度量功能多样性的指标:功能丰富度、均匀度和发散度。不久之后,Laliberté和Legendre(2010)提出了一个新的功能多样性度量(功能分散),以补充Villéger et al.(2008)提出的三个指标。作者还开发了一种当计算功能多样性指标时来适应定性性状和缺失的性状值。最后,描述了FD 的R包,它提供了一种用户友好的方式来计算功能多样性指标,并大大扩展了该方法的应用范围。在多个地点收集的群落数据代表高维数据,这些数据可能难以解释。这些数据包含有关许多物种的信息,并且有许多可能的环境变量(例如,气候、土地覆盖、pH)与物种组成模式相关。排序方法——总结多变量生态数据的相似性和差异性——和生态学一样古老,但从20世纪50年代开始在群落生态学的背景下看到了许多激动人心的发展(ter Braak, 1995)。ter Braak(1986)引入了典范对应分析,这是群落生态学中极具影响力的排序技术。简而言之,这种方法结合了现有的排序方法(对应分析)和回归:群落多度数据的排序受到(与)环境变量的约束(相关),允许群落组成与环境之间的关联被稳健地可视化和解释(Palmer, 1993)。Anderson和Willis(2003)描述了另一种先进排序方法,他们称之为主成分典范分析。像典范对应分析一样,主成分典范分析是一种约束排序方法——使用先验假设来构建排序的输出——与无约束排序(例如,主成分分析或非度量多维尺度分析)形成对比,后者在降低维度时不考虑数据中的分组模式。Anderson和Willis(2003)提供的关键创新是他们的方法可以使用任何距离或差异度量(例如,欧几里得距离,Bray-Curtis差异度量),提供了更大的灵活性并扩展了解释机会,因为不同的差异度量或距离度量强调多变量数据的不同方面。此外,群落分析的目标可能是通过测量它们的共现或生态位重叠来理解物种之间的相互作用。Dice(1945)描述了一种量化物种共现可能性的方法。除了描述了一个量化共现的指数,作者还描述了如何使用卡方检验评估两个物种的共现,并讨论了影响指数有效性和解释的实验设计方面。在其原始用途之外,该指数(被称为Sørensen-Dice系数)广泛用于量化两个样本或群落之间的相似性(例如,beta多样性),因此Dice(1945)成为了《Ecology》创刊以来引用次数最多的论文。与此目标相似,Pielou(1972)描述了一种基于多个物种在多个栖息地中的发生数据量化生态位宽度和生态位重叠的方法。动物移动数据集是占据不同金棒草(Solidago)物种(代表“栖息地”)的蚜虫物种,但该方法是可推广的,适用于收集了多个物种在多个栖息地的多个重复中的发生数据的任何情况。最后,与前两篇论文在哲学上相似,Swanson et al.(2015)描述了一种基于稳定同位素比率的现代生态位重叠估计方法。该方法将现有的同位素方法扩展到二维之外(即,超过两种同位素),更全面地逼近生态位作为一个“n维超体积”的概念,并计算了一个个体物种被发现在另一个物种生态位内的概率(带不确定性)。

 

主题4:生态系统模型(2篇论文)

生态系统生态学为统计分析提出了挑战:许多因素——生物和非生物——影响感兴趣的过程,通常在多个时空尺度上,以及在难以(或不可能)实验操作的空间范围内(但参见Carpenter et al.,2001;Likens,1985)。因此,生态系统生态学家经常依赖于基于过程的或模拟模型,这些模型定义为至少描述两个生态系统组分之间的相互作用(Geary et al.,2020;Krinner et al.,2005)。虽然这样的模型经常结合经验数据来拟合或约束参数,但数学模型和模拟的生态过程(例如,通过Lotka-Volterra方程的捕食者-猎物相互作用)构成了这些生态系统模型的核心(Geary et al.,2020)。生态系统生态学家还开发并改进了适合生态系统环境中收集的观测数据类型的统计模型。生态系统与较少幅度的干扰相比,受到罕见但极端的干扰(如洪水、大火和热浪)的影响不成比例(Gaines & Denny,1993)。这些罕见事件对于用传统的统计机械来建模是具有挑战性的,因为这些事件被视为比它们实际情况更不寻常,妨碍了推断和预测。Katz et al.(2005)描述了一个解决方案:在生态系统生态学中应用极值建模。除了分布的位置(类似于正态分布的均值)和尺度(变化)参数外,广义极值分布具有一个控制分布尾部的形状参数,并且可以适应具有“重”尾部的分布(意味着极端值比具有“轻”尾部的传统分布出现的可能性更小)。作者对高北极地区500年的泥沙产量时间序列进行了建模,表明与传统方法相比,极值分布在拟合数据方面更为合适。理解营养物质流动是生态系统生态学的主要目标,研究人员通常测量并分析营养物质比率,如湖泊中的氮磷比率。Isles(2020)对分析和解释这样的比率提供了实用的建议。未转换的比率具有产生分析陷阱的统计属性,即使是基本的汇总指标也是如此。这些陷阱在文献中很常见:Isles(2020)抽样了100篇生态化学计量学论文,发现93%存在分析错误。作者展示了在分析之前对比例数据进行简单的对数转换可以避免这些陷阱,并确保对结果进行更稳健的生态解释。

 

主题5:空间模型(4篇论文)

生态学本质上是空间性的,这为分析带来了挑战和机遇。像尺度和空间自相关这样的问题可以挑战传统分析,但另一方面,生态现象的尺度化是研究的重要途径,包含自相关的可以改善预测性绘图并防止对不确定性的过度精确估计。在其历史上,《Ecology》发表了许多关注空间建模的有影响力的论文。生物在空间中的位置可能是最基本的生物多样性数据形式;这些数据的适当分析可以解决许多生态问题。Clark和Evans(1954)提出了一种分析种群中个体间距的方法。他们的方法基于最近邻距离数据,以确定个体是否显示出聚集、随机或均匀分布,并包含了伴随这些分类的显著性检验。由于他们的方法使用了最近邻距离数据,因此不受样方大小影响,这曾困扰了早期分析。Clark和Evans(1954)将他们的方法应用于几个植物数据集,并报告了草原杂类草的聚集分布和森林树木比预期更均匀的分布。空间自相关在生态数据中普遍存在。Legendre(1993)深入概述了空间自相关以及如何在生态分析中适应它。该论文表明,未能考虑空间自相关可能导致过高估计解释变量的影响。作者展示了如何描述自相关(例如,variograms图)并讨论了适用于自相关数据的适当统计检验。最后,该论文描述了基于模型的适应空间结构的方法,重点关注两种方法:首先,通过包含采样位置的地理坐标的多项式来建模空间自相关;其次,通过采样位置之间的地理距离矩阵。在自相关问题上扩展,Hefley et al.(2017)详细解释了如何通过基函数来考虑生态模型中的自相关(无论是空间的还是时间的),这些函数是协变量转换的函数。Legendre(1993)描述的多项式方法是基函数的一个例子;在二次回归 y= β0x0 + β1x1 + β2x2中,预测变量x(1个向量)被提升到0次幂(系数β0是截距),然后是第1幂(β1是线性效应),然后是第2幂(β2是二次效应)。然而,可以使用许多其他可能的基函数(例如,基于每个预测变量观测值与x轴上的指定“节点”或锚点之间的差异的转换),这意味着许多看似不同的空间方法共享相同的基函数框架。通过实证例子(鹌鹑种群趋势和空间分布),Hefley et al.(2017)展示了各种基函数方法如何提供相似的结果,并且与不会计自相关数据的模型相比,改进了推断。最后,保护规划通常具有空间焦点,因为栖息地斑块之间的连通性对于促进物种和相关生态系统功能的持续性很重要。网络理论为量化和可视化景观连通性提供了重要工具。Rayfield et al.(2011)回顾了量化景观连通性的网络方法,并开发了一个框架,根据度量连通性属性(例如,连接栖息地的面积,栖息地之间路线的冗余)和结构级别(例如,网络级别与组件级别)对网络度量进行分类。这个框架有助于发现许多现有网络度量之间的相似性,并识别具有有限分析选项的类别。

 

主题6:模型验证和选择(4篇论文)

拟合统计模型只是分析的一个步骤。模型验证——或者评估模型是否做出合理的预测——对于某些类型的分析是推荐的。当评估多个竞争模型时,一些模型选择方法对于解释结果很重要。模型选择和验证是统计文献中的活跃研究领域,而《Ecology》已经发表了许多有关该主题的论文。使用零模型进行模型验证的先驱是Connor和Simberloff(1979),他们认为先前假设是由竞争导致的物种共现模式可能是由随机机会引起的,这一点通过随机物种分布的零模型得到了证明。随后的辩论深刻影响了生态学家如何利用模型设计和假设检验。在零模型传统的推进中,Gotelli(2000)评估了九种零模型算法,以确定观察到的物种共现模式(跨地点或岛屿)是否与随机生成的共现矩阵统计上不同。作者确定了这三个算法对错误识别共现模式具有鲁棒性。这三个算法在生成随机共现矩阵时保留了每个物种的出现频率(即,它被记录在地点/岛屿中的比例)。作者指出,没有单一的方法是“万能的”,并鼓励从业者将他们的实证数据与多种零建模方法进行比较。生态学家在分析中经常有许多可能的解释变量;因此,通常需要一些方法来选择使用哪些变量。Blanche et al.(2008)介绍了一种前向选择解释变量的方法,这是一种算法,用于确定哪些预测变量与响应变量有意义地相关。他们的方法是首先评估一个包含所有预测变量的全局模型。他们建议,只有当全局模型显著时,才继续前向选择,即如果它比没有预测变量的模型更好地拟合数据。如果全局模型确实显著,就进行前向选择(即,构建包含更多变量的模型),直到添加的变量使模型的显著性值或校正R2达到预定的阈值。Blanche et al.的方法代表了对传统前向选择的相当大改进,后者充满了假阳性(被认为重要的无信息变量)和过度估计解释的方差量。前向选择是所谓的逐步选择技术之一,这些技术多年来一直受到批评(Whittingham et al.,2006)。在替代模型选择方法中,像AIC这样的信息论方法可能是最受欢迎的(Burnham & Anderson, 2002)。当评估多个竞争模型时,对模型的预测进行平均是一种简化解释的有吸引力的方式(Dormann et al.,2018)。Cade(2015)批评了在模型中平均回归系数的常见做法,按每个模型的AIC权重加权。虽然从多个模型中平均预测是可以接受的,但Cade(2015)表明,跨模型平均回归系数通常是无效的。因为观测研究中的预测变量通常是共线的,它们在不同模型中的系数估计量在规模上会有所不同。这使得跨模型平均系数成为一种危险的做法,特别是因为模型平均可能会给用户一种错误的安全感,认为模型充分考虑了协变量效应的不确定性,而实际上共线性阻止了合理的解释。随着对模型平均的严格谴责(“简单平均回归系数……应立即停止”)和在不到十年的时间内引用数百次,Cade(2015)对生态学中多模型推断的实践产生了深远的影响。正如前面提到的论文所示,模型选择和验证并不总是直截了当的。Tredennick et al.(2021)提出了一个基本观点,即适当的模型选择方法取决于分析的目的。作者区分了探索、推断和预测作为统计分析的三个主要目的。每个目标都有其自身的潜在陷阱和关键统计工具。例如,作者指出,以预测为重点的分析可能未能验证预测准确性,并推荐AIC和交叉验证作为此类努力的关键统计工具。仔细阅读Tredennick et al.(2021)的论文将对任何生态学研究的设计阶段的研究人员都有益。

 

主题7:工具和最佳实践(7篇论文)

在《Ecology》上发表的许多最有影响力的统计生态学论文提供了关于一般统计工具或最佳实践的综合,这些工具或最佳实践超越了子学科。这样的论文是生态学群落的宝贵资源。生态学家的定量培训通常是有限的或过时的(Barraquand et al.,2014;Ellison & Dennis,2010),因此实践生态学家可能不知道不当的统计习惯或适合他们数据的新统计工具。真实的生态数据通常不会整齐地符合生物统计学课程中教授的食谱式统计分析。Warton和Hui(2011)提供了一个指南,用于导航这样一个场景:比例数据。传统上,对于比例数据,通常使用反正弦变换,然后进行线性建模,但Warton和Hui(2011)认为,这种变换混淆了可解释性,并产生了生物学上不可能的预测(例如,负比例)。对于比例形式为“n/N”(例如,50只动物中有12只被感染)的情况,逻辑斯蒂回归是一种易于访问且稳健的替代方法。对于比例不是二项分布的情况(例如,“叶子的75%被损坏”),其他形式的广义线性(可选混合)模型,如Beta回归,是适当的。Warton和Hui(2011)的文章是一个典范,它识别出了一个有问题的统计实践,并概述了易于访问和适当的替代方案。元分析是跨研究综合结果的有力方式,但它带来了统计挑战。Hedges et al.(1999)描述了一种针对生态实验的有效元分析方法:响应比率,即实验组的平均结果与对照组的平均结果的比率。响应比率特别有吸引力,因为它量化了实验操作的比例变化,允许跨研究结果进行比较,即使响应幅度差异很大。如我们在在主题4:生态系统模型讨论Isles(2020)中所提到的,比率具有产生分析陷阱的统计属性。认识到这一点,Hedges et al.(1999)将他们的方法建立在响应比率的对数分析上。他们的方法代表了的一个重要进步,因为它量化了不确定性并为跨多个实验的效果总结提供了置信区间。与元分析相反,后者寻求综合在独立研究中产生的结果,数据整合在个体模型中综合多个数据集(Zipkin et al.,2019)。Pacifici et al.(2017)描述了一个框架,用于在物种分布模型中整合多种类型的数据。这种数据整合的做法——或者将不同的数据集整合到一个连贯的模型中——在近年来有所增长,并具有几个吸引人的属性,包括扩大推断的时空范围,并通过应用更大量的数据来增加推断的精度。Pacifici et al.(2017)提供了一个关于综合物种分布建模的有用概述,并描述了几种替代的综合模型,以分析来自北美繁殖鸟类调查和eBird的数据,这两个公共科学项目分别具有结构化和半结构化的数据收集协议。机器学习方法在生态学中变得越来越重要,因为该学科在过去几十年变得越来越数据密集。De’ath和Fabricius(2000)回顾了分类和回归树,这些是分析复杂生态数据的强大而灵活的方法。这些方法的一些优点包括它们能够处理许多不同类型的响应变量(例如,数值和分类),以及响应和解释变量中的缺失值。树的基本前提是基于解释变量将响应数据分成相似的组,同时保持树的合理大小(即,不要将数据分成太多组)。Cutler et al.(2007)为随机森林提供了一个生态学家的介绍,这是对早期机器学习工具(如分类树)的改进。随机森林创建了许多分类树,并随后结合了这些树的预测,从而实现了高分类准确性。此外,随机森林提供了变量重要性的度量,允许用户解释哪些变量在区分组别方面最有影响力。随机森林和其他机器学习方法的优势在于它们能够容纳许多预测变量,而不考虑共线性或复杂交互的存在(这是传统基于回归方法的棘手问题);它们的局限性在于主要是预测工具,而不是提供传统的统计推断(例如,确定预测变量与响应变量之间是否具有统计学上显著的关系)。即使在机器学习的兴起中,统计分析的各种目标(Tredennick et al.,2021)意味着传统的统计方法将继续在生态数据分析中占据主导地位。Graham(2003)描述了解决传统回归中普遍存在的一个问题的解决方案:共线性。作者首先通过模拟表明,即使是适度的共线性也会产生显著的分析问题,包括模型参数化不准确和未能识别重要的解释变量。正如我们在在主题6:模型验证和选择中提到讨论Cade(2015),共线性也妨碍了跨候选模型平均或以其他方式解释回归系数的努力。然后,该论文概述了面对共线性的方法(除了默认的丢弃共线性变量之外),包括残差和顺序回归、主成分分析和结构方程建模。鉴于共线性在生态数据中的普遍存在和多元回归在生态分析中的重要性,生态学家应该意识到共线性,并知道不存在完美的解决方案。最后,Murtaugh(2007)提倡在可能的情况下,生态分析应简单且易于解释。作者提供了几个相对复杂的分析(嵌套方差分析,线性混合效应建模)的实证例子,这些分析产生了与更简单替代方法相似的结果,并认为更复杂的分析因此并不严格必要,实际上可能会妨碍可解释性。这对于生态学家来说是一个重要的信息,特别是考虑到计算能力的迅速增长和可用于分析数据的统计软件包的大量可用性。

 

数据和计算塑造的统计生态学


根据定义,统计生态学是一种数据驱动的方法,用于理解生态问题。因此,值得反思数据如何塑造了统计生态学的历史(Ellison & Dennis, 2010)。在其早期,生态学主要是描述性的科学;《Ecology》杂志上的许多早期论文详细描述了植被和动物群落的物种清单(例如,Adams et al.,1920;Rigg,1922)。20世纪初的这个时期还出现了标准频率统计方法的出现和广泛采用,如t检验和方差分析,或ANOVA。这些方法成为了生态研究的分析主力,正如在随后几十年(乃至至今)的研究设计特征中所反映的那样,例如样方、随机化和实验操纵。然而,这种数据收集方法不能回答生态学的所有问题,特别是那些专注于更广泛的时空尺度的问题(例如,生态系统生态学,生物地理学)。20世纪后几十年,随着遥感数据(Turner et al.,2003)、动物追踪技术(Kays et al.,2015)、自动相机和声学监测(Burton et al.,2015;Shonfield & Bayne, 2017)以及公共科学数据(Dickinson et al.,2010)的扩展,生态学领域启动了一场数据革命。与这场数据革命一起,计算能力的增长在最近几十年统计生态学的扩展中发挥了关键作用。毕竟,更多的数据在解决生态问题上帮助不大,如果计算基础设施不足以存储、管理和分析它们。1970年代和1980年代计算技术的进步反映在这一时期统计生态学论文的增加流行中(图1)。到了21世纪初,一些统计工具要么之前不存在,要么一两代人之前无法实施,已经由实践生态学家常规使用。作为一个有说服力的例子,逻辑斯蒂回归——今天生态学中无处不在的方法——被Trexler和Travis(1993)称为“非传统”。这个轨迹将如何继续?

 

统计生态学的未来


我们设想生态数据的量和分辨率将继续增长,并且元数据结构的改进将允许数据流越来越开放和可访问。GPS标签将变得更小、更便宜、寿命更长;eDNA监测将扩大并被整合到集中的生物多样性数据库中(Berry et al.,2021);像eBird(Sullivan et al.,2009)这样的公共科学项目将增加数量,积累大量的时空记录。鉴于这个未来,我们预计机器学习和人工智能方法将成为数据收集过程的不可或缺的部分,例如,通过自动分类照片和音频数据(Kahl et al.,2021;Tabak et al.,2019)。我们特别需要在由机器学习算法从声学数据集中产生的连续分数分类与用于分析这些数据集的统计模型之间建立桥梁。Rhinehart et al.(2022)通过描述一种占有模型方法,使用来自声学数据集的机器学习算法产生的连续分数分类,而不是传统占有研究中由人工观察者收集的二元检测/非检测数据,来示范这一未来。与其说机器学习将取代传统的统计工具,不如说我们预计它将补充和扩展现有的统计生态学工具体系。最后,我们希望统计生态学家群体将变得更加多样化;历史上,生态学者(例如美国生态学会的会员)并没有反映出性别和种族构成(Beck et al.,2014),我们支持促进历史上被排除群体在统计生态学中的招聘和保留的做法(Duc Bo Massey et al.,2021)。

无论是小数据集还是大数据集,无论是自动收集还是用铅笔在数据表上记录,我们认为对生态学家面临的许多统计选择进行综合和实际指导的需求将持续存在。并非总是数据越多越好;一些生态学问题最好用人类手工和眼睛收集的小型、来之不易的数据集来解决(Todman et al.,2023)。正如Murtaugh(2007)所建议的,统计分析中的简单性是一种美德。《Ecology》在其100年的历史中发表的统计生态学研究推动了生态学问题的范围和深度,体现了该领域本身的历史。毫无疑问,《Ecology》将继续产生创新性的论文,帮助新一代在统计生态学的实践中。

 

数据可用性声明


数据和代码(Gilbert,2024)可在Zenodo上获取,网址为https://doi.org/10.5281/zenodo.10611823。


引用本文:

Gilbert, Neil A., Bruna R. Amaral, Olivia M. Smith, Peter J. Williams, Sydney Ceyzyk, Samuel Ayebare, Kayla L. Davis, Wendy Leuenberger, Jeffrey W. Doser, and Elise F. Zipkin. 2024. “A Century of Statistical Ecology.” Ecology e4283. https://doi.org/10.1002/ecy.4283


https://esajournals.onlinelibrary.wiley.com/doi/full/10.1002/ecy.4283

译者语:

       密歇根州立大学的Neil A. Gilbert及其研究团队对生态统计学领域进行了长达百年的深入回顾。在国外,有一批热忱的学者正致力于生态统计方法的研发,这一领域的研究呈现出一片繁荣景象。然而,反观国内,尽管生态研究领域正蓬勃发展,但在生态统计学的成就方面却显得相对薄弱,亟需我们加大在这一领域的投入与研究力度。

END


数量生态学与R语言
多元统计、一元统计、R程序包开发及R语言应用的推广。
 最新文章