点击题目获取原文 ▲
研究亮点
HIGHLIGHTS
1. 深入探讨了设计偏差和模型偏差,指出模型统计推断框架下预测值在设计推断中的偏差;
2. 提出并讨论了通过校准方法来消除基于模型的预测值的设计偏差;
3. 详细分析了设计偏差在不同应用领域中的具体后果,提供了更有针对性的改进建议。
01
研究背景
遥感(RS)技术在生态系统研究中扮演着重要角色,广泛用于预测和绘制关键特征图。通常此项技术的具体操作步骤为:基于从实地收集而来的数据作为参考信息,提取遥感传感器指标,建立数据集以构建预测模型。这些模型不仅可用于分类,还可预测连续变量。针对预测连续变量,有多种统计方法可选择,如线性和非线性回归模型等参数估计模型和随机森林等非参数估计模型。两者的共同优势在于,正确应用情况下得到的预测值通常是无偏差的。然而,“偏差”一词在不同统计推断框架中具有不同的含义。在基于设计的推断中,不偏意味着估计量(estimator)的期望值与真实值一致,其中真实值是固定但未知的;在基于模型的推断中,模型不偏意味着预测量(predictor)的期望值与随机变量的期望值一致。在此需要区分“估计”和“预测”两个术语的差别。对于固定目标量,我们使用“估计”(estimation)和“估计量”(estimator);而对于随机目标量,则使用“预测”(prediction)和“预测量”(predictor)。同时,我们严格使用“偏差”这一术语,指代估计量或预测量的属性。
要实现无偏的估计或预测,可能需要满足特定条件。在基于模型的推断中,如果模型正确指定并且参数使用无偏估计量估计,则预测量在给定输入解释变量的条件下是模型无偏的。但是,如果我们在某些设定的真实值下评估预测量的表现,可能会得出不同的结论。这意味着,在某些情况下,基于模型的预测可能是有偏的,表现为预测值趋于平均化。“回归谬误”(regression fallacy)一词常用来描述分析人员未能认识到响应变量的随机性。而在本文中,研究人员提出需要理解另一种“回归谬误”,即在长期保持稳定的总体中,尽管预测量是模型无偏的,但可能系统性地低估或高估某些单位的真实值。本文首先描述并阐释了不同的偏差概念,然后展示了不同科学视角如何导致对基于模型的预测量(或估计量)是否无偏的不同结论。此外,我们讨论了潜在偏差如何在多个应用领域中影响应用结果,并简要探讨了可用于校正偏差的不同方法。
02
研究结果
图 1|模型无偏性的不同特征示意图
图 2|基于模型的单个总体单位估计及校准效果
图 3|标准回归模型(红线)和校准模型(蓝线)在解释变量与响应变量的相关性为0.95(a)和0.70(b)情况下的表现
Cite this article
Ståhl, G., Gobakken, T., Saarela, S., Persson, H.J., Ekström, M., Healey, S.P., Yang, Z., Holmgren, J., Lindberg, E., Nyström, K., Papucci, E., Ulvdal, P., Ørka, H.O., Næsset, E., Hou, Z., Olsson, H., & McRoberts, R.E. 2024. Why ecosystem characteristics predicted from remotely sensed data are unbiased and biased at the same time – And how this affects applications. For. Ecosyst. 11, 100164.
https://doi.org/10.1016/j.fecs.2023.100164
文章链接:https://doi.org/10.1016/j.fecs.2023.100164
关于本刊
《森林生态系统(英文)》(Forest Ecosystems)是由教育部主管、北京林业大学主办的林学、生态学类的开放获取学术期刊。主要收录森林生态系统、森林群落、森林环境、遥感、气候变化、大数据等相关研究领域的高质量、原创性研究论文和评论性文章。影响因子4.1,在中科院期刊分区表中居农林科学大类一区,林学小类一区。
扫描二维码关注我们
森林生态系统(英文)
微信号:Forest Ecosystems
https://www.sciencedirect.com/journal/forest-ecosystems
编辑:唐珊珊
审核:李杰
点击“阅读原文”访问期刊主页