Triple Collocation(TC)方法是一种可以在未知观测值的“真值”情况下,仅通过3个独立观测样本两两比对,就能推测出各观测值不确定性的方法。该方法的使用需要一定的前提条件:线性误差形式假设与2组不相关性假设。在实际使用中,该方法的这三条假设难以完全满足,尤其是2组不相关性假设。根据现有研究,无法得知在这些假设遭受不同程度的违背时,会对方法推测结果究竟产生什么样的影响?本文主要针对违背2组不相关性假设与结果误差之间的关系展开研究。
针对上述问题,本文做了如下工作:1.通过虚拟样本实验生成了多组不同违背程度的样本,以定量评估不同程度的假设违背对方法结果的影响。2.在上述虚拟样本实验中发现一个现象:当不相关性假设的违背处于某个特定关系时,TC方法结果的误差会突然大幅度增加。这一现象在以往的研究中没有被重视,我们将其简称为“异常点“。3.使用数学推导结果解释了异常点出现的原因。4.针对异常点,我们提出了两种可能的消除方法,并在虚拟样本和实际数据中进行了验证。
生成虚拟样本的方法
Q:TC方法的适用条件是什么?在哪些领域可以应用?
A:TC方法是一种严谨的数学方法。只要在线性误差假设的基础上,满足对于同一观测对象的三组观测样本“相互独立”就可以使用。准确来说,这里的“相互独立”在数学上表现为满足2组不相关性假设,即随机误差互不相关和随机误差与真值不相关。本文正是研究:如果不同程度地违背这2组不相关性假设对方法精度会产生怎么样的影响?通俗来说就是:如果当这三组观测样本不够“相互独立”时,对方法精度会产生怎么样的影响?
实际应用过程中,TC方法的特色是:当我们想观测一个对象但测不准,手头只有几组不同的观测值,不知道实际的“真值”却又想知道这些观测值的不确定性。就可以通过TC方法两两比对来推算。近些年,TC方法广泛应用于地球科学观测数据中,例如土壤湿度、蒸发、降雨、风场、海浪波高等数据;同时,在金融、核物理领域也有应用。只要能符合假设条件就能使用。
Q:违背2组不相关性假设对TC方法结果的影响是什么样的?
A:当对“随机误差互不相关性假设”的违背程度增加时,方法的结果误差会相应地呈线性增加;当对“随机误差与真值不相关性假设”的违背程度增加时,方法的结果误差会相应地呈平方倍数增加。但当不相关性假设的违背处于某个特定关系时,TC方法结果的误差会突然大幅度增加,这就是后文提到的“异常点”。
图注:实验1条件是指仅控制对“随机误差互不相关性假设”的违背程度进行变化;实验10条件与实验1相反,仅控制对“随机误差与真值不相关性假设”的违背程度进行变化。纵坐标大小表示方法结果的误差大小。
Q:在TC方法的实际使用中,什么时候容易出现异常点?是否需要时刻警惕异常点干扰方法的结果?
A:当其中两组样本的相关性与另一组样本的相关性产生比较大的差异时就容易出现异常点。比如:使用三组遥感或再分析数据进行计算的时候,如果这三组数据中的两组由于使用了某些相同的方法或原始数据,其中两组表现出远高于另外一组的相关性时,就容易出现异常点。有趣的是,如果这三组观测样本较某一误差同时产生了相关性时,比如都使用了相同的算法或某一原始数据,反而不容易出现异常点。因为该方法将这一误差识别成了相同的“真值”。
没有必要时刻警惕异常点干扰方法结果。文中对异常点出现的概率做了模拟:对于三组独立性较好的样本,异常点出现的概率是很低的。哪怕三组样本独立性较差,对少数几组(n<50)样本使用TC方法时,正数的异常点出现的概率也不高。但当对大量样本使用TC方法时,比如试图评估某一格点数据观测不确定性的空间分布时,对一片区域中的每个格点依次进行计算,这时异常点出现的概率就较大。而且,实际使用中多组格点数据一般都是不同的遥感或再分析数据,由于这些数据中的算法或测量方式具有一定的内部相关性,异常点出现的概率就大幅度地增加了。整体而言,还是更建议在实际计算中,直接使用文中的改进方法2:约束缩放系数的大小。这种方法仅在异常点出现时起作用,正常情况下与传统TC方法的计算结果相同,有利无弊。
Q:当异常点出现时,有什么表现?出现后,如何消减其影响?
A:值得庆幸的是,异常点往往会以负值的形式出现,实际使用中大多数情况会出现计算结果为负或算不出结果的现象,这也是这一现象之前没有被重视以及上文中说没有必要时刻担心异常点干扰方法结果的原因。当异常点以正值出现时,往往会表现为一个离群的异常值。
实际数据的异常点出现形式
异常点的出现还是会干扰数据分析的正常流程,如果和其他模型进行耦合,异常点甚至会影响其他模型的计算结果。为了消减异常点的影响,我们在文中提出了两种改进方法:方法1从根源上规避了异常点的出现,但对假设违背更敏感,实际使用中结果精度损失较大;方法2仅异常点出现时进行修正,保留了TC方法原始的精度与稳定性,更推荐使用。这两种方法已在github上共享,链接见文章中。
Q:近年来更为先进的基于工具变量的方法(如IVs、IVd)是否也存在异常点的现象吗?消减异常点的方法是通用的吗?
A:虚拟样本实验中存在,但实际使用中不常见。根据本文研究,异常点的出现是由于对缩放系数的错误估计,工具变量方法调整了缩放系数的估计方式,并引入了自不相关性假设,改变了异常点出现的条件,具体结论还需要进一步的研究。就目前经验而言,对于IVd方法,真实数据的自相关性特征可能正好规避了IVd方法容易出现异常点的区域,实际使用中出现的概率比较低;但IVs方法由于结构问题,出现异常点的概率较大。但在实际使用中,这又回到了上文问题3的讨论:少量样本使用无需担心,但大量样本使用的情况下还是加入缩放系数的限制更为保险。
消减异常点影响的方法是通用的,尤其对于改进2。异常点的出现是由于对缩放系数的错误估计,而如今的TC类方法都需要对缩放系数进行估计。限制缩放系数的方法具有普适性,而且这种改进方法只在异常点出现时起作用,正常情况下不影响计算结果。
作者简介
南京信息工程大学水文与水资源工程学院院长助理、系主任,主要从事水文气象灾害预警、水文模型开发、气候变化与水循环、山洪灾害预报等方面的科研工作,兼任国际水文协会中国委员会陆气关系分委会委员,荣获河北省科学技术奖、中国三农科技服务金桥奖等省部级奖项10项,近年来主持国家自然科学基金、河北省科技厅重点研发项目、江苏省水利科技项目以及省市水文局与气象局科研项目20余项。在国内外核心期刊上发表学术论文50余篇,参编多本专业专著教材,为Water Resources Research、Journal of Hydrology等期刊的审稿专家。
南京信息工程大学硕士研究生,主要研究方向TC方法及其与水文模型的耦合。
全文请在中国知网或学报官网下载
《地球信息科学学报》是由中国科学院主管,由中国科学院地理科学与资源研究所、中国地理学会联合主办,由资源与环境信息系统国家重点实验室(中国科学院地理科学与资源研究所)、虚拟地理环境教育部重点实验室(南京师范大学)、三维信息获取与应用教育部重点实验室(首都师范大学)联合协办的地球信息科学领域综合性学术期刊,月刊。学报创刊于1996年,创始人为陈述彭院士。学报现任主编徐冠华院士,执行主编陆锋研究员。
《地球信息科学学报》是中国科技论文与引文数据库(CSTPCD)核心期刊、中国科学引文数据库(CSCD)核心期刊、全国中文核心期刊,并被EI 、Geobase,Scopus,JST,CA等国际知名数据库收录。据2021—2024年发布的《中国科技期刊引证报告(核心版)(自然科学卷)》显示,在CSTPCD所收录的2000余种自然科学类期刊中,学报连续4年综合评价总分位列全国前5%,其中2024年全国排名第41位。
《地球信息科学学报》主要刊登以地理系统信息流为研究对象,以地理信息认知理论、地理时空大数据挖掘、地理空间智能分析、地球信息图谱、遥感信息提取、虚拟地理环境、地理空间综合分析等为研究主题的学术论文,以及相关评论与简讯,重点关注地球信息科学理论方法创新成果的报道。学报开办有地球信息科学理论与方法、地理空间分析综合应用、遥感科学与应用技术等栏目,并依托国家重大项目、面向国家战略需求,先后组织了多个专刊。欢迎国内外学者踊跃赐稿,欢迎国家重大科研项目、国内外学术会议组织专辑专栏。
http://www.dqxxkx.cn/CN/1560-8999/home.shtml
010-64889219(稿务)
010-64888891(编务,财务)
dqxxkx@igsnrr.ac.cn
策划创意/编辑:耿艳辉
制作:名人网络
封面背景图片来源:https://pixabay.com