【全文】基于机器学习优化建模的GF-5影像土壤总氮量预测填图

学术 2024-12-10 21:02 北京

引用格式：

刘丽琪, 魏广源, 周萍. 基于机器学习优化建模的GF-5影像土壤总氮量预测填图[J]. 智慧农业(中英文), 2024, 6(5): 61-73.

Citation:LIU Liqi, WEI Guangyuan, ZHOU Ping. Prediction and Mapping of Soil Total Nitrogen Using GF-5 Image Based on Machine Learning Optimization Modeling[J]. Smart Agriculture, 2024, 6(5): 61-73.

官网全文在线阅读

知网阅读

基于机器学习优化建模的GF-5影像土壤总氮量预测填图

刘丽琪¹，魏广源²，周萍^1*

（1.中国地质大学（北京）地球科学与资源学院，北京 100083，中国；2.中国地质大学（武汉）地球科学学院，湖北武汉 430074，中国）

摘要：

［目的/意义］大范围快速检测土壤养分并实现基于GF-5影像对土壤总氮量精准填图。

［方法］基于实测土壤光谱和GF-5星载高光谱数据，引入偏最小二乘回归（Partial Least Squares Regression, PLSR）、反向神经网络（Back Propagation Neural Network, BPNN）和以核函数Poly为驱动支持向量机（Support Vector Machine, SVM）的机器学习算法，构建3种土壤总氮（Total Nitrogen, TN）反演模型，并以十折交叉验证方法确定各模型的最优解。采用多元散射校正（Multiple Scattering Correction, MSC）获取的波段特征值使模型表现更佳。

［结果和讨论］MSC-Poly-SVM模型经测试集样本检验，其决定系数（R²）、均方根误差（Root Mean Squared Error, RMSE）和相对分析误差（Residual Prediction Deviation, RPD）分别是0.863、0.203和2.147。将该模型用于星载GF-5号影像数据进行土壤总氮含量的反演填图。由填图结果可见，黑龙江省富锦市建三江垦区86.1%的土地总氮量均在2.0 g/kg以上，土地氮含量以一等地块和二等地块为主，而三等地块和四等级地块仅占总面积的11.83%。研究区内土壤氮要素储备充足，总氮高背景值主要集中在中部靠近河流两岸、呈北东东向分布。本研究土壤总氮预测成图结果与前人1∶25万地球化学插值和航空高光谱影像（Compact Airborne Spectrographic Imager, CASI）和（Shortwave Infrared Airborne Spectrographic Imager, SASI）填图效果具有很好的一致性。

［结论］研究表明星载GF-5高光谱数据在土壤全氮含量监测填图和可视化分析上具有极高的潜力，本研究提出方法可为今后大范围开展定量检测土壤养分状况以及合理施肥提供技术支撑。

关键词：GF-5高光谱数据；土壤总氮；偏最小二乘回归法；反向神经网络；多元散射校正；机器学习

引言

土壤中的氮（N）是植物生长发育所必需的矿物质元素。土壤供氮不足会引起农产品产量和质量的下降，但过量施用将会造成严重的生态环境问题，如水体富营养化、地下水硝态氮积累等。土壤作为农作物生长发育所需养分的载体，在一定时空上表现为均衡连续的变异体。土壤各种养分的变化由于受到土壤母质、地势、降雨情况和人工施肥灌溉等的影响，土壤养分属性在时间上将显示出高度变异的特性。传统手段获取土壤氮含量主要通过实验室化学分析方法，尽管测量精度较高，但工作量大、周期长、成本高、易造成环境的二次污染。卫星遥感技术精度高、时效好、多信息综合利用的特点，有效提高了土壤质量监测的工作效率。因此，开展基于高光谱影像土壤组分的定量研究在现代数字农业中意义重大，土壤含氮量填图对现代数字农业具有极高的研究价值。

土壤的可见光-反射红外光谱与其有机质、质地、营养元素、铁氧化物等物质存在一定的内在联系，而高光谱技术具有快速、无损、可重复性好、不使用萃取剂、样本需求量少等优势。机器学习与高光谱数据的有机结合为遥感技术定量分析土壤养分创造条件。当前，建模方法主要分为线性和非线性模型两种。常用的线性模型有多元逐步回归分析、主成分回归以及偏最小二乘回归（Partial Least Squares Regression, PLSR）等；而非线性模型主要有人工神经网络（Artificial Neural Network, ANN）、支持向量机（Support Vector Machine, SVM）、局部加权回归（Locally Weighted Regression, LOESS）、多元自适应回归样条（Multivariate Adaptive Regression Splines, MARS），以及随机森林（Random Forest, RF）等。

为此，国内外学者开展了众多相关研究，20世纪60年代初Bowers根据土壤反射率的变化规律，发现了天然土壤有机质的浓度可以明显影响图像走势变化。Dalal和Henry在研究中，发现土壤光谱与氮含量都在1 744、1 870与2 052 nm波段有相关性。Yi等用多光谱图像和实验室光谱来建模，通过Spot和Landsat8遥感图像对土壤有机质浓度进行反演预测。高会等利用光谱数据中敏感波段建立土壤速效磷预测的反演模型，发现这种方法简单高效，建模拟合优度检验指标R²达到0.822 1，模型验证决定系数R²达到0.959 1。王莉雯和卫亚星通过利用野外光谱辐射仪ASD（Analytical Spectral Devices）FieldSpec Pro FR构建的湿地土壤全氮和全磷含量的估算模型，对比Hyperion高光谱和TM影像的模拟状况，证明Hyperion高光谱反演效果最佳。以往研究多数利用便携式地物光谱仪在室内或野外采集一定量的土壤光谱数据，研究光谱与土壤组分对应关系并建立估测模型，而这些研究对于大范围区域性土壤组分分布状况无法把握，模型具有较大的随机性和不确定性，很难解释图像光谱与土壤养分之间的内在关系。因此，本研究目标是深入挖掘土壤养分光谱特征谱系信息、实现高光谱遥感影像精准填图。前人对于利用航天或航空高光谱数据实现土壤养分填图开展了多项研究，但就全谱段航天高光谱影像的土壤养分监测研究还存在许多关键技术的不确定性，致使监测结果不准确；且国内对于国产卫星在土壤总氮量预测填图方面的研究较少，开展基于国产高光谱卫星在土壤监测方面的研究，可以有效为基于国产卫星影像数据的土壤监测技术提供思路与方法。避免对国外高光谱数据的依赖，高分五号卫星是国内首颗实现对大气和陆地综合观测的全谱段高光谱卫星，填补了国产卫星无法有效监测土壤质量的空白，是中国实现高光谱分辨率对地观测能力的重要标志。

本研究基于实测黑土地土壤光谱数据（光谱范围400—2 500 nm），结合GF-5号高光谱影像数据，采用三种机器学习模型进行研究区土壤总氮量进行识别，验证不同机器学习模型的精度，并选取最优模型进行最终结果填图。为充分挖掘国产星载成像光谱数据在土壤养分检测施肥方面的实用性积累经验。

研究区概况

研究区位于中国黑龙江省富锦市建三江垦区，属于世界四大黑土地带之一，地处乌苏里江、松花江、黑龙江冲积而成的三江平原腹地。研究区水资源丰沛，其总覆盖面积约为800 km²（图1），是中国重要的农产品生产基地。该区域隶属中温带大陆性季风气候，平均海拔约50 m，相对高差约10 m，研究区主要分布有典型黑土、白浆土、草甸土及沼泽土等土壤类型。区内地势平坦，多为集中连片的农田，大面积种植有水稻、大豆、玉米等农作物，地表裸露时间长，适合应用遥感技术开展土壤调查工作。

注：该图基于自然资源部标准地图服务网站下载的审图号为黑S（2022）87号标准地图制作，底图无修改。

图1　黑龙江省富锦市建三江地理位置

Fig. 1 Geographical location of Jiansanjiang， Fujin city，Heilongjiang province

数据与方法

技术路线如图2所示。本研究共分为4个模块：土壤样本采样、土壤样本实测数据处理、模型生成、对模型进行精度评价以挑选出最优模型，并根据最优模型制作土壤总氮含量专题图。

图2　土壤总氮含量研究技术流程图

Fig. 2 Technical flow chart for soil TN content research

2.1　数据来源　

基础数据源为171条实验室有效土壤样本光谱数据（光谱范围400—2 500 nm）；土壤样品全氮含量化学分析数据；GF-5星载高光谱影像数据1景，由自然资源部国土卫星遥感应用中心提供。本研究选取了位于黑龙江省富锦市建三江垦区的1景GF-5星载高光谱影像数据，具体拍摄时间为2019年4月20日。GF-5号01星上面搭载的可见-反射红外高光谱相机（the Advanced Hyperspectral Imager, AHSI），为开展星载高光谱遥感技术在生态环境、灾害监测、资源调查等领域奠定基础具有重要意义，该数据质量优良，为本研究提供了有力的技术保障，具体参数指标见表1。

表1 GF-5号卫星AHSI传感器主要参数指标

Table 1 Main parameters of AHSI sensor of GF-5 satellite

2.2　土壤样本采集　

本研究土壤样品采样时间为2019年4月，选取耕地土壤裸露区域，采集深度为0~20 cm，清除表层杂草，砾石等杂质，用土壤密实袋包装，并在样品袋上标号。为增加样本代表性，采样时以采样点为中心原点，周围15 m范围内多点采集3~5个子样进行混合装袋，每袋约1.5 kg，并记录袋号、位置坐标、周围环境、土壤特征描述等信息，共采集185组（图3）。将土壤样品经过风干、拌匀、研磨后过200目筛用于实验室测试。为确保样品质量的合格，采用蒙特卡洛法进行样本异常值的剔除，它能够结合样品的光谱信息和理化信息对异常值进行筛选，经分析剔除了14个异常样本，保留171个有效样本参与后续研究。

图3　建三江土壤样本采样点示意图

Fig.3 Schematic diagram of soil sample sampling points in Jiansanjiang

2.3　GF-5影像数据预处理　

卫星高光谱数据预处理是精准反演填图的关键步骤之一。由于受大气和传感器等诸多因素影响，需要对原始影像做精校正。本研究对GF-5 影像数据预处理主要进行了坏波段去除、辐射定标、坏线修复、条纹效应修复、Smile效应检测、大气校正和几何校正这7个方面工作。GF-5数据波长范围在1 356—1 447 nm、1 800—1 982 nm，以及2 375—2 395 nm之间的波段受到水汽吸收影响较大，将其去除。通过辐射定标将像元亮度值（Digital Number, DN）转为大气顶层辐射亮度值，并对保留的波段逐一检查并修复。然后使用全局去条纹法进行校准，通过最小噪声分离法（Minimum Noise Fraction, MNF）对其Smile效应进行检测。大气校正选用了FLAASH（Fast Line-of-Sight Atmospheric Analysis of Spectral Hyper-Cubes）大气校正模型，获取到GF-5数据的反射率。以上操作均在ENVI5.3中进行。经以上图像预处理实现GF-5号数据的光谱重建，提高图像光谱质量，使图像景物变得清晰可见（图4）。

图4　土壤总氮含量制图研究GF-5号影像预处理前、后对比

Fig. 4 Comparison of soil total nitrogen （TN） content mapping before and after preprocessing of GF-5 imagery

2.4　土壤样本总氮含量测定及光谱数据处理

2.4.1　土壤样本总氮含量测定　

随机抽取140个样品作为建模样本集并对其进行标定，其余31个样本作为测试样本集。其中，土壤总氮含量测定采用凯氏蒸馏法，由中国地质调查局沈阳地质调查中心的实验测试中心完成，如表2所示。

表2 171个土壤样本总氮含量参考值

Table.2 Reference value of TN content in 171 soil samples

2.4.2　土壤光谱采集　

采用美国ASD公司生产的FieldSpec 4便携式地物光谱仪，在实验室采集处理好的171个土壤样品光谱，每个样本测量10条光谱曲线。该光谱仪波长范围在350—2 500 nm。采样间隔为1.4 nm（波长350—1 000 nm）和2 nm（波长1 000—2 500 nm），共2 151个波段，在350—2 500 nm的整个波段范围内分3个探测元件探测，转换镜头交界处会形成折角，可以利用地物光谱仪进行修复，具体实验步骤见文献［27］。共测得1 710条光谱。

2.4.3　光谱平滑去噪　

光谱仪因受自身和外界因素干扰会产生各种噪声，导致样品光谱真实信号失真。为了消除噪声，需要对样品光谱进行去噪处理。本研究对样品标准光谱分别采用了移动平均滤波、中值滤波和Savitzky-Golay滤波3种去噪方法。滤波方法均在Python3.8语言环境中完成。

滤波窗口宽度会影响去噪效果。窗口过大会导致遮盖有价值的信息，信号失真；窗口过小，则无法满足降噪和平滑的要求。本研究依据平滑指数和特征保持指数作为滤波降噪能力的评价标准，分别选取窗口宽度为3、5、7和9做对比分析。

2.4.4　土壤光谱重采样　

地面光谱仪ASD与GF-5的AHSI传感器存在差异，导致光谱采样间隔不一致。因本研究采用基于地面光谱数据建模，为确保地面光谱与影像光谱分辨率和中心波长的统一，需要将地面光谱根据GF-5影像的采样间隔进行重采样。经过重采样的光谱数据能有效减少数据冗余。在ENVI 5.3软件中的Spectral模块Spectral Resampling功能中实现光谱重采样，重采样后的光谱曲线去除了受大气影响的波段，以达到天-地光谱的匹配。

2.4.5　波段特征值提取　

光谱微分技术（Spectral Differential Techniques, SDT）和多元散射校正（Multiple Scattering Correction, MSC）均具有较好的压抑背景噪声凸显土壤光谱属性的作用。为提高土壤光谱与总氮含量的相关性，本研究对光谱数据进行了一阶微分（First Derivative, FD）、倒数一阶微分（Reciprocal First Derivative, RFD）、MSC和CR4种变换，并引入极显著性检验方法计算各光谱指标与土壤总氮含量的相关系数，由表3可见，MSC纠正其相关性最佳，其计算公式详见公式（1）。由于变换后造成了数据的冗余，因此采用主成分变换将数据降维至10个主分量参与后续建模，上述工作流程是在Python3.8语言环境下实现。MSC校正不仅可有效地消除因土壤颗粒大小不一或其他物理现象造成的散射影响，同时还大大增强了与氮元素的相关性，还能有效提高光谱的信噪比（N/S）。

式中：R_i是土壤样本光谱；为所有土壤样品的平均光谱；m_i为每个样品光谱的偏移系数；b_i为光谱平移量；样本数i=1，2，3，…，n。

表3 土壤全氮含量与部分波段相关系数

Table.3 Correlation coefficient of TN content in soil and spectral characteristic value

2.5　机器学习建模方法　

本研究以PLSR、反向神经网络（Back Propagation Neural Network, BPNN）和SVM三种机器学习算法完成了土壤氮含量的预测建模。将171个有效样本按照上述2.4.1节分成建模样本集和测试样本集，其中31个测试集样本不参与建模，并将建模样本集中140个样本按照8∶2的比例随机再分为训练集和验证集，依据验证集构建出调节参数空间，利用Python语言中的hyperopt工具包完成自动调参，采用十折节点交叉验证法寻找PLSR、BPNN和SVM三种算法的最优解。

2.5.1　偏最小二乘建模　

PLSR回归分析是一种集成了主成分分析、多元线性回归和典型相关性分析等多种数据分析的综合建模方法。其目的是找到自变量的一个线性组合来解释因变量，这使得求解变的简单化，如若处理不当也会丢失某些有用信息。

决定PLSR模型稳健性的关键在于主成分个数的确定。在此选用十折交叉检验法确定模型中最佳主成分数。研究发现当主成分数为9时，模型的估计均方根预测误差值最低，故将其作为最佳主成分数带入模型中参与计算，得到PLSR土壤总氮估测模型，见公式（2）。

式中：y是总氮含量估测值；x_i是土壤表面反射率的MSC变换值，变量数i=1，2，3，…，10。

2.5.2　反向神经网络建模　

BPNN模型，也称前馈训练误差逆传播算法。本研究选择三层结构设置的反向神经网络模型：输入层、隐藏层和输出层。选用含有10个输入神经元和1个输出神经元的单隐层网络作为总氮含量反演建模（图5），将训练样本经过多元散射校正后的特征光谱数据X_i（i=1，2，3，…，10）作为输入层变量向前传递，输出层接收隐藏层的输出结果，计算误差之后按正向传播的通路反向传回给每一个神经元，再次通过神经元进行处理直到结果合理，至此可获得反向神经网络模型输出的氮含量估测值。因模型结构简单，在土壤总氮含量预测建模时易于实现和解释，需要注意过拟合或欠拟合现象的产生。

图5　土壤总氮含量制图研究全氮含量BP模型图

Fig. 5 Soil TN content mapping study: Total nitrogen content BP model diagram

2.5.3　支持向量机建模　

SVM是基于低样本空间通过非线性映射到一个高维或无限维特征空间（Hilbert空间）的Mercer核展开定理，这样即使数据不是线性可分，也可以对该数据点进行分类，见公式（3）。研究利用SVM算法预测土壤总氮含量建模，属于从输入到输出过程难以描述的黑盒子，依据SVM理论是可以找到氮元素与其它土壤组分类别之间的分隔符。当核函数满足Mercer条件时，SVM对应于某一变换空间中的内积。经分析认为多项式Poly核函数在本次研究中表现出具有较强传递全局信息的能力，对氮元素目标识别的判别能力是随着设置多项式核函数最高的阶数q 的增加而呈指数倍增加，如公式（4）所示。因此，后续SVM建模选用多项式为内核，在实际操作中也要注意过拟合或欠拟合现象产生。

式中：Y是预测输出，是标量；K(x_i,y_i)为核函数；x_i是SVM的样本向量；y_i是样本向量预测因子；α_i为拉格朗日乘子（i = 1，2，…，10）；b是偏置项；q是设置多项式核函数最高的阶数；T表示核函数类型（在此默认值是2，即二阶多项式函数）。

2.5.4　模型精度评价和土壤总氮反演成图　

研究依据决定系数（R²）、均方根误差（Root Mean Squared Error, RMSE）和相对分析误差（Residual Prediction Deviation, RPD）三个指标，综合分析所建各模型的预测能力。其中，R2通过判断模型自变量对因变量的解释程度优劣，验证模型的拟合效果；RMSE用来衡量预测值与观测值之间的偏差，该值越小，表明模型越优秀；RPD衡量模型综合预测能力。当RPD≥2时说明模型具有极好的预测能力，当1.4≤RPD<2时表明具有定量预测能力；当RPD<1.4时表明模型无法对样品进行预测。

利用Python3.8语言实现土壤总氮反演成图，具体操作如下：首先，使用tiff格式模块以矩阵形式读取GF-5影像数据，记录图像的坐标、投影等信息。其次在读取每一个波段面的同时，将每一行数据进行多元散射变换，将建立好的模型应用在数学变换后的每条光谱上，形成一个二维矩阵，即反演图像。最后将记录下的坐标，投影信息等写入反演的图像中，完成GF-5星载高光谱影像数据的土壤总氮含量预测的空间分布成图。

反演填图效果的验证主要依据前人1∶25万土壤总氮地球化学插值结果和该研究区航空高光谱数据（Compact Airborne Spectrographic Imager, CASI和Shortwave infraredAirborne Spectrographic Imager, SASI）反演填图的工作成果进行比对加以评价。

结果与讨论

3.1　光谱预处理及其重采样　

3.1.1　光谱去噪效果分析　

基于3种滤波器的去噪效果对比发现：移动平均滤波在平滑度和光谱特征保持方面均欠佳，易造成信号丢失（图6a）；中值滤波在平滑程度和光谱特征保持能力方面均表现出色（图6b）；Savitzky-Golay滤波在平滑度和光谱特征保持方面均表现出过度拟合，将噪声当作信号处理（图6c）。故本研究采用窗口为5的中值滤波对标准光谱进行噪声消除。

图 6　土壤总氮含量制图研究三种滤波方法处理前后对比

Fig.6 Comparison of three filtering methods before and after processing for soil TN content mapping study

3.1.2　GF-5影像提取的光谱与地面光谱的对比　

如图7所示，GF-5影像土壤光谱与地面实测土壤光谱数据总体较为相似，但由于高光谱影像数据的波段间具有极高的相关性，GF-5数据在预处理后仍受大气及传感器系统误差等因素的影响，导致GF-5影像土壤光谱存在少量噪声。

图7　土壤总氮含量制图研究GF-5影像土壤光谱与地面实测土壤光谱对比图

Fig. 7 Mapping of soil TN content comparison between GF-5 image soil spectrum and ground measured soil spectrum

3.1.3　光谱重采样分析　

从图8可见，重采样后的影像光谱分辨率被大大压缩（图8b），尤其在短波红外处（Δλ由2 nm变成10 nm）。因此，ASD的中心波长与AHSI影像的中心波长是不同的，光谱重采样对确定高光谱数据的中心波长十分重要，它是确保填图精准的重要条件之一。由于地面和航天的传感器类型较多，在数据处理时一定要谨慎把握，否则会造成中心波长的位置偏移，最终影响填图的准确性。

图8　土壤总氮含量制图研究光谱重采样前后对比

Fig.8 Comparison of soil TN content before and after spectral resampling

3.2　特征波长的确定　

尽管土壤氮元素在400—2 500 nm波段内没有特征吸收峰，但存在着由氮产生的C、N、O、H络合物相关的基频和合频振动。该谱段预测土壤总氮含量是可行的。本研究发现：

1）黑土光谱反射率值整体不高，均在0.4以下，且随着氮含量的增加反射率值降低（图9）。

图9　不同总氮含量的土壤光谱曲线

Fig.9 Spectral curves of soil with different TN content

2）依据图10的4种光谱变换极大凸显了土壤氮元素光谱属性的敏感波段区间。由图10可见，400—600 nm、1 600—2 400 nm波段MSC相较其他光谱变换呈现更为明显的正相关性，即氮含量越低土壤反射率变换值越高，700—1300 nm波段MSC相较其他光谱变换呈现更为明显的负相关性，即氮含量越高土壤反射率变换值越低。

图10　4种光谱变换结果

Fig. 10 Transformation results of four spectrals

3）从表3可见，在400—2 500 nm波段范围内，四种变换值均存在与土壤总氮含量相关的特征波段区间，且总氮含量与这四种光谱变换的最大相关系数R值都在0.6以上。其中，FDR和MSC效果最佳，最大相关波段主要集中在短波红外谱段内（1 760和1 775 nm、1 145和1 160 nm）。

3.3　模型预测结果分析　

基于PLSR、BPNN和SVM三种机器学习算法，采用MSC光谱变换方法选择的波长特征值分别建立了MSC-PLSR、MSC-BPNN和MSC-Poly-SVM模型。由测试样本集对各模型性能进行测试，模型的性能如表4所示。

表4 MSC-PLSR、MSC-BPNN和MSC-Poly-SVM模型估测土壤总氮结果

Tab.4 Soil TN estimation results from MSC-PLSR, MSC-BPNN and MSC-Poly-SVM models

依据测试集对模型的评估结果发现（表4），模型MSC-PLSR、MSC-BPNN和MSC-Poly-SVM均具有预测土壤总氮含量的能力。三个模型的测试集的R2均大于0.6，RPD值均大于1.6，尤其是模型MSC-Poly-SVM，其测试集的R2为0.863，RMSE为0.203，RPD为2.147达到极佳预测效果。研究表明，在建立定标和预测模型时，三种机器学习算法都是适用的，但各有差异；而MSC-PLSR和MSC-BPNN模型对黑土总氮量的估测能力相差不大，两者稳定性都较好，从两者测试集各指标结果看，MSC-PLSR模型的估测能力要稍强于MSC-BPNN模型。

由测试集散点图（图11）发现，依据图中趋势线与45º对角线夹角越小相关性就越高的原则，判断模型的预测值与实际测量值拟合程度。拟合度最好的仍然是MSC-Poly-SVM模型，具有很好的预测能力和较高的稳健性。

图11　各模型土壤测试集总氮估测散点图

Fig. 11 Scatter plot of soil test set TN estimation

3.4　星载GF-5高光谱影像反演成图　

3.4.1　反演填图结果分析　

利用MSC-Poly-SVM模型，结合GF-5高光谱影像数据对研究区内黑土土壤总氮丰度值进行反演并成图，最终获得研究区土壤氮含量的空间分布结果（图12）。研究发现，土壤全氮储量的高背景值主要分布在研究区中部，沿着河流两岸呈现北东向的展布。在研究区中部、河流流经的周边土地水资源丰富，水的淋溶作用能够促进土壤中有机物质的分解，加速了土壤氮素的积累，使得该区域大片土地总氮量多数在3.0 g/kg以上，其余大部分地块的土壤氮含量也在1.5~2.5 g/kg之间，只是在工作区南部、北部一定范围内土壤总氮含量有所降低，但多数也在1.5 g/kg以上。

图12　建三江GF-5号星载高光谱影像土壤总氮含量反演填图

Fig.12 Inversion mapping of soil TN content in GF-5 spaceborne hyperspectral data

3.4.2　填图精度定性评价　

研究从以下三方面做土壤总氮含量填图精度的评价。

1）从宏观上分析，与CASI、SACI 航空高光谱影像土壤总氮含量反演填图相比（图13），两个填图结果无论是氮元素的分布范围、分布形态以及氮含量等级区间的划分，还是在整体延展走势上均具有较好的一致性，并与1∶25万地球化学结果总体吻合（图14），说明GF-5填图成果基本反映了研究区土壤总氮含量状况，研究区土壤总氮高异常区主要集中在沿河流两岸中部的沼泽湿地处，向北东东向延伸。

图13　CASI和SACI 航空高光谱影像土壤总氮含量反演填图

Fig.13 Inversion mapping of soil TN content in CASI and SACI airborne hyperspectral data

图14　1∶25万地球化学结果图

Fig.14 1∶250 000 map of geochemical results

2）从制图效果分析，GF-5的填图由于氮含量差异而引起的色调和色彩的过渡均表现较好（图12），影像细节丰富，层次分明，未出现虚假条带等异常影纹。而基于航空影像（CASI和SACI）填图，由于某些区域每景之间的镶嵌处理欠佳，导致图像纵向虚假异常条带明显，影响了填图效果。理论上航空高光谱数据在填图精度和成图细节上都要高于航天高光谱数据，然而航空高光谱数据因其波段之间的相关性要远高于航天高光谱数据，加之每景的带宽较窄以及受航拍条件难以把控等不确定因素干扰，在数据预处理方面会更加复杂且难度更大。

3）航空高光谱反演采用的样本化学分析数据是在航空数据获取时同步采集的地面土壤样品的分析数据，为了更全面地检验航空高光谱反演精度并提供量化指标，此次利用工作区同步采集的地面土壤样品分析数据进行精度评价，具体方法是提取建三江GF-5号星载高光谱影像土壤总氮含量反演填图相同点位上的高光谱反演数据，对两组数据进行各指标的相对误差计算。由表5可见基于GF-5号高光谱影像的土壤总氮含量填图平均相对误差为22.08%，比杨佳佳等通过CASI、SACI 航空高光谱填图的结果有所降低，表明本研究结果具有可靠性。

表5 CASI和SACI 航空高光谱与GF-5号星载高光谱填图精度对比

Table 5 Comparison of hyperspectral mapping accuracy between CASI， SACI and GF-5

综上所述，除了因受平台高度和获取数据时间不同等因素影响，可能会在某些细节上造成一定差异之外，上述三张成果图具有较好的一致性，而且GF-5数据的成图结果具有更加丰富的细节信息。说明，利用星载GF-5成像光谱数据定量检测土壤总氮含量具有可行性。

3.4.3　专题图制作　

本研究建三江垦区土壤含氮量专题图制作是依据GF-5反演填图成果（图12）完成。土壤总氮含量评价方法参照土地质量地球化学评价的相关要求，根据《土地质量地球化学评价规范》（DZ/T 0295-2016）中氮元素指标的分级标准拟定研究区分级标准（表6）确定图斑等级，绘制GF-5号高光谱土地有机氮参数分布图，以航天高光谱角度实现土地总氮量等级评价，评价单元为工作区实际地块。

表6 研究区土壤总氮含量等级划分标准

Table 6 Standard for classification of TN content in soil in the study area

统计结果显示，全区86.1%的地块土壤总氮含量超过2 g/kg，其中全氮一等地块约占36.3%，全氮二等地块约占49.8%，全氮三等地块约占9.2%，全氮四等地块约占2.63%，研究区不存在氮肥匮乏的土地地块类型，表明该区域黑土地氮肥储备十分丰富（图15）。

图15　建三江垦区GF-5高光谱影像土地总氮量评价图

Fig.15 Evaluation map of land TN content of GF-5 hyperspectral data for Jiansanjiang

结论

高光谱遥感技术为大范围、多尺度开展区域性土壤养分元素预测提供便利，研究在黑龙江建三江垦区采集了171个有效土壤样本，训练MSC-PLSR、MSC-BPNN和 MSC-Poly-SVM三种机器学习算法，建立土壤总氮含量的预测模型并实现填图，结果表明。

1）经变换的土壤全氮光谱特征明显，因此三种方法模型预测精度均较高。

2）以Poly为核函数的SVM比BPNN和PLSR建模的预测效果更佳，黑土土壤光谱反射率与土壤全氮含量之间，因受其他物质因素影响存在一定的非线性关系，采用 MSC-Poly-SVM回归建模能较好地处理这种关系，可以更好地实现对土壤全氮含量的预测，测试集RPD为2.147。

3）基于GF-5星载成像光谱数据完成的土壤总氮反演成图，这一结果与杨佳佳等在2019年的工作成果比较接近。

4）工作区主要以一、二等级地块单元为主，有86.1%的土地土壤总氮丰度值在2.0 g/kg以上，而三和四等级地块仅占总面积的11.83%。区内土壤氮要素储备充足，总氮高背景值主要集中在研究区中部靠近河流两岸、呈北东东向分布。

利益冲突声明：本研究不存在研究者以及与公开研究成果有关的利益冲突。