文章题目:The 500-meter long-term winter wheat grain protein content dataset for China from multi-source data
发表期刊:《Scientific data》
影响因子:8.9(5年)
通讯作者:李振海 教授
第一单位:山东科技大学
在线日期:2024-09
随着粮食消费需求的不断增长和全球市场竞争的加剧,对精确的小麦籽粒蛋白质含量 (GPC) 数据的需求日益增加。然而,由于缺乏广泛、长期的高分辨率基准数据,先前的 GPC 研究主要集中在实验田、小地理单元和有限的时间范围。此外,中国多样化的地理地形加剧了大规模 GPC 估算的挑战。为了解决这一挑战和数据差距,通过整合来自 ERA5 和 MODIS 的多源数据,创建了第一个覆盖中国主要种植区的 500 米空间分辨率长期冬小麦数据集 (CNWheatGPC-500)。结果表明,基于分层线性模型的 GPC 估算模型明显优于其他传统模型。验证数据集的 R2 为 0.45,RMSE 为 0.96%。在交叉验证中,RMSE 值范围从甘肃的 0.90% 到安徽的 1.32%。对于留一年交叉验证,RMSE 值范围为 0.77% 至 1.11%。CNWheatGPC-500 为提高小麦产量、质量控制和农业决策提供了宝贵的见解。
图1.(a)参与研究的省份和地面测量的谷物蛋白质含量(GPC)观测值的空间分布(绿点)和(b)研究区域内确定的五个不同的农业亚区域。
图2. 结合物候和气象变量的方法说明。针对在各个像素中观察到的不同成熟度 (MA),选择了特定的时间长度来逐个像素地合成相关特征。注:T1 代表 MA 的第一个 30 天间隔,T2 代表第二个 30 天间隔,T3 代表第三个 30 天间隔。SE:播种和出苗期,GE:返青和出苗期,HE:抽穗期。
图3. 所有研究样本的统计数据(a)、按省份(b)和按年份(c)。天津和河北省的数据已整合,统称为“河北”。
图4. 所有研究样本的统计数据(a)、按省份(b)和按年份(c)。天津和河北省的数据已整合,统称为“河北”。
图5. HLM 中的区域差异:因变量和第一级自变量与组效应之间的关系。面板 (a) 显示按年份分组的各省内组内相关系数 (ICC) 计算结果,而 (b) 显示按年份分组的各省内 ICC 计算结果。面板 (c–g) 描绘了五个农业亚区域的组间混合效应和 ICC。R:按地区分组。Y:按年份分组。
图8. 使用留一区域法 (a) 和留一年法 (b) 对基于 HLM 的 GPC 估计模型进行交叉验证,其中每个条形上的数字代表验证集的大小。
数据下载链接:https://zenodo.org/records/10066544
或点击阅读原文下载。