1.对所读论文的理解
1.1问题是如何提出的
砷是地壳中的一种天然元素,其无机形式是剧毒的,如今中国面临着由密集的工业和农业活动造成的广泛的土壤砷污染,相当大一部分来自人类活动,主要包括采矿和冶炼、农业实践和化石燃料燃烧。作为世界上最大的工业强国和农业贡献国,中国在过去的几十年里向土壤中释放了大量的砷,导致了相当大的全国砷污染。
1.2 思路是如何形成的
1.3方法是如何构建的
本研究首先通过关键词检索已发表的研究,严格筛选文献,排除有特定污染源的数据,以确保数据客观反映中国土壤和水稻中典型的砷暴露水平。最终提取到3524份关于中国土壤中砷浓度的调查和374份关于水稻的砷浓度的调查。
从3524份公开调查中提取了土壤砷含量数据,最终形成一个包含地理空间信息的数据集。研究系统地将3524个土壤砷调查划分为两个不同的数据集:90%用于训练,10%用于验证目的。确定了26个预测变量(不同预测变量的重要性值不同)后,创建一个包含200棵决策树的回归分析集成模型RF,在创建RF时,从数据集中随机抽取多个子集,使每棵决策树都能建立在不同的训练数据上,以增强模型的多样性,在构建每个决策树的过程中,只考虑一个特征的子集来进行特征分割,降低特征间的相关性,同时将 bagging (bootstrap aggregation)整合到该模型中以避免过拟合,并使用RF建立预测变量与土壤砷浓度之间的定量关系。在训练RF模型时,使用训练数据和验证数据的决定系数(R2)来衡量其性能。最后使用统计学习技术,并结合地理信息系统(GIS)等空间分析技术来生成预测地图。
(1)数据扩充策略
通过给行政区的每个网格点分配平均砷浓度值来人为扩展数据集,有效增加训练数据集的多样性和规模,丰富用于模型训练的数据,确保暴露于中国不同地区的环境下,增强RF模型的泛化能力,使其更能代表全国各地的不同环境条件。在扩大的数据集上训练模型,降低模型过拟合的可能性。
(2)自举汇聚(bootstrap aggregation)
(5)模型集成
1.4结果表述、组织与讨论
图2. 中国表层土壤砷浓度。a,中国表层土壤中砷浓度(mgkg−1)和2000-2040年地表土壤平均砷浓度比例的时间变化。b-d,预测2000年(b)、2020 (c)和2040 (d)中国表层土壤砷浓度。e-f,2020年至2000年(e)与2040年和2020年之间(f)土壤砷浓度(mgkg−1)的差异分布。
图3.各部门对砷污染的贡献。a-c,估计各因素在中国土壤增加平均砷浓度(a),砷浓度超过20 mgkg−1的土壤面积 (b)暴露于土壤砷浓度高于20 mgkg−1 的人口(c)的贡献.
图4. 不同情景下中国土壤平均砷浓度。每条虚线表示一个场景,其中一个特定的因素(采矿)自2030年以来停止积累,而所有其他设置保持不变。
来源:ECexposureLAB。投稿、合作、转载、进群,请添加小编微信Environmentor2020!环境人Environmentor是环境领域最大的学术公号,拥有20W+活跃读者。由于微信修改了推送规则,请大家将环境人Environmentor加为星标,或每次看完后点击页面下端的“在看”,这样可以第一时间收到我们每日的推文!环境人Environmentor现有综合群、期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个,欢迎大家加小编微信Environmentor2020,我们会尽快拉您进入对应的群。
往期推荐
扫描二维码,快速入群~