监测和管理入侵物种和外来物种在全球的扩散需要准确的物种存在时空记录以及相关物种的生物特征信息,包括生命周期信息、生物和非生物制约因素以及扩散途径。全球入侵和外来物种性状与记录(GIATAR)数据集以标准化、机器可读的格式,提供了国家尺度上入侵和外来物种存在的综合日期记录,以及相关害虫的一系列生物信息。我们提供了249个国家中46,666个外来分类群的存在日期记录,这些国家构成了827,300个国家-分类群对,其中分类群的入侵状态要么是外来的,要么是入侵的,要么是未知的。GIATAR可根据未来数据进行快速更新,并可利用提供的脚本查询和分析数据,方便地与正在进行的全球外来物种移动模式研究相结合。GIATAR为研究人员和政策制定者提供了所需的关键数据,以比较各种分类群的全球入侵趋势。由于全球贸易和航空旅行日益增长,人类在全球范围内引进外来物种的情况持续增加。当这些物种在其新的地理范围内对经济、生态和社会产生负面影响时,就会被认为是入侵物种。在此,我们将外来物种和入侵物种及其范围扩张称为“入侵者”和“入侵”。边境拦截和积极主动地早期发现入侵要比根除既定的入侵种群更具成本效益。然而,有效的边境监控既费钱又费时,而且高效的监控需要了解特定国家-商品路径对相关入侵者的风险。要通过管理和监控在入侵发生之前阻止入侵,就必须详细了解入侵者的身份和位置。已知的入侵者有13,000多种植物,总计多达24,000种。入侵者存在记录的来源多种多样,包括公众的直接报告、新闻和其他媒体、个人关于某国没有物种的报告,以及全国范围和国际范围的汇编和核对表。除物种存在记录外,有效的预防措施、入侵控制和建模还依赖于有关首选商品路径、生命周期、原生范围、影响、宿主、生态限制和其他生物信息。与入侵记录一样,有关这些生物特征的数据也来自许多不同的来源,在研究中也会因害虫的经济重要性、分类、可见度等因素而出现类似的偏差。尽管存在有关入侵者生物参数的文献,特别是那些具有经济重要性的文献,但这些文献通常载于许多不同学科的出版物或政府报告或其他“灰色文献”中。有理由相信,现有数据集中的许多入侵记录都是延迟、缺失或不完整的,而且这些问题都偏向于特定的分类群和地域。数字生物多样性数据库的覆盖范围已被证明存在地理偏差,这很可能是由于影响大部分科学文献的相同地理和社会经济偏差造成的:富裕的英语国家(English-speaking nations),尤其是地理位置靠近数据库所有者的国家的代表性最强。入侵物种可能也是如此。特别是对于那些正在积极扩散的分类群,发现和报告这些新入侵物种的时间预计会有所延误,据估计,一些国家未报告的作物害虫高达300种。此外,许多存在记录在合并时没有注明观察日期,从而丢失了时间信息,而这些信息对于重建物种的传播轨迹以及更好地了解作为多物种过程的全球入侵的时间和范围至关重要。长期以来,人们一直认为公开的入侵物种标准化信息存在巨大缺口,是预测和控制入侵的主要障碍,更广泛地说,缺乏昆虫、植物和其他类群特征的标准化信息被认为是进行类群间生态比较的主要障碍。为实现生物多样性信息的标准化,生物多样性基本变量(EBV)是“研究、报告和管理生物多样性变化所需的测量值”。EBVs的核心是将物种的分布(“在哪里”)与该物种独特的生物学特征(“是什么”)结合起来。Latombe等扩展了这一框架,重点关注入侵监测所需的基本变量,包括存在记录、物种影响、传播途径、受影响环境和其他生物信息。他们确定了外来物种记录的时空分辨率连续统一体,从无日期的物种核对表到国家一级有日期的存在记录,再到空间明确的物种存在/不存在报告。Seebens等提出了报告和收集外来物种分布和EBV的标准化工作流程,包括统一分类学名称和地理位置标准化指南。之前有许多收集和报告入侵物种分布信息的工作。然而,许多先前的工作缺乏量化全球入侵速度和规模所需的全球地理范围或时间特异性。外来物种分布数据汇编如果不能以预先格式化、机器可读的数据形式直接获取,那么在没有大量预处理的情况下同样难以使用。外来物种标准化与整合(SInAS)工作流程和数据集通过将全国范围内物种存在的首次记录(即特定地点和物种的最早报告)从几个具有特定分类范围的静态数据集标准化为一个数据集,为物种存在记录提供了更全面的时空和分类范围。重要的是,SInAS数据集可以自动更新(即使用脚本,维护者只需少量输入)。我们工作的动机是希望自动收集、标准化和更新来自多个来源的入侵者存在时空记录和基本生物多样性变量,并将其整合到一个位置,同时提供易于使用的工具来检索许多入侵物种的数据,跟踪新出现的入侵者,并支持跨空间、跨时间和跨类群的入侵趋势比较研究。在整合多个以分类学为重点的入侵数据集的基础上,我们创建了全球入侵和外来物种性状与记录(GIATAR)数据集,将来自全球和地区入侵数据库、每月生物安全报告以及大量公民科学记录的不同数字格式的入侵和外来物种记录结合起来,这些记录可以近乎实时地获取。我们的数据集整合了全国范围内46,666个外来和入侵类群的827,300条标有日期的首次记录,这些记录所在地区的分类群入侵状态要么是外来的,要么是入侵的,要么是未知的,大大提高了任何单个数据源中可用首次记录的地理、分类学和时间准确性和完整性。据我们所知,这些记录与为入侵者(6,520个分类群)收集的最大规模的本土分布信息集合以及与入侵者生物学相关的特征数据(如气候耐受性、宿主和生命周期信息)和传播途径相结合。我们提供易于使用的工具来检索许多入侵物种的数据,跟踪新出现的入侵者,并支持跨空间、跨时间和跨类群的入侵趋势比较研究。为了生成全球外来入侵性状与记录(GIATAR)数据集,我们从多个数据源获取并整合了数据,这些数据源具有不同的格式(网页、应用编程接口[API]、电子表格)、命名标准和更新频率(图1,表1)。我们按照SInAS工作流程对分类群名称、地点名称和事件日期进行了标准化。附录A提供了所有数据文件的详细元数据。在稳定的Zenodo代码库中提供了用于复制这一过程并用最新记录和信息更新数据集的代码。未来对这些脚本的修改将在我们的Github项目库中发布。我们从几个主要的公开国际入侵物种数据库中获取并整合了数据:欧洲和地中海植物保护组织全球数据库(EPPO-GD)、CABI入侵物种汇编(CABI-ISC;现为CABI汇编)、SInAS数据集以及欧洲外来入侵物种清单(DAISIE)物种清单数据集。我们选择这些数据集和网络资源是为了整合具有不同地理(即全球和区域)和学科(即生物安全、农业和生态)任务的记录。我们还纳入了全球生物多样性信息机制(GBIF)的物种观测数据。这些记录来自广泛的正式科学数据源(如国家物种名录、生物多样性地图集和数字化标本馆),以及公民科学家的自愿数据。除入侵物种和害虫外,EPPO-GD还包括各种农业相关物种的信息。因此,我们纳入了具有监管分类的物种(表明该物种已被列为检疫性有害生物、受监管的非检疫性有害生物、生物控制剂、受监管的入侵物种、受关注的外来入侵物种、紧急物种或警报列表;在我们的数据集中(20,775个物种;物种清单从EPPO数据服务仪表板(dashboard)下载,物种分类使用EPPO API查询),有4,419个物种;物种清单从EPPO数据服务仪表板下载,物种分类使用EPPO API查询。)CABI-ISC17同样包括非入侵物种的数据表。我们将数据集中数据表类型为“有害生物”或“入侵物种”的所有物种(9,263种)都纳入了数据集。最初的SInAS42和DAISIE43数据集仅限于入侵物种和外来物种。因此,我们收录了每个数据集中列出的所有分类群(SInAS:39,363个分类群;DAISIE:11,395个分类群)。为了使不同数据集中的物种名称同源,我们使用GBIF Species API将CABI-ISC、EPPO-GD和DAISIE数据集中的所有分类群名称与GBIF骨干分类群名称进行了匹配。我们依靠GBIF usageKey作为GBIF骨干网中识别生物的主要关键字,来整合分类学信息,并合并不同来源的数据和记录。SInAS数据集为所有包含的分类群提供了GBIFusageKey。对于没有产生匹配或与更高分类学等级匹配的名称,我们还检索了8个补充分类学骨干提供者(附录B中的完整列表),并再次检索GBIF以查找与物种同义词的匹配项或更高排名的匹配项(例如,在属级别查找不匹配的物种名称)。这种方法提供了额外的1,226个匹配项,其中包括550个匹配项,这些匹配项是SInAS数据集中以前缺少分类的分类。对于剩余的1,990个与GBIF骨干分类法或其他分类法不匹配的分类群(尤其是杂交种),我们生成了以“XX”开头的唯一标识符。由于学科和地理重点不同,每个数据源捕获的物种子集也不同(图2a,入侵类群)。图2 GIATAR中的生物性状、入侵类群、原生范围和首次记录摘要
这些数据包含在链接文件中(SINAS_link.csv、CABI_link.csv、EPPO_link.csv、DAISIE_link.csv、all_usageKeys.csv)。我们从以下几个来源提取并合并了年份和国家范围内的物种记录:EPPO-GD分布与报告页面、CABI-ISC分布表、SInAS数据集、DAISIE分布数据集和GBIF Occurrence API。我们收录了至少一个或多个物种列表来源(即SInAS、DAISIE、EPPO-GD或CABI-ISC)认为是入侵者的分类群的所有地理位置和日期记录。每条记录都包含一个“Native”字段,如果已知该地点是该物种的外来或入侵地,则显示“False”;如果已知该地点在该物种的原产地范围内,则显示“True”;如果无法获得该信息,则显示“NA”。我们通过网络抓取所包含的每个物种的分布和报告页面,并处理文本以提取报告的地点和年份表格(详见附录C),从EPPO-GD获得了首次记录日期和新报告。我们将EPPO-GD报告页面中的记录的“Native”设置为“False”,将EPPO-GD Distribution页面中的记录设置为“NA”。在CABI-ISC分布表中,我们使用了国家级报告(省略子区域)。我们根据Distribution表中提供的信息将“Native”设置为“True”、“False”或“NA”。对于EPPO-GD、CABI-ISC和DAISIE的记录,我们使用首次报告日期(如果提供)。如果未提供报告日期,我们会指明最早包含的参考的年份。DAISIE中没有注明日期的记录被分配了数据发布的年份(即2019年)。SInAS的记录包括作者提供的年份和标准国家/地区位置。我们将来自DAISIE和SInAS的记录的“Native”设置为“False”。对于跨来源包含的所有入侵者,我们查询了GBIF Occurrence API,以获取从1970年至今每年的存在记录,汇总到国家范围。我们将GBIF中的记录的“Native”设置为“NA”(未知状态)。我们汇总了跨年份的计数,以确定每个国家/地区的首次报告年份。来自所有来源,位置名称与描述国家、地区和地理区域的标准化ISO3代码进行匹配,使用与现有数据人行横道(即国家/地区名称与其ISO3代码配对的数据集)和Python包pycountry进行模糊匹配,当没有完全匹配可用时。这包括来自EPPO的18,464份报告(17,210份来自分发页面,1,254份来自报告页面)、来自CABI的38,806份报告、来自GBIF的782,671份报告、来自SInAS的204,641份报告和DAISIE的54,385份报告。为了生成首次记录,我们选择了每个分类群-国家对的最早报告年份,并记录了其来源和所提供的文献参考(图2a,b,首次记录)。在合并不同来源的记录时,如果某个地点在任何单独来源中都是已知的,我们会保留该地点的“Native”状态(“True”/“False”)。这些数据包含在occurrence文件(all_records.csv、first_records.csv)中。记录原生范围
在数据集中的大多数原始数据来源中,物种原生分布区位置的记录都很稀少。我们没有从EPPO-GD和GBIF中提取原生分布区位置,因为观测记录没有系统地区分原生分布区和入侵分布区。CABI-ISC分布表包括568个物种的10,043个原生分布区。DAISIE Donor Area表包括5856个物种的17324个原生分布区。此外,我们还纳入了Takeuchi等的原生地分布信息(367个物种的411个原生地分布位置),以及文献综述中得出的380个物种的562个原生地分布位置(详见附录C;图2a、b,原生地分布)。并非所有物种的原生地都有国家级的记录。当提供的原生地生物区域(如西古北区、新热带区;871个地点)与国家尺度的ISO3代码不直接对应时,我们保留了原始描述。ISO3代码与生物地理区域之间的横向图谱是根据AntWiki提供的生物区域横向图谱略加修改而成的,增加了一些在GIATAR记录中出现的小型离岛。DAISIE中列出的原生地范围不尽相同,有时指国家、生物地理区域和其他地理名称(如萨赫勒、印度支那、兴都库什)。我们保留了原有的地理名称,并添加了横道图,将DAISIE地理名称映射到相应的生物地理区域。所有的地理协调都遵循SInAS方法。CABI-ISC包含物种分布以外的信息,描述了物种生物学、扩散和运输方式以及入侵影响。我们提取并整合了以表格形式提供所有入侵物种数据的28个部分。其中,我们舍弃了8个表格(naturalFoodSources、preventionAndControl、impactEnvironmental、biologyAndEcology、diagnosis、description、hostAnimals、principalSource、Pictures),这些表格只提供了少数物种的稀疏数据。我们使用EPPO-GD API提取了每个入侵物种的多语言名称、宿主物种和生物安全分类。从DAISIE物种清单数据集中,我们纳入了有关分布、donor area、栖息地、路径、媒介和方言名称的文件。我们舍弃了物种同义词,因为这些同义词最好由GBIF骨干网和其他达尔文核心分类学骨干网以及species_profile处理,后者列出了简单的生态功能类群(如陆生植物、昆虫),使用目标生物的分类学可以更好地访问这些类群。这些数据包含在EPPO数据文件(EPPO_hosts.csv、EPPO_names.csv、EPPO_categorization.csv)、CABI表格文件(20.csv文件,完整列表见附录A),以及DAISIE数据文件(DAISIE_vernacular_names.csv、DAISIE_vectors.csv、DAISIE_donor_area.csv、DAISIE_donor_pathways.csv、DAISIE_habitat.csv、DAISIE_distribution.csv)。GIATAR以一系列40个flat.csv文件的形式提供,完整的表格说明和元数据见补充材料(附录A)。通过usageKey列中的唯一分类群标识符,可将出现情况与性状信息和分类法联系起来。我们提供了Python和R函数,以方便跨表查询数据。GIATAR的结构由一系列文件夹组成(图3)。数据包括将每个数据源映射到共同分类主干的链接文件(如EPPO_link.csv、DAISIE_link.csv)、按贡献源和跨源合并为第一记录的出现记录(分别为all_records.csv和first_records.csv),以及30个与EBVs和扩散途径有关的描述性数据文件,这些文件来自EPPO(4个表)、CABI(20个表)和DAISIE(6个表)。性状根据其来源数据库存储在文件夹中(即CABI数据、EPPO数据、GBIF数据和DAISIE数据,图3)。如果原始数据集无法下载,我们也会提供重新创建数据集所需的所有文件。查询功能可对来自不同来源的类似数据集进行比对,并在物种名称和使用关键字之间进行映射(图3,示例见图2c)。例如,用户可以向get_common_names()函数提供一个物种名称,以便从EPPO_names和DAISIE_vernacular_names表中获取数值,或者使用get_species_list()函数和所需的分类级别(例如Class=Insecta或Family=Pinaceae)来获取所有匹配分类群的列表。Zenodo存储库中提供了Jupyter笔记本和Rmarkdown示例,展示了查询工具的功能。植物在GIATAR收录的分类群总数中占很大比例(图4),占46%,而昆虫、鸟类和真菌分别占31%、3.9%和4.6%。这些数字可能反映出,与真菌和线虫等微生物相比,人们对植物和昆虫的监测和报告更加重视。植物类群的总数也因杂交种和园艺品种(如Eucalyptus cloeziana x Eucalyptus portuensis)的存在而增加,我们的一些资料来源对这些杂交种和园艺品种进行了独立追踪。图4 GIATAR分类群多样性概述
GIATAR数据集包括所有249个国家/地区的第一条记录,这些国家/地区具有ISO 3166分配的alpha-3代码(ISO3,图5)。GBIF是706,617条记录的第一条记录(每个位置对给定入侵者的最早或唯一观察)的来源(图2a,第一条记录),也是所有国家/地区最早记录的来源。整合此来源将大量新的和早期的时空数据添加到现有的最全面数据(SInAS)和具有农业(CABI,EPPO)和地理(EPPO,DAISIE)要求的数据集中。因此,与依赖单个记录来源相比,整合来自不同地理和学科优先级的多个来源的记录是有益的。GIATAR数据集包括额外的性状数据,描述了13,294个不同类群的EBVs以及与全球入侵相关的人类介导的扩散模式。通用名称(用多种语言指称入侵类群的名称)、途径和宿主(入侵类群的常见传播和运输方式分类,如园艺、作物生产、搭便车;本地和远距离传播的直接方式,如陆地车辆、邮件、船舶压舱物、和栖息地(已知可容纳入侵类群的环境,如栽培区、扰动区、天然林)将多个数据源的数据联系起来(图2a、b,性状)。数据源之间的分类协调采用GBIF骨干分类法(见方法)。DAISIE地名与生物地理区域、国家ISO3代码与生物地理区域之间的交叉图谱由多位研究人员手动验证。大部分首次记录来自GBIF(图2a,首次记录),GBIF提供了有关其数据验证程序的文档。CABI、EPPO和SInAS的大多数记录都与同行评议出版物的参考文献相关联,并与相关记录一起保存在GIATAR中。虽然大多数分类群的鉴定水平为种,但也有属、变种、杂交种、亚种、物种复合体和其他分级分类的记录,因此分类群总数超过了入侵物种总数的估计值。未绘制分类图谱的物种比例为4.4%,但这些分类群在各分类群中的分布可能并不均匀。我们注意到,这些类群中包括了过多的病原性和寄生性微生物,如病毒和细菌。尽管GBIF中进行了检查(例如,仅包括iNaturalist研究级观察),但已知从公民科学数据得出的发生记录偶尔包含错误识别、错误地理位置或错误日期的错误。尽管这些错误预计只占完整数据记录的一小部分,但我们建议用户在管理决策中应用这些错误时筛选异常值。GIATAR中记录的地理分布与其他研究人员的发现一致,即生物多样性数据的全球分布可能反映了研究工作的不均衡。尽管范围遍及全球,但GIATAR中提供首批记录的四个数据源均源自欧洲。因此,对其他地区(尤其是全球南部地区)生成和管理的数据进行数字化和整合的更多努力可能会提高全球数据覆盖范围的质量。我们的数据集包括已知入侵物种的存在记录。由于对某一物种原生地和入侵状况的了解会随着时间的推移而发生变化,因此我们选择收录所有观测到该物种的地点的存在记录(即目前描述的物种原生地范围内的国家、物种可能被有意或无意引入的国家,以及物种入侵状况未知的国家)。因此,存在记录并不一定表明该物种入侵了记录国,但随着更多原生地数据的获得,这一问题可以得到解决。对于有原生或入侵状态信息的物种和地点,我们会在出现记录中提供相关信息(“True”或“False”)。研究人员在研究具体问题时(例如,某一地区入侵类群的数量与引入类群的数量),应根据现有资料提供更多信息。据估计,全球每年因生物入侵造成的损失超过4230亿美元,因此有必要预测和预防影响较大的入侵物种移动,以促进全球贸易和航空旅行的安全。GIATAR数据集自动收集、标准化和组织入侵物种的地理数据、性状和分类。这些数据对于整合入侵历史和生物知识以研究全球入侵者的移动非常有价值。我们设想将其用于分析、了解和直观展示全球范围内的物种移动,评估移动趋势,并确定可能的生物入侵途径,以最大限度地减少入侵物种对作物和自然资源造成的损害。用于创建和查询数据集的所有代码均可在项目的GitHub存储库中获取和维护。发表时的存档版本可在Zenodo上查阅。
GIATAR:
a Spatio-temporal Dataset of Global Invasive and Alien Species and their Traits
Scientific
Data (IF = 5.8)Ariel
Saffer, Thom Worm, Yu Takeuchi & Ross Meentemeyerhttps://doi.org/10.1038/s41597-024-03824-w文章翻译仅代表译者的理解,如需参考和引用相关内容,请查阅原文。