开放数据状况调查至今已开展了 9 年,持续而详细地展现了全球研究人员分享研究数据的动机、面临的挑战以及对开放数据的看法和行动。今年的全球开放数据状况调查继续由施普林格·自然(Springer Nature)联合 Figshare 知识库、Digital Science(数字科研)公司合作完成。不同的是,这次我们不仅希望了解研究人员的想法和态度,而且首次探究了他们的实际行动。
今年的“开放数据状况报告”结合了三个不同数据来源:Dimensions 数据库、施普林格·自然的数据可用性声明(DAS),以及惠康基金会资助的 Make Data Count 与 DataCite 数据引用语料库(MDC DCC),以研究经过同行评审的已发表研究与可供使用的数据集之间的关联。我们相信,从了解研究人员的态度到展现他们目前行动的这一转变,对于推动变革、弥合开放数据共享政策与实践之间的差距十分重要。
受到政策环境、资助情况和机构资源的影响,不同国家、资助机构和科研机构在开放数据实践上的进展不一。认识这些差异,并通过针对性支持和协调政策解决这些差异,有助于进一步加快开放数据实践在全球的采用。由此,我们就能建设一个更加公平、更易获取的科研体系,让数据共享得到重视、奖励,并最终成为学术成功的基石。
开放数据举措的成功往往反映了一个国家更广泛的政策环境。我们推测,实施积极的开放科学政策的国家一般对开放数据的遵守和参与度更高。相反,数据政策不清晰、或存在基础设施限制的国家通常在采用开放数据实践上进展较慢。
以下概述了各个国家开放数据共享的主要趋势:
中国
在与 MDC DCC 中的数据库建立链接方面,中国出版物数量多,增长速率快,高于平均水平(按出版物发表数量计算),但链接到 Dimensions 数据库的论文比例低于平均水平。这可能是由于中国研究人员更多使用特定学科的数据库,而非通用性数据库。
监管框架不断发展,以确保在数据共享的同时尊重隐私和知识产权,降低误用风险。在卫生、基因组学和技术等特定领域,平衡开放性和数据安全及隐私存在挑战性。
重要的国家级政策包括 2018 年科技部(MOST)发布的《科学数据管理办法》,其中规定政府资助的研究必须尽可能开放数据以供访问。
美国
论文发表量仅次于中国。相较于其他国家,中国和美国更需要传达开放数据方面的新政策给更多的研究人员。
美国因数据相关原因所导致的撤稿比例远低于中国。
数据显示,宣称“应要求”共享的数据可用性声明比例下降最多。
自上世纪 90 年代末,围绕开放研究和开放数据相关的政策不断发展。2023 年,美国国立卫生研究院(NIH)发布了具有里程碑意义的数据管理和共享政策。
政策的持续演变似乎对美国研究人员有着直接影响,“资助方要求”一直是推动数据共享的主要动力。
英国
主要的研究资助机构制定了明确的政策框架。
英国发表的研究论文中,数据链接实践优于平均水平。
在一些国际合作产出的研究论文中,数据可用性声明更少见。
对 FAIR 数据原则的知晓度最高(基于2023 年开放数据状况调查)。
英国的国家数据战略强调了开放数据的重要性。大力投资关键基础设施,以推动数据共享、交互操作性和数据管理的典范做法。
德国
开放数据政策状况复杂,缺少统一的全国性开放科学政策,各个机构采用的方法不同。
链接到数据库的研究论文比例高于前十个国家(按论文发表量)的平均水平。
联邦政府已制定目标以加强开放科学,并发布了研究数据行动计划,聚焦于数据主权、数据基础设施和基于数据的创新。
日本
日本大型研究资助机构——日本科学技术振兴机构(JST)和日本学术振兴会(JPSP)推出了“鼓励”数据共享的政策。
链接到数据库的论文比例显著提高,但相较于研究经费和研究论文数量相似的国家表现欠佳。
对 FAIR 数据原则的知晓度最低(基于2023 年开放数据状况调查)。
数据可用性声明在国际合作论文中更常见。
日本内阁府发布了研究数据库新规定——自 2025 年 4 月起,所有公共资助的研究必须实现论文产出和基础研究数据库的开放以供访问。
埃塞俄比亚
科研活动和科研产出显著增长,展现出数据共享实践的迅速发展。
2017 – 2022 年,科研产出增加了 3 倍,达到 11000 篇。提供数据可用性声明的论文比例从 20% 左右提高到 65%。
有开放数据链接的论文比例较其他国家更高,链接到数据库的论文比例高于前十个国家(按论文发表数量)的平均水平。
严重依赖于外部资助,尤其是盖茨基金会的资助。这影响了该国的数据实践,因为自 2015 年以来,基金会规定所有受资助的研究产出(包括基础数据)需按照 FAIR 原则实现可公开获取。
扫码或点击“阅读原文”下载《2024 开放数据状况》报告,了解不同国家在开放数据实践上更多维度的比较和分析