全球不同国家在数据共享实践上有何差异?| 2024 开放数据状况

学术   2025-01-13 08:30   河北  

开放数据状况调查至今已开展了 9 年,持续而详细地展现了全球研究人员分享研究数据的动机、面临的挑战以及对开放数据的看法和行动。今年的全球开放数据状况调查继续由施普林格·自然(Springer Nature)联合 Figshare 知识库、Digital Science(数字科研)公司合作完成。不同的是,这次我们不仅希望了解研究人员的想法和态度,而且首次探究了他们的实际行动


今年的“开放数据状况报告”结合了三个不同数据来源:Dimensions 数据库、施普林格·自然的数据可用性声明(DAS),以及惠康基金会资助的 Make Data Count 与 DataCite 数据引用语料库(MDC DCC),以研究经过同行评审的已发表研究与可供使用的数据集之间的关联。我们相信,从了解研究人员的态度到展现他们目前行动的这一转变,对于推动变革、弥合开放数据共享政策与实践之间的差距十分重要。


扫码查看并下载《2024 开放数据状况》报告,了解详情


受到政策环境、资助情况和机构资源的影响,不同国家、资助机构和科研机构在开放数据实践上的进展不一。认识这些差异,并通过针对性支持和协调政策解决这些差异,有助于进一步加快开放数据实践在全球的采用。由此,我们就能建设一个更加公平、更易获取的科研体系,让数据共享得到重视、奖励,并最终成为学术成功的基石。


开放数据举措的成功往往反映了一个国家更广泛的政策环境。我们推测,实施积极的开放科学政策的国家一般对开放数据的遵守和参与度更高。相反,数据政策不清晰、或存在基础设施限制的国家通常在采用开放数据实践上进展较慢。


以下概述了各个国家开放数据共享的主要趋势:


中国

  • 在与 MDC DCC 中的数据库建立链接方面,中国出版物数量多,增长速率快,高于平均水平(按出版物发表数量计算),但链接到 Dimensions 数据库的论文比例低于平均水平。这可能是由于中国研究人员更多使用特定学科的数据库,而非通用性数据库。

  • 监管框架不断发展,以确保在数据共享的同时尊重隐私和知识产权,降低误用风险。在卫生、基因组学和技术等特定领域,平衡开放性和数据安全及隐私存在挑战性。

  • 重要的国家级政策包括 2018 年科技部(MOST)发布的《科学数据管理办法》,其中规定政府资助的研究必须尽可能开放数据以供访问。


美国

  • 论文发表量仅次于中国。相较于其他国家,中国和美国更需要传达开放数据方面的新政策给更多的研究人员。

  • 美国因数据相关原因所导致的撤稿比例远低于中国。

  • 数据显示,宣称“应要求”共享的数据可用性声明比例下降最多。

  • 自上世纪 90 年代末,围绕开放研究和开放数据相关的政策不断发展。2023 年,美国国立卫生研究院(NIH)发布了具有里程碑意义的数据管理和共享政策。

  • 政策的持续演变似乎对美国研究人员有着直接影响,“资助方要求”一直是推动数据共享的主要动力。


英国

  • 主要的研究资助机构制定了明确的政策框架。

  • 英国发表的研究论文中,数据链接实践优于平均水平。

  • 在一些国际合作产出的研究论文中,数据可用性声明更少见。

  • 对 FAIR 数据原则的知晓度最高(基于2023 年开放数据状况调查)。

  • 英国的国家数据战略强调了开放数据的重要性。大力投资关键基础设施,以推动数据共享、交互操作性和数据管理的典范做法。


德国

  • 开放数据政策状况复杂,缺少统一的全国性开放科学政策,各个机构采用的方法不同。

  • 链接到数据库的研究论文比例高于前十个国家(按论文发表量)的平均水平。

  • 联邦政府已制定目标以加强开放科学,并发布了研究数据行动计划,聚焦于数据主权、数据基础设施和基于数据的创新。


日本

  • 日本大型研究资助机构——日本科学技术振兴机构(JST)和日本学术振兴会(JPSP)推出了“鼓励”数据共享的政策。

  • 链接到数据库的论文比例显著提高,但相较于研究经费和研究论文数量相似的国家表现欠佳。

  • 对 FAIR 数据原则的知晓度最低(基于2023 年开放数据状况调查)。

  • 数据可用性声明在国际合作论文中更常见。

  • 日本内阁府发布了研究数据库新规定——自 2025 年 4 月起,所有公共资助的研究必须实现论文产出和基础研究数据库的开放以供访问。


埃塞俄比亚

  • 科研活动和科研产出显著增长,展现出数据共享实践的迅速发展。

  • 2017 – 2022 年,科研产出增加了 3 倍,达到 11000 篇。提供数据可用性声明的论文比例从 20% 左右提高到 65%。

  • 有开放数据链接的论文比例较其他国家更高,链接到数据库的论文比例高于前十个国家(按论文发表数量)的平均水平。

  • 严重依赖于外部资助,尤其是盖茨基金会的资助。这影响了该国的数据实践,因为自 2015 年以来,基金会规定所有受资助的研究产出(包括基础数据)需按照 FAIR 原则实现可公开获取。


扫码或点击“阅读原文”下载《2024 开放数据状况》报告,了解不同国家在开放数据实践上更多维度的比较和分析



数据来源


在本次分析中,我们查看了以下三个来源的数据。尽管现阶段没有哪个数据来源是单一可信的,但将它们结合起来分析有助于发现趋势,理解当前的实践模式:

Make Data Count 与 DataCite 数据引用语料库(MDC DCC)旨在计划创建一个开放、全面的集中式数据引用资源,能极大改善研究数据的追踪和引用方式。该数据库包含超过 800 万条来自 DOI 和非 DOI 来源(例如收录号)的数据引用,确保代表更广泛的研究数据。

Dimensions 是一个科研与创新洞察平台,汇聚并关联了多种学术信息源,为研究发现、分析和影响力追踪提供了全面的数据。Dimensions 平台由 Digital Science 公司开发,包含出版物、资助项目、专利、临床试验、数据库和政策文件等内容。该平台提供超过 1 亿篇研究论文的全文访问,使用户能轻松发现学术研究论文和 DataCite DOI 之间的联系。还支持在上述研究论文中查询数据可用性声明。

施普林格·自然数据可用性声明(DAS):DAS 是研究论文的一部分,供论文作者说明可以在哪里以及如何访问研究结果的支撑性数据,或给出数据限制的原因。它确保了透明度,有助于提高研究可重复性并遵守开放数据政策。




Springer
作为全球领先的科学、技术、医学和人文社科出版机构,Springer 拥有超过2900种期刊和290,000本图书,致力于为学术界、科研机构和企业研究人员提供高质量的内容。欢迎关注 Springer,了解学术出版、科研进展以及作者服务。
 最新文章