近年来,欧盟、美国、日本等国家和地区均大力推动以政府为主导或指导的数据要素市场建设,并构建了各具特色的公共数据开发利用路径。我国很大一部分健康医疗数据属于公共数据,imit白皮书第二十八期《健康医疗数据要素价值开发行业观察》列举了公共数据流通、基于公共数据推动真实世界研究的方法、医疗健康领域数据流通平台建设等方面的国外实践案例。
◆ ◆ ◆
欧盟是较早探索公共数据流通的地区之一。2011年12月,欧盟委员会提出“欧盟开放数据战略(Open Data Strategy)”,旨在将公共部门收集和产生的原始数据通过再利用成为信息与通信技术用户所依赖的数据材料。同时,欧盟委员会通过了《公共数据数字公开化》决议,主要包括三大方面:一是设立欧盟统一的公共数据互联网对外服务门户网站;二是完善欧盟范围内数据公开的公平竞争环境建设;三是要求加大数据管理的数字技术应用研发投入,规范社会化服务及监管。
在公共数据平台的建设方面,欧盟也进行了一系列探索。2012年,欧盟委员会推出欧盟开放数据门户网站(EU Open Data Portal),发布欧盟组织机构(EU institutions, agencies and bodies)的开放数据;2015年,欧洲数据门户网站(European Data Portal)上线,发布来自欧盟成员国和其他欧洲国家的开放数据;2021年,数据平台进行了第三次迭代,整合了上述两个门户网站,上线了欧洲数据官方门户网站(data.europa.eu)(见图1)。该网站旨在:(1)促进欧洲开放数据在公民、企业和组织中的可及性和再利用;(2)推动和支持欧盟组织机构以及欧洲国家发布更多、更高质量的元数据和数据,提高欧洲行政部门的透明度;(3)培养公民和组织对于利用开放数据能够带来机遇的意识。截至2024年6月,该网站共公开了来自35个国家的1744313个数据集,其中健康类别的数据集有26519个。
来源:data.europa.eu
2020年2月,欧盟委员会发布的《欧洲数据战略》(A European Strategy for Data)强调了数据在社会发展中的重要作用,并提出“单一数据市场”的理念,计划在健康、环境、能源、农业、流动性、金融、制造业、公共行政和技能九大领域构建欧洲共同数据空间(common data spaces)。2022年5月,欧盟委员会发布关于欧洲健康数据空间(European Health Data Space, EHDS)的法规提案。EHDS的目标是使个人能够控制自己的健康数据,并促进数据交换,在欧盟范围内提供医疗保健服务,同时推动数据再利用,满足医学研究、创新、政策制定和监管活动的需求。医疗健康领域行业根据EHDS规则获取数据访问许可后,也可以申请对数据进行再利用。该提案主要涉及三方面内容:一是健康数据的使用,二是数据的互操作性和安全性,三是数据跨境流动和共享治理。提案发布后引发了一些争议,例如提案中的一些规定与《通用数据保护条例》(GDPR)、《数据治理法》(DGA)、《数据法》(DA)等现有欧盟法律并不协调统一。基于此,2024年3月,欧盟理事会和欧洲议会就EHDS拟议法规达成临时协议,对一些存在争议的关键问题进行了修订,包括为患者建立数据使用的退出规则、允许患者设置限制信息等。目前欧盟委员会正在正式通过新的法规。
在该案例中,对数据的关联整合与开放是其最突出的特征。打造单一数据市场,需要对已有的数据资源进行全面的治理,通过建立通用的元数据标准,对数据进行主题分类和归并,将提高元数据质量作为优先事项,以高质量的元数据为提供数据服务的基础。
◆ ◆ ◆
数据关联是一种将来自不同来源但与同一个人或事件相关的信息汇集在一起的方法,该方法经常被用于医学研究中,通过关联与健康、教育、环境或其他因素相关的记录,可以展现详细而全面的人口发展情况,为人口健康和福祉相关的研究和政策制定提供参考,是相比于其他数据收集机制更有成本效益的数据开发利用方式。例如在进行临床试验时,可以将入院数据、癌症登记数据和死亡数据等进行关联,实现对临床试验参与者的长期跟踪随访,在降低失访率的同时,还降低了临床试验的成本。澳大利亚、英国、加拿大等国家均使用该方法来关联其公共数据,用于医疗健康领域的研究。本白皮书以澳大利亚为例,介绍数据关联方法在医疗健康领域公共数据的开发利用。
澳大利亚认为在提供医疗卫生和其他公共服务时,澳大利亚政府、私人组织和非营利性机构收集的大量澳大利亚公民相关信息是宝贵的国家资源,可用于增进对疾病的理解、开发治疗方法和改善医疗服务。澳大利亚依托国家合作研究基础设施战略(National Collaborative Research Infrastructure Strategy, NCRIS)框架,于2009年成立了人口健康研究网络(The Population Health Research Network, PHRN)旨在将来自澳大利亚各地的现有数据汇集在一起,用于重要研究,其愿景是通过关联生活数据来改善所有澳大利亚公民的福祉。作为一个全国性网络,PHRN由位于西澳大学的项目办公室统筹协调,由每个州/地区的项目参与者和数据关联部门组成(见图2、图3)。除了澳大利亚政府的NCRIS计划提供资金支持以外,其他政府机构、研究机构和高校也为PHRN提供了大量的现金和物资捐助。
PHRN建立了元数据平台,为研究人员提供全国各州和地区经常关联的核心数据集的信息,目前共包含159个数据集。若研究人员需要更多的数据,需要联系数据所属辖区的相关数据关联部门。数据所属辖区一共有9个,即1个国家级和8个州/地区。国家级数据由澳大利亚健康与福利研究所(AIHW)负责进行数据关联,澳大利亚首都领地和新南威尔士州的数据由健康记录关联中心(CHeReL)负责,其余6个州/地区均建立了各自的数据关联部门,通常隶属于州/地区卫生部。PHRN将健康相关数据分为行政数据、临床数据和特定项目数据。行政数据是在提供服务时例行收集的,由政府部门和机构以及其他组织从服务提供方获取。临床数据是由卫生技术人员在向患者提供医疗服务期间收集和使用的患者记录,例如医疗记录、病历结果、影像数据等。特定项目数据指政府和其他机构出于特定目的而收集的信息,例如健康行为调查等。每一个数据集均有专门的数据保管人负责数据的日常管理。
所有使用关联数据的研究项目必须首先提交给数据关联部门进行技术可行性评估。然后获得数据保管人和相关人类研究伦理委员会(HREC)的批准。若研究人员仅申请单一数据辖区的数据,可通过相关数据关联部门或PHRN提交申请,若研究人员需要申请跨辖区的数据,可通过PHRN进行申请。研究人员需要向数据关联部门支付费用,不同的部门有不同的收费结构,其费用通常受到数据质量、数据规模、生成关联的数量、数据关联申请的复杂性等因素影响。当申请的关联数据准备好之后,通常会要求研究人员在特定的安全访问换将中接收数据。
数据关联的方式能够实现在某个特定应用场景下相关数据的高度汇聚,形成反映个人健康水平的“数据链”,释放数据的集成效应和价值。
来源:PHRN
来源:PHRN
◆ ◆ ◆
医疗健康领域数据流通平台
国外并没有建立专门的数据交易机构,多以数据集成平台的形式进行数据流通交易。第27期白皮书《全球生物医药研发大数据集成平台观察》阐述和分析了用于生物医药基础研究和研发的数据集成平台发展情况,并列举了UK Biobank、ConsensusPathDB等典型案例。本白皮书将美国“All of Us”项目作为医疗健康领域数据流通案例进行介绍。
2016年10月,美国国立卫生研究院(NIH)推出“我们所有人”研究计划(“All of Us” research program),属于精准医学计划的一部分,旨在建立同类型中规模最大、多样化的健康数据库,为各种健康相关的研究提供信息。项目的总体目标是建立强大的研究资源,以促进对健康和疾病的生物、临床、社会和环境决定因素的探索。该项目是一项前瞻性队列研究,计划招募100万名18岁以上居住在美国的个体,收集基线数据和生物样本。该项目将随访至少10年,把所有参与者的健康数据和生物样本汇总到美国国家中心数据库,经研究人员检测基因、环境和生活方式的变异性从而将遗传、环境暴露、基线数据与疾病联系起来。建立生物医药和行为研究平台,为收集、储存、分析、共享患者数据提供全面、复杂的信息技术基础设施,既有助于改善现有的医学模式,也能够对人们如何理解、如何达成家庭、社区、个人的健康产生革命性的影响。
在项目正式开始之前进行了大量的筹备和试点工作。2015年9月,项目发布了项目规划报告。同时,项目还进行了试运行和预研,建立了统一的标准和规范的工作流程。2016年8月开始,项目招募了50名参与者启动先导试验,开展基础设施建设,进行工作流程设计。2017年5月,项目启动参与者招募工作,并开展为期一年的试点项目,用于测试和改进工作流程。2018年5月,试点项目完成,共招募到2.7万余名核心参与者(提供了个人信息、生物样本和身体测量数据,并同意共享电子病历数据的人)。随后,项目进入正式开展阶段,招募工作在全美全面铺开。2022年3月,项目发布了第一个全基因组数据集,包含近10万名参与者的全基因组序列。截至2023年2月15日,已有409420名参与者提供了相关数据。
All of Us项目由NIH集中管理与协调,自2015年以来,美国国会已经为“All of Us”研究计划拨款10.2亿美元,《21世纪治愈法案》授权截至2026年再向精准医学计划追加14.55亿美元,另外,NIH院长办公室共同基金(OD Common Fund)和其他基金也为该项目提供了资金支持。All of Us项目依托全美医疗机构、研究所、高校、企业、社区等各类组织和机构负责具体实施。项目主要通过资助的方式,与各个机构建立合作关系,从而构成项目的基础设施网络。为了保证精准医疗计划参与者的隐私与数据安全,白宫于2015年制定了《精准医学计划:隐私和信任原则》以及《精准医学计划:数据安全政策原则与框架》。All of Us项目遵循这两项原则。
All of Us项目强调全民参与和人群多样性,其目标是吸引和招募处于不同生命阶段的参与者,参与者包括但不限于种族、民族、年龄、性别、性别认同、性取向、残疾状况、获得照护的情况、收入、受教育程度和地理因素不同的人群。同时,该项目积极招募以往生物医学研究中代表性不足的群体(underrepresented in biomedical research, UBR)。因此,只要符合纳入标准,所有居住在美国及其领土的个人均有资格参加。除去获得知情同意的时间,参与者完成整个参与流程大概需要花1-3小时。All of Us项目不仅对已有的健康医疗数据(如EHR数据)进行集成汇聚,同时该项目还采集了大量的数据。项目收集的数据来源主要包括EHR、生物样本和生物测定(基因组学)、问卷调查数据,即参与者提供信息(Participant Provided Information, PPI)、体格检查数据、可穿戴设备(数字健康)数据等,并将不断地丰富数据类型。截至2024年6月19日,已经有超过1238000人在项目的参与者注册网站创建了账户,超过814000人正式参加了该项目,另有超过556000人已经完成了项目的初始参与流程。项目定期对参与者贡献的不同来源的数据数量进行汇总和更新,最新的数据汇总更新至2023年2月(见图4)。
注:为保护参与者隐私,图中显示的参与者计数并不精确,而是将计数显示为20的倍数(不到20时,按20计)
来源:https://databrowser.researchallofus.org/
图4 All of Us项目收集的参与者健康数据(截至2023年2月15日)
All of Us研究中心向世界各地研究人员开放数据,并将数据访问权限分为3个层级,即公共层级、注册层级和控制层级。公共层级中的数据集仅包含删除了标识信息的汇总数据,每个人都可以通过浏览和获取这些数据。注册层级的数据集包含了个人层面的数据,如EHR、可穿戴设备数据等,仅开放给取得授权的研究人员。控制层级的数据集包含了基因组数据,包括全基因组测序(WGS)和基因分型阵列数据,以及来自EHR和问卷调查的人口统计学数据字段、事件日期等数据。研究人员同样需要取得授权后,才能使用控制层级的数据。
研究人员无法以个人身份在All of Us研究中心进行注册,需要依托研究人员所在机构来创建账户(学生依托所在学校)。在注册之后,还需要经过身份验证和相关的培训,并签署《数据使用者行为守则》(Data User Code of Conduct, DUCC),才能完成注册步骤。相关机构需要与All of Us研究中心签署《数据使用和注册协议》(Data Use and Registration Agreement, DURA)。目前,只有学术机构、医疗保健机构、非营利组织和政府才有资格申请DURA。截止至2024年6月,已经有812家机构签署了DURA。研究人员对All of Us项目的数据进行分析和利用依托研究者工作台进行,该工作台是一个基于云的平台,注册的研究人员可在其中访问注册层和控制层数据,并使用强大的工具进行数据分析和协作。研究人员仅访问研究者工作台时,并不产生费用,但若要基于工作台对数据进行分析,则会产生一定费用。相关的数据分析是基于Google Cloud环境进行,因此研究人员在使用数据进行研究时,需要承担计算和存储数据的成本。项目会为每个新创建的研究人员账户提供300美元的初始积分,超过部分需要由研究人员支付。需要支付的费用取决于分析数据时所需的工作量。为了保证项目的透明性,All of Us研究中心公开了研究项目目录,包含了有关研究者工作台中当前存在的所有项目的信息。截至2024年6月20日共有11901个活跃项目被记录在目录中,共产出了349篇期刊论文,也推动了一些实践应用,例如威斯康星大学的研究人员利用项目的数据集,构建了乳腺癌筛查算法模型。
All of Us项目形成了数据闭环,构建了数据“自产自销”的模式,既推动了全美范围内健康医疗数据互联互通与数据利用,也将数据限制在可控范围之内,实现数据在有限流动的情况下释放价值,并获得左右价值流动和流向的主导权。
◆ ◆ ◆
小结
将数据要素作为生产要素是由我国首次提出的创新理论,其本质是为了体现和充分释放数据价值。国外在促进健康医疗数据流通、利用数据推动医学发展方面已经有较为成熟的实践,比较具有启发和值得参考的做法包括了以元数据标准化建设的方式推动数据整合关联,推动数据质量持续提升;在公共数据运营中,关注保证可持续运营的成本保障,积极推动面向公众的公共数据的开放与利用。虽然顶层设计和制度框架不甚完善,但一些相关的医疗健康领域数据平台建设相对完整,来自不同渠道的资助,以及向数据使用方收取费用来覆盖成本的形式,保证了这些数据流通模式的持续运营。
以上为imit白皮书第二十八期《健康医疗数据要素价值开发行业观察》部分内容节选,白皮书完整框架如下。点击文末“阅读原文”,立即免费下载白皮书全文。
目录
一、数字时代医疗健康发展新态势
(一)全面迎接数字时代,加快数字化发展
(二)医疗健康领域探索推进“数据要素×医疗健康行动”
二、健康医疗数据要素如何充分释放价值
(一)健康医疗数据要素价值
(二)健康医疗数据要素价值开发关键要点
三、我国健康医疗数据要素价值开发探索实践
(一)场景驱动医疗健康领域数据要素价值探索
(二)国内健康医疗数据要素价值开发实践案例
四、国外健康医疗数据要素价值开发探索实践
(一)欧盟公共数据流通-共同数据空间
(二)基于公共数据推动真实世界研究的方式——数据关联(data linkage)
(三)医疗健康领域数据流通平台
(四)小结
五、健康医疗数据要素价值开发展望
浙江数字医疗卫生技术研究院
浙江数字医疗卫生技术研究院(简称“数研院”,imit)是中国首家致力于数字与信息化技术在医疗卫生健康服务领域研发与应用的专业性非营利研究机构(NPO/NGO),院长为郑杰先生。
数研院聚集众多业内的资深院士和专家学者、全球著名的医疗保健设备厂商、国内外领先的行业软件企业来共同从事该领域的研究开发、顾问咨询、认证评估、国际合作、成果转化等工作,并引领政、产、学、研、用、资六位一体的公益事业公共服务支撑平台,进而营造出可生存可持续发展的数字医疗卫生产业链生态环境。
HIT创新基础设施(HiTA)
为了治愈,我们选择开放和共享
点击“阅读原文”,立即下载本期白皮书!