我院数字健康与人工智能研究中心与牛津大学的科研团队携手,在Nature Communications期刊上公布了他们的创新研究成果。该研究提出了一种前沿的数据编码框架,在实现面向人工智能的医疗健康数据共享的同时,可有效避免临床人工智能模型泄露敏感信息。
在数字健康领域,信息泄漏和数据共享的困境阻碍了基于深度学习的高质量医疗健康解决方案的开发和应用。数据共享是指向更广泛的人工智能研究人员群体提供数字医疗健康数据。然而,由于医疗健康数据的敏感性和隐私法规的限制,数据共享流通变得十分困难。另一方面,潜在的信息泄露,即通过临床人工智能模型获取到除了目标数据之外的底层训练人群的敏感信息,也带来隐私保护上的挑战。
针对这一问题,科研人员提出了一种有效的解决方案:不可逆数据编码。这种编码框架能够在不违反医疗数据和临床模型隐私法规的前提下,实现数据的安全共享。该编码框架能够将原始数据转换到一个无法被人工或计算检查所感知的新空间,同时保留数据的语义信息,以便有效地训练深度学习模型。
为了实现这一框架,研究团队假设了其所需的关键特征,并借助随机投影和随机量子编码处理密集的纵向或时间序列数据。随机量子电路和随机投影都能将数据变形或投影到一个无法感知的空间中。借助随机投影或随机量子电路,该编码框架可对多元时间序列的每个特征或每个一维信号进行片段式或分段式时间编码(图 1-b)。编码后的时间序列保留了其语义特征,但随机变换会使信号的每个分段发生不可逆的变形,从而保证了数据的安全性。
图片:该研究提出的编码框架及其组成部分示意图
a. 展示的是将多元时间序列概念化形成多个一维信号的集合。b. 展示的是使用该编码框架对时间序列中的一个一维信号进行编码的过程示意图。c. 由四根线路、单元旋转门和非受控(CNOT)门组成的量子电路示意图。d.展示的是潜在信息泄漏的评估设置,被评估对象为预测死亡率的训练模型。将死亡率预测训练模型的倒数第二层编码嵌入作为输入,输入到处理性别或患者疾病预测的线性或密集层中。
由于原始数据、编码方法、转换矩阵(用于随机投影)和随机量子电路均未公开,逆转编码过程变得异常困难。这使得编码后的数据可以在深度学习研究人员之间被安全共享。同时,由于从编码数据中提取语义信息需要更高的模型复杂度,这也实现了正则化,并遵循了信息瓶颈(Information Bottleneck)原则。
在一系列临床数据集上的实验评估表明,使用编码时间序列数据训练的模型有效地遵循了信息瓶颈原则,相较于原模型,其信息泄露更少。这一成果推动了数字健康领域的数据共享进程,有效降低了信息泄露的风险,有望为医疗技术的创新研究赋能。