分享信息,整合资源
交流学术,偶尔风月
近日,《国家科学评论》在线发表了一项由天津大学合成生物学团队与天津市环湖医院合作的研究成果。该研究聚焦于脑部核磁共振(MRI)医学影像数据的DNA信息存储新方案,设计并实现了一种高信息密度、低解码覆盖度及高可靠性的DNA信息编解码方案“DNA Palette”,为医学影像数据的长期保存提供了新的途径。
脑部核磁共振是高精度的无创检查方法,在临床诊断、手术规划及疗效评估中具有重要价值。在患者治疗的全周期中,持续性的复查并利用历史检查影像进行对比分析、捕捉病情变化,能够为实施个性化、精准化的医疗提供有力的数据支撑。在某些疾病(如青少年型帕金森病、癫痫、神经系统遗传病等)的治疗过程中,患者的影像数据可能从青少年时期开始积累,并需要几十年内持续存储和对比分析。这类数据的体量庞大,存储周期极长,对现有的数据存储技术提出了严峻挑战。
DNA被视为有希望解决这些数据存储问题的潜在介质之一。该项研究提出了一种名为DNA Palette的创新编解码方案。DNA Palette针对时间归档数据的特点,通过构建无序组合的无索引寡核苷酸(oligos)与数字信息的双射,实现比特到碱基的相互转换。该方案能够实现高信息密度编码,并当测序信息受损时,它仍能有效恢复部分信息,避免文件检索完全失败。
DNA Palette编码方案
通过对临床脑部MRI影像数据的体外合成测试,以及对大规模公共MRI数据集(超3万份脑部医学影像文件,10 GB)、行星科学和气象数据集的模拟验证,研究结果证明了该编码方案具有高信息密度、广泛适用性以及低测序覆盖率下的无损数据恢复能力。
在体外存储实验中,研究团队选择了具有典型时间序列特征的脑部核磁共振影像数据,将一位患者2021年和2023年两次核磁检查的结果进行编码,总数据量为11.28 MB。编码过程生成了255,248条长度为155个碱基的寡核苷酸序列(不含引物),实现了2.39 比特每碱基的净信息密度。通过Twist Bioscience进行合成、聚合酶链式反应(PCR)扩增和Illumina测序,团队完成了体外存储实验。在解码测试中,DNA Palette在平均测序拷贝数为4.4x时实现了无损数据恢复,且在2x、3x、4x等更低拷贝数时也能够部分恢复图像数据。
DNA Palette方案的MRI数据解码结果
在大规模、多类型数据集的模拟实验中,研究团队选取了超3万份核磁共振影像公开数据(10 GB)、行星数据系统、气象数据和监控数据进行验证。研究结果显示,DNA Palette实现了比其他DNA存储编解码方案更高的净信息密度,且能够适应多种数据格式,在所有实验中均实现了数据的无损恢复。这一结果证明了DNA Palette在大规模数据存储中的广泛适用性和可靠性。
DNA Palette方案的嫦娥三号观测数据(a)、格陵兰冰盖数据(b)解码结果
DNA Palette聚焦于稳定且高密度的存储介质DNA,通过创新的编解码策略,为临床患者的脑部核磁共振等医学影像数据提供了长期保存解决方案。通过DNA进行存储,临床患者的医疗数据能够安全存储数十年乃至更久,从而大幅提升病情追踪和复查的效果,缓解当前医疗数据存储的容量瓶颈和长期保存的技术难题,为未来医疗数据的深度挖掘和分析提供数据支持。
天津大学元英进教授与天津市环湖医院佟小光教授为该论文通讯作者,天津大学博士后闫子慧和张皓然为该论文共同第一作者。
扩展阅读