从智能手机和社交媒体到电子商务和科学研究,一切都在推动数据的空前激增。如今,每年产生的数据高达1021比特。随着数据的激增,我们对数据存储需求也不断增长,传统硅基材料存储难以满足日益增长的数据存储需求,这推动了人们寻求新的存储解决方案,例如基于DNA的存储。
DNA具有超高存储密度,仅1克DNA就足以存储1000万小时高清视频数据。此外,如果避免潮湿和紫外线照射,DNA可以保存数十万年之久。相比之下,硬盘往往需要每隔几年更换一次以数据损坏。因此,DNA显示出作为存储介质的巨大潜力。
然而,传统DNA数据存储方法依赖于从头合成DNA序列,这导致其局限性也十分突出——DNA合成速度慢、错误率高、合成费用昂贵。
2024年10月23日,亚利桑那州立大学颜颢、北京大学定量生物学中心钱珑、欧阳颀及北京大学计算机学院张成等人在国际顶尖学术期刊 Nature 上发表了题为:Parallel molecular data storage by printing epigenetic bits on DNA 的研究论文,北京大学计算机学院为该论文第一单位。该研究描述了一种受表观遗传学启发的DNA数据存储新方法——表观比特(epigenetic bits),或可提高将数据写入DNA的速度和成本效益。在该技术的演示中,研究团队将一张中国汉代拓片图像(16833比特)和一张熊猫照片(252504比特)存储进了DNA,其可被准确地印刷和检索出来。该技术有望为可持续、高密度数据存储技术不断增长的需求提供可规模化的解决方案。DNA存储显示出在存储密度、寿命和能源消耗方面超越当前硅基数据存储技术的潜力。然而,通过从头合成的方式将大规模数据直接写入DNA序列,在时间和成本上都不经济。
在这项最新研究中,研究团队开发了一种非常规的DNA数据写入框架,该框架允许基于DNA自组装引导的酶促甲基化将任意的表观比特(epigenetic bits)以并行方式稳定地写入DNA模板上。
具体来说,研究团队从自然发生的甲基化(DNA的表观遗传修饰)获得灵感,提出了一种无需合成的方法,通过自组装引导的酶促甲基化,通过一组预先制备的DNA活字和甲基转移酶DNMT1,实现并行和选择性地将表观比特写入到DNA模板上,就像在纸上印刷文字一样。首先,设计并预制通用的单链DNA (ssDNA)载体和互补短ssDNA“砖块”文库。然后,通过将“砖块”文库装到DNA载体的相同加载序列上,任意表观比特信息被排版。接下来,碱基修饰(5-甲基胞嘧啶,5mC)通过DNMT1酶的选择性甲基化以并行的方式稳定地“打印”在DNA载体上。
这种称为“表观比特”的方法,类似于传统的比特,以两个二进制值中的一个(0或1)来存储信息,对应碱基是否甲基化。研究团队通过使用有限的700种DNA活字和5个模板进行编程,在一个自动平台上实现了约27.5万个比特的免合成写入,每个反应的写入输出为350比特,远远超过依赖DNA从头合成的数据存储系统每个反应约1比特的输出量。通过纳米孔测序,以复杂表观遗传模式编码的数据可以高通量检索,研究团队还开发了算法来精细解析每个测序反应的240个修饰模式。
表观比特DNA存储示意图
该策略可以使用预先制备的核酸并行写入DNA中的任意数据,而不是从头合成。这种酶打印工艺可能会降低成本和时间,超过化学合成的限制,而且高度特异性的“砖块”模板DNA组装赋予了数据写入的准确性。
这一方法可用于存储图像和文本,研究团队展示了使用该方法存储一张中国汉代老虎拓印图像(16833比特)和一张熊猫照片图像(252504比特),通过纠错解码,存储的图像能够被完美恢复。基于表观比特条码的高位并行大规模存储
该研究还显示,60位没有专业生物实验室经验的志愿者用这个方法成功地编码了文本数据,展现出该方法的可靠性和可用性。表观比特DNA存储使用预制的DNA片段,因此可以进一步优化以进行批量生产,这将比通过定制合成DNA链来存储信息要便宜得多。但DNA存储在商业化之前还有很长的路要走,该领域还需要大幅降低成本,才能与当前的硅基材料存储相竞争。总的来说,该研究提出了一种并行、可编程、稳定和可扩展的DNA数据存储新模式。这种非传统的模式为生物分子系统的实际数据存储和双模式数据功能开辟了途径。
https://www.nature.com/articles/s41586-024-08040-5Bio-protocol 于2011年在斯坦福大学创建,旨在提高科研的可重复性,以助力科学发现。它与 eLife、Science/AAAS等国际知名出版机构合作,致力于提升实验方案的透明度和共享。Bio-protocol是 Bio-protocol 旗下一份同行评审的国际学术期刊,专注于发表高质量的生命科学实验方案。至今,已发表来自全球两万多名科研工作者的近5000 篇文章。该期刊已被PubMed Central、Web of Science 等国际权威数据库收录,是全球为数不多的拥有影响因子的生物学实验方案期刊之一。Bio-101 是Bio-protocol旗下一个中文生命科学实验方案的共享平台,通过与上百个国内优秀科研团队的合作,已出版了多本同行评审、免费获取的中文实验方案电子书。