编辑 | 小杨
撰文 | 小杨
文献信息:
A primordial DNA store and compute engine
Nature Nanotechnology
本周要介绍的文章是来自于是北卡罗来纳州立大学化学与生物分子工程系的Albert J. Keung课题组,Keung的研究主要集中在合成生物学、神经和干细胞工程以及生物工程领域。他的工作致力于理解生物系统中信息的存储和访问机制,这包括工程化人类干细胞模型以研究神经表观遗传疾病,开发合成生物学平台来绘制复杂的细胞网络,并创建用于高密度信息存储的DNA系统。Keung教授获得了多项荣誉,包括美国国立卫生研究院的Avenir奖、美国化学学会的合成生物学青年创新者奖,以及国家科学基金会的CAREER奖。在2023年,他被美国化学工程师学会(AIChE)授予了兰格创新与创业卓越奖,这一奖项旨在支持从事变革性创新研究的早期职业研究人员。
任何现代信息系统都需要具备一组基本的功能和特性:一个能够稳定存储数据的基质;从该基质上反复写入、读取、擦除、重新加载和计算特定数据的能力;以及执行这些功能的无缝可编程能力。对于新兴的分子信息技术,证明这些基本功能的实现将推动其进一步发展。
在此,我们介绍了一种基于DNA的存储和计算引擎,它展示了这些基本功能。该系统包含多个图像文件,这些文件被编码为DNA并吸附在直径约50微米、具有高度多孔性、分级分枝结构的胶体基质颗粒上,这些颗粒由天然丰富的醋酸纤维素组成。它们的表面积超过200 cm²/mg,结合能力超过10¹² DNA寡核苷酸/mg,即10 TB/mg或10⁴ TB/cm³。
这种“树状胶体”比裸DNA更稳定地保存DNA文件,其冻干再水化的次数可达170次,而裸DNA仅为60次。在4°C和-18°C条件下,其半衰期分别约为6000年和200万年。此外,数据可以被擦除和替换,并且可以通过从不同的合成启动子转录来实现非破坏性文件访问。通过纳米孔测序,可以直接读取产生的RNA分子,还可以通过酶计算来解决简化的3x3国际象棋和数独问题。该研究为利用核酸的高信息密度和平行计算优势提供了一条可行的途径。
正文内容:
当前的技术无法无限扩展以满足不断增长的数据存储和计算需求。因此,新的技术类别正在探索中,它们具有潜在的能力突破,例如量子计算机和分子信息系统。在这项研究中,我们通过创建一个捕捉经典存储和计算引擎共通特征和功能的系统,激发了基于DNA的分子信息技术的潜力。这些功能包括一个类似于磁带或硬盘的基质,用于承载数据,以及擦除、替换、读取和计算所有或特定部分数据的能力。此外,该系统还具有相对连续和可编程执行功能的能力。
迄今为止,核酸基分子信息系统主要分为两大类:一类系统中,分子本身同时作为数据和信息基质,这些系统具有极高的信息和计算密度,但读取和计算数据通常会破坏DNA;另一类系统则利用核酸结构的变化来存储信息,可以通过电信号、光信号或物理探针读取,这类系统更适合重复使用,但难以扩展并执行如通过PCR生成副本等其他功能。
本研究的核心创新是利用高表面积材料创建一种混合系统,结合了这两类系统的优势。我们发现,DNA可以稳定地吸附在特定类型的树状胶体材料上。通过将多种不同的RNA启动子纳入DNA设计中,转录可以用来无损地将数据复制到RNA中。这些创新解锁了利用分子生物学丰富性(包括多样且可编程的酶活性)来执行经典计算机常见功能的能力。
在本研究中,我们展示了多个不同的图像文件可以被单独或完全擦除,新的数据可以加载到相同的树状胶体基质上,特定文件可以被读取,简化的3x3国际象棋和数独问题可以在不破坏原始数据的情况下进行计算和解决。此外,该系统可以在连续的微流控格式中实现,并且与直接RNA纳米孔测序兼容。这项研究为利用核酸的高信息密度和并行计算优势提供了一个可行的路径。
图1
DNA吸附在软树枝状胶体上
我们设想了一个系统,其中DNA固定在高表面积的基底上,并能够非破坏性地转录成RNA(图1a)。我们利用了一种新型的聚合物颗粒,称为软树枝状胶体(SDCs),这些颗粒因其层次分明的微米-纳米尺度纤维形貌而具有非常大的表面积与体积比。我们考虑了两种将DNA固定在SDCs上的方式:共价键和吸附。尽管吸附方式可能无法像共价键那样稳固地固定DNA,但它更容易实现,并为实现诸如擦除和重写等功能提供了更灵活的平台。
我们选择了与生物材料兼容、易于制备且成本低廉的SDCs材料,包括醋酸纤维素(caSDC)、纤维素(ceSDC)和琼脂糖(agSDC),并将它们与200个核苷酸(nt)双链(ds)DNA进行孵育,孵育量跨越六个数量级,然后进行了两次洗涤。结果显示,DNA以单调和浓度依赖的方式吸附到所有三种SDCs上(图1b,c 和扩展数据表1)。我们进一步通过使用5'标记了异硫氰酸荧光素(FITC)或ATTO550染料的200 nt dsDNA,确认了DNA在SDCs上的吸附。我们仅在与FITC标记的dsDNA(caSDC-fitcDNA)混合的SDCs上观察到绿色荧光,而在与ATTO550标记的dsDNA(caSDC-atto550DNA)混合的SDCs上观察到红色荧光(图1d)。此外,我们还观察到,当SDCs与DNA混合时,其zeta电位35变得更为负电性(图1e)。
在微流道中转录SDC结合的DNA
我们的下一个目标是开发一种非破坏性地访问数据的方法。我们制备了含有合成T7启动子的200 nt dsDNA,并将它们吸附在与磁珠结合的SDCs上(扩展数据图1a)。我们确认DNA并未吸附到磁珠上,而仅吸附在SDC上(扩展数据图1b)。
然后,这一复合物通过注射泵加载到聚四氟乙烯微管中,并通过将一块顺磁性立方体放置在微管外部来进行空间锚定(图2a)。接着,我们通过简单地流过IVT试剂,使用体外转录(IVT)将DNA数据复制成RNA36。
图2
测试不同材料对DNA的非共价固定
我们测试了三种不同的软树枝状胶体(SDC)材料,并比较了两种其他商用系统,即链霉亲和素功能化磁珠结合生物素化DNA(SpBioDNA)和固相可逆固定(SPRI)珠子结合未修饰DNA。为了比较,各实验组中使用了等量的基质和DNA。我们的目标是找出哪种材料最适合通过体外转录(IVT)反复访问数据。
尽管链霉亲和素功能化磁珠和SPRI珠子在初始阶段每单位基质质量产生的RNA量较高,但在五轮IVT后,它们的RNA产量显著下降(图2b)。此外,这两种材料每单位质量和每单位存储数据的成本也较高(扩展数据表2)。相比之下,三种SDC材料的起始RNA产量虽较低,但仍然可观,并且醋酸纤维素SDC(caSDC)在连续十轮IVT中能够维持相当的RNA产量(图2c,d)。
caSDC的RNA产量约为175 ng,理论上足以编码46 TB的数据;我们发现,通过延长IVT孵育时间可以进一步提高这一产量(图2e)。同时,我们还发现至少需要200 ng的DNA才能产生可检测的RNA产量(图2f)。有趣的是,DNA长度与RNA产量之间存在非线性关系,当DNA长度为140 nt及以下时,RNA产量大幅下降(图2g)。此外,将吸附到SDC上的DNA长度增加到1.5 kb对RNA产量没有显著影响,这意味着可以通过更低的编码开销实现更高效的数据存储和计算(图2h)。综合这些初步实验结果,我们决定在后续研究中主要使用caSDCs、微流控系统进行IVT反应,并吸附长度至少为200 nt的DNA。
文件从SDC的多次访问表现出稳健性和稳定性
我们展示了将多个相同DNA序列吸附到SDC上并从中转录RNA的能力。然而,实际“真实”文件通常由许多不同的DNA链组成。当数据规模扩大时,一个关键挑战是,即使在DNA合成阶段,文件或数据库中不同链条的分布也不均匀,后续处理(如PCR和Illumina测序)可能进一步导致链条的丢失,从而影响数据的解码和访问效率及成本39。因此,我们不仅测试了在这一新系统中是否可以存储和访问复杂文件,还研究了基于IVT的数据访问是否以及如何影响链条分布,并检查了这些变化是否随着访问次数的增加而累积,这是PCR系统的一个主要局限性。我们设计并订购了2,775种不同的243 nt长的DNA寡核苷酸,这些寡核苷酸编码了三个数字JPEG文件(图3a和补充注释1和2)。我们首先检查了将DNA简单地吸附到SDC上是否会影响通过IVT访问文件时的读数分布;我们对caSDC上吸附的DNA和未吸附的DNA进行了IVT,并通过Illumina测序对生成的cDNA进行了测序。结果发现,基于IVT的样本的读数分布是相似的(图3b 和扩展数据图1c,d)。
图3
我们测试了File1在SDC上重复IVT后的链条分布变化。我们将SDC–DNA复合物洗涤后进行IVT,重复此过程十次,以模拟十次文件访问。每轮生成的RNA被收集并转化为互补DNA(cDNA),然后通过Illumina测序化学方法进行测序。结果显示,随着每轮IVT的进行,cDNA的量逐渐减少(图3c),这表明SDC表面可能由于洗涤步骤导致部分材料丢失。然而,链条分布保持高度一致(图3d和扩展数据图2a)。此外,错误率保持较低,且未因重复IVT反应而增加(扩展数据图2b)。在所有IVT轮次中,每轮IVT中缺失的独特链条序列比例都很低,File1也被准确解码(图3e和扩展数据图2c)。此外,测序效率(以“无用”测序读数的数量表示)保持一致,表明在重复的IVT反应过程中,转录的RNA质量得到了维持(图3f)。
DNA存储的稳定性
另一个重要的考虑因素是DNA在长期存储中的稳定性。冷冻干燥通常用于保存DNA,但每次冻融循环都会使DNA降解。相比之下,溶液中的DNA可以多次访问,但会随着时间的推移而降解。因此,我们研究了SDC–DNA的多次冻干如何影响cDNA的产量,并将其与单独冻干的DNA或未冻干的溶液中DNA进行比较。我们观察到,在File3 SDC–DNA经过五轮冻干和IVT后,链条保留和cDNA产量的减少可以忽略不计(图3g)。相比之下,溶液中的DNA和冻干的DNA都表现出更大的链条保留和cDNA产量的损失。有趣的是,与SDC复合的DNA似乎能够防止因反复冻融而导致的降解或损失。此外,从冻干的SDC–DNA复合物中生成的cDNA也通过Illumina测序化学方法进行测序,并在五轮冻干和IVT过程中保持了相似的链条分布和链条保留(图3h,i)。错误率也保持较低,且未因重复冻干和IVT轮次而增加(扩展数据图2d)。进一步分析表明,理论上冻干复合物可以提供多达172次文件访问而不影响解码性能,而保存在溶液中的SDC–DNA和冻干的裸DNA则分别可以访问122次和65次(补充注释4)。三种条件之间的比较更具直接实用性,因为绝对数字可以通过增加每种独特序列的拷贝数或总质量来任意增加。
扩展数据图2
数据加载和删除的能力
传统计算机的一个核心特征是存储和操作不同数据集的能力,包括删除特定文件、添加新数据和擦除整个硬盘。SDC–DNA系统可以实现这些功能的物理实例化(图4a)。为了测试这一点,我们将File1固定在SDC上,加入DNaseI,然后分别吸附File1、File2或File3。正如预期的那样,DNaseI处理使我们无法再解码File1(图4b和补充注释3)。大部分总DNA链条被DNaseI去除,>80%的独特DNA链条不再被检测到(图4c,d和扩展数据图3b)。Illumina测序还表明,新的文件成功并重复地加载到SDC上,其链条分布与原始未结合的文件相似,尽管效率降低了约40%,但与原始SDC相比仍然达到60%(图4e,f)。
图4
选择性删除特定文件
为实现同时存在的三个文件中选择性删除特定文件的功能,设计了每个独特文件的所有链条都包含一个特定的限制性内切酶识别序列,而这一序列在其他文件的链条中不存在。我们将所有三个文件同时固定在SDCs上(图4g)。结果显示,内切酶能够特异性地切割每个文件,使得只有被切割的文件无法再被解码(图4h)。总体上,无论是删除特定文件还是整个数据库,删除过程都去除了大部分DNA链条质量,并且保留了不到40%的独特序列(图4i–k和扩展数据图3a,b)。最后,删除过程并未影响剩余或重新加载文件的链条分布和解码时的错误率(图4k,扩展数据图3c,d,f和补充方法)。
扩展数据图3
通过改变缓冲液pH和离子强度进一步减少DNA
虽然DNA可以通过酶促手段去除,但我们还研究了是否可以通过改变缓冲液的pH值和离子强度进一步减少DNA。我们将File3固定在SDCs上,并将复合物在pH 3、pH 7、pH 10或6 M NaCl(pH 7)缓冲液中孵育。IVT和逆转录后观察到,在碱性和高盐条件下,链条保留的减少效果比通过酶促消化更显著(图4l,m和扩展数据图3e)。
扩展数据图4
实现RNA纳米孔测序的连续操作
降低延迟可能有助于下游自动化及单元操作的协调。纳米孔测序技术通过在核酸测序时提供实时读数,有望解决最显著的瓶颈,并通过直接测序RNA跳过将RNA转化为DNA的步骤。在这里,我们使用Oxford Nanopore Technologies(ONT)直接读取由SDC–DNA系统生成的RNA(图5a)。首先检查了ONT测序是否会通过偏离读取分布来负面影响数据恢复。令人安心的是,File1、File2和File3 DNA的IVT后获得的RNA读数与原始合成的DNA库通过Illumina化学测序的分布相似(图5b和扩展数据图4a–d),无论是从自由DNA还是吸附在SDCs上的DNA访问的文件,都成功解码(图5c–f)。此外,观察到通过跳过cDNA生成步骤,使用直接RNA ONT测序的分布比Illumina化学测序更为单一。
图5
实现可寻址的存储内计算
我们研究的最后一个特性是非破坏性的计算。利用通过RNA复制访问DNA的机制,使得我们有机会在不破坏DNA的情况下对RNA进行计算。受先前使用RNaseH选择性降解与20个碱基长的DNA寡核苷酸杂交的RNA的工作启发,我们利用了RNaseH的特性,通过不同组合和时间顺序添加DNA寡核苷酸来执行逻辑操作,降解包含特定互补序列的所有RNA。例如,它可以降解代表谜题中非有效解的所有序列。
我们订购了1,000个独特的250个碱基长的DNA寡核苷酸,它们涵盖了三种不同谜题的所有可能正确和错误配置(图6a)。每个DNA寡核苷酸由九个独特的20个碱基位置组成,每个位置代表一个3×3谜题方格的状态。每个位置可以是两种或三种可能的序列之一,每个序列分别代表没有棋子存在、一个骑士存在或一个主教存在(或在数独棋盘的情况下分别代表数字1、2或3)。因此,每个寡核苷酸表示一系列特定的九个20个碱基序列,代表一种可能的棋盘配置。计算方法是取这些代表所有可能棋盘配置的寡核苷酸池,并消除违反谜题规则的寡核苷酸序列,只留下代表正确谜题解答的寡核苷酸(扩展数据图5和补充方法)。
扩展数据图5
与每个谜题相关的所有DNA寡核苷酸都包含一个特定于该谜题的RNA聚合酶启动子序列。Puzzle1的所有DNA寡核苷酸都包含T7启动子;Puzzle2的寡核苷酸包含Sp6启动子;Puzzle3的寡核苷酸包含T3启动子。
Puzzle1是一个国际象棋问题,其解答是所有包含骑士的棋盘配置,白骑士位于左上角,并且没有新放置在棋盘上的黑骑士可以被白骑士攻击。在Puzzle2中,白骑士和主教分别占据左上角和中左位置,解答是那些没有新放置在棋盘上的黑骑士或主教能够被任何一个白棋子攻击的配置。Puzzle3是一个简化的数独问题,其中前四个位置定义为数字1、2、3和2,每一行和每一列中每个数字只能出现一次。为了进一步测试这些物理计算步骤的准确性,我们故意改变了一个物理步骤,使Puzzle3的第九个位置可以故意但错误地允许正确的数字2以及错误的数字1同时存在。
图6
与单个谜题相关的DNA链通过向SDC-DNA中加入相应的RNA聚合酶(T7、Sp6或T3)进行转录(图6b)。生成的RNA代表了该谜题的所有可能棋盘配置。然后,我们设计了一种算法(补充方法),该算法由添加与RNA互补的DNA寡核苷酸以及RNaseH组成,旨在破坏所有违反谜题规则的RNA链,只留下代表正确解答的RNA。计算完成后,绝大多数幸存的链都属于预期的解答(图6c,d,扩展数据图5b和扩展数据表3)。
这种方法展示了在不破坏原始DNA的情况下,通过RNA的转录和选择性降解来实现计算功能,证明了SDC-DNA系统在存储和计算中的潜力。
结论:
我们展示了在不破坏底物的情况下实现信息系统核心基本功能的能力,包括稳定存储、擦除、重新加载、读取和计算特定数据的能力,并能够相对无缝地、可编程地和连续地执行这些功能。值得注意的是,该系统既有局限性,也有未来发展的可能性。
目前的系统在信息密度和能效方面对理论理想估计产生了正反两方面的影响。将DNA吸附到SDC上,虽然牺牲了一部分由于SDC所需的额外体积导致的信息密度,但尽管如此,信息密度仍然非常高,达到了104 TB cm−3(扩展数据表2)。通过优化SDC的树状结构或使用其他高表面积材料,这一密度可能进一步提高。
在分子计算中,常常忽略了物理处理步骤。例如,使用核酸进行的逻辑运算通常需要分离、混合和执行多个不同的酶促或化学反应。所提出的SDC-DNA系统为兼容自动液体处理提供了一种格式,未来可能会在空间有效的格式中集成更复杂的阀门和混合系统。
此外,该系统兼容使用基于核酸的逻辑门操作的信息管理系统,介于档案存储和计算之间。有趣的是,SDC的复合物似乎在时间上以及在反复冻干和重构过程中对DNA提供了增强的保护,表明它可能在从档案存储到计算应用的过程中作为一种通用的数据底物。
目前系统的特定挑战主要涉及每个处理步骤的效率和完整性,包括数据的删除和重新加载。就像编程和设计策略绕过电子系统中出现的物理缺陷一样,可以开发类似的策略来处理不完整的分子过程。例如,可以利用计算过滤或赢家通吃的策略来应对不完整的分子处理步骤。
最后,虽然本研究中使用的限制酶和RNA聚合酶数量有限,无法用于大规模数据处理,但它们提供了一个原理证明,即生物分子机械可以应对这一挑战。未来的工作可能会实施更具创造性的、更具扩展性的方法,例如toehold开关,或发明新的CRISPR技术形式,以可定制和序列特异性的方式招募聚合酶或充当核酸酶。
方法:
难题设计: Puzzle1和Puzzle2为国际象棋难题,要求所有棋盘配置都不会出现棋子互相攻击的情况。Puzzle3是一个数独问题,要求棋盘配置中没有数字在任一水平行或垂直列中重复。每条DNA链序列代表一种可能的棋盘配置,每个20nt的位置序列表示棋盘上棋子的存在或数字的分布。每个特定谜题的所有DNA链都具有独特的RNA聚合酶启动子序列。
凝胶成像:使用Li-Cor Odyssey Fc成像系统对DNA和RNA凝胶样品进行荧光成像,并使用FIJI软件量化荧光强度。
DNA吸附到表面改性SDC上:将300ng的荧光素标记的双链DNA与60µg表面改性SDC混合,并在含有Dulbecco磷酸盐缓冲盐水(DPBS)的100µl反应液中反应。混合物在4°C的管旋转器中轻轻旋转过夜。次日,将混合物短暂离心后放置在磁性支架上5分钟。收集上清液以评估结合能力,并用DPBS轻轻洗涤磁化的SDC颗粒两次。
共聚焦成像:使用尼康A1R激光扫描共聚焦显微镜进行表面结合荧光素标记的双链DNA成像,使用20倍物镜(数值孔径为0.75;工作距离为1mm;视场为25mm)。FITC在488nm激光和525/50 560DCXR 2FW发射滤光片下成像。ATTO550在561nm激光和600/50 640DCXR发射滤光片下成像。所有图像使用相同的采集设置和后处理。
非标记DNA结合表面改性SDC的结合实验:表面改性SDC与非标记双链DNA在含有DPBS的100µl反应液中混合,DNA量从2pg到2µg或DNA长度从200nt到120nt不等。混合物在4°C的管旋转器中轻轻旋转过夜。次日,将混合物短暂离心后放置在磁性支架上5分钟。收集上清液,并通过实时PCR处理以量化结合和未结合的DNA量。
实时定量PCR:使用SsoAdvanced Universal SYBR Green Supermix(Bio-Rad, 1725270)在6μl、384孔板格式中进行定量PCR。扩增条件为:95°C 2分钟,接着50个循环的95°C 15秒、53°C 20秒、60°C 20秒。数量通过在同一PCR板上执行的标准曲线的线性范围内进行内插。
SDC–DNA的体外转录 (IVT):从Azenta购买带T7启动子序列的DNA寡核苷酸,并使用PCR生成双链T7-DNA,然后用AMPure XP磁珠(Beckman Coulter, A63881)纯化并在40μl水中洗脱。将300ng的双链T7-DNA与60µg SDC结合。次日,将混合物短暂离心后放置在磁性支架上5分钟。用DPBS洗涤复合物两次,并直接与含有2µl T7 RNA聚合酶混合物和ATP、TTP、CTP和GTP(每种6.6mM)的30µl体外转录缓冲液(NEB, E2050)混合。混合物在37°C孵育16小时,并通过Monarch RNA清理试剂盒(NEB, T2040L)纯化。用NanoDrop分光光度计和片段分析仪HS RNA试剂盒(安捷伦科技, DNF-472-0500)测量新生成的RNA转录物。转录后,用含20mM Tris-HCl, 0.15M NaCl和2mM EDTA pH 8的低盐缓冲液洗涤结合的DNA磁珠两次,并重复四次转录过程。
文章详情可点击查看原文跳转链接