使用RNA测序进行mRNA疫苗质量分析
健康
2024-11-14 11:24
湖北
摘要:mRNA疫苗的成功部分得益于制造技术的进步,这使得数十亿剂疫苗得以以足够的质量和安全标准生产出来。然而,必须对mRNA疫苗进行严格分析,以测量其完整性并检测降低其有效性并引起副作用的污染物。目前,mRNA疫苗和疗法的分析使用了一系列耗时且成本高昂的方法。在这里,我们描述了一种使用长读长纳米孔测序来分析mRNA疫苗和疗法的简化方法。与其他行业标准技术相比,VAX-seq能够全面测量关键的mRNA疫苗质量属性,包括序列、长度、完整性和纯度。我们还展示了直接RNA测序如何分析mRNA化学,包括检测核苷酸修饰。为了支持这种方法,我们提供了支持软件,以自动报告mRNA和质粒模板的质量和完整性。鉴于这些优势,我们预计RNA测序方法,如VAX-seq,将成为mRNA药物开发和制造的核心。mRNA疫苗的成功部分得益于制造技术的进步,这使得数十亿剂疫苗得以以足够的质量和安全标准生产出来。然而,必须对mRNA疫苗进行严格分析,以测量其完整性并检测降低其有效性并引起副作用的污染物。目前,mRNA疫苗和疗法的分析使用了一系列耗时且成本高昂的方法。在这里,我们描述了一种使用长读长纳米孔测序来分析mRNA疫苗和疗法的简化方法。与其他行业标准技术相比,VAX-seq能够全面测量关键的mRNA疫苗质量属性,包括序列、长度、完整性和纯度。我们还展示了直接RNA测序如何分析mRNA化学,包括检测核苷酸修饰。为了支持这种方法,我们提供了支持软件,以自动报告mRNA和质粒模板的质量和完整性。鉴于这些优势,我们预计RNA测序方法,如VAX-seq,将成为mRNA药物开发和制造的核心。
mRNA疫苗在COVID-19大流行期间被证明是安全有效的,并且许多新的mRNA治疗正在被开发用于治疗广泛的疾病,包括其他传染性病原体、癌症、自身免疫和细胞工程。然而,这些新疗法的有效性取决于mRNA的快速、安全制造,以及足够的规模、纯度和完整性。mRNA疫苗和疗法是使用快速、无细胞的体外转录制造的。mRNA制造始于制备和线性化质粒DNA(pDNA)模板,该模板由RNA聚合酶体外转录以生成合成mRNA,并通常包含5′帽和模板编码的3′聚(A)尾(图1a)。mRNA还必须纯化以去除污染物,包括反义和双链RNA,这些污染物可以引发抑制细胞翻译和引起副作用的先天免疫反应。在制造过程的每一步都需要严格的分析来测量mRNA的质量。未检测到的质量问题可能导致mRNA效果降低、临床试验结果不佳和昂贵的延误,并威胁到监管批准。然而,mRNA疫苗的分析仍在发展中,目前需要一系列不同的方法来测量mRNA的质量,包括序列身份、浓度、完整性、纯度和安全性。mRNA分析需要多种技术(如RT-qPCR、毛细管和凝胶电泳、RP-HPLC、IP-RP-HPLC和免疫印迹)这些技术维护繁重且昂贵,并且通常无法灵敏地检测关键的mRNA质量特征。RNA测序在细胞基因表达分析中广泛使用,它可以确定mRNAs的序列身份和定量丰度。已经开发了额外的RNA测序方法来测量聚腺苷酸化、核苷酸修饰和RNA二级结构。然而,尽管RNA测序具有内源性mRNA的特征,但它尚未在mRNA药物的分析和制造中使用。在这里,我们评估了短读(Illumina (ILM))和长读(Oxford Nanopore Technologies (ONT))测序在mRNA疫苗和疗法分析中的使用。在这里,我们描述了一个简化的协议,称为VAX-seq,它使用长读纳米孔测序来测量mRNA疫苗和疗法的关键质量特征。与当前行业标准方法不同,VAX-seq是一个单一方法,能够测量关键的mRNA质量属性,包括序列身份、完整性、3'-聚(A)尾长度和DNA及RNA污染。为了支持VAX-seq,我们还开发了一个软件工具包,Mana,它提供详细和自动化的mRNA质量报告。我们还展示了直接RNA测序如何测量mRNA疫苗化学,包括N1-甲基假尿嘧啶的结合。详细分析对于mRNA疫苗和疗法的开发和制造至关重要。VAX-seq使用长读纳米孔cDNA测序来分析mRNA疫苗(图1)。为了演示和验证VAX-seq协议的使用,我们设计并制造了参考eGFP mRNA。图1 | mRNA疫苗生产和VAX-seq工作流程。示意图展示了mRNA制造过程中的步骤(左侧面板)以及VAX-seq分析过程中的步骤(右侧面板)。这包括长读长纳米孔测序的实验室步骤,随后是分析输出数据的生物信息学步骤,包括支持的Mana软件工具包。VAX-seq可以分析的mRNA疫苗质量特征已标出(以红色和绿色列出)。左下角是IGV图,比较了牛津纳米孔和Illumina对质粒DNA模板的测序。覆盖度表示每个核苷酸位置上的读数数量,而下方对齐的灰色条表示独特的、个别的对齐,着色表示它们与参考基因组的相似性。源数据提供为“源数据文件”。eGFP mRNA疫苗包括以下组分(从5′到3′顺序):(i)用于体外转录的T7 CleanCap启动子,(ii)α-珠蛋白5' UTR,(iii)增强型绿色荧光蛋白(eGFP)开放阅读框,(iv)AESmtRNR1 3' UTR,(v)126nt聚(A)尾(带有5nt间隔的连接序列),以及(vi)用于模板线性化的 restriction enzyme(BsaI)消化位点(图4e)。该构建被合成并克隆到pUC-57质粒骨架中(见“方法”),并如下所述制造。为了支持VAX-seq数据的分析,我们还开发了一个软件工具Mana(github.com/scchess/Mana),它接收对齐的NGS库作为输入,并报告质粒和mRNA长度、序列身份和纯度(图S1)。Mana可以常规生成标准化的mRNA样本报告,适用于记录性能和最终产品特性。mRNA制造的第一步是制备质粒模板,该模板在大肠杆菌中扩增、提取、纯化和线性化(见“方法”)。在体外转录之前对质粒模板进行测序可以识别开放阅读框中的突变和特别是在低复杂性序列(如聚(A)尾)中发生的重排。我们使用短读(Illumina)和长读(Oxford Nanopore)测序对线性化pDNA模板进行测序,读取结果处理并比对到参考质粒序列。我们通过长读测序可靠地确认了聚(A)尾区域外的质粒序列的一致性准确性(图S2a-c)。VAX-seq还可以测量线性化质粒DNA模板的纯度,并检测从质粒扩增中带来的污染物。例如,在eGFP mRNA中,我们发现大多数(86.8%)读取比对到质粒参考DNA,其余未比对的读取来自大肠杆菌(6.8%)或失败的读取(6.6%;图S2d)。Illumina短读测序产生了类似的结果,确认了高置信度的序列身份和略低的污染率,这可能是由于测序平台特有的差异(图S3a-c)。图2 | 使用长读长牛津纳米孔测序(PCS111)分析参考eGFP mRNA疫苗。a 基因组浏览器(IGV)视图显示长读长cDNA比对结果与参考质粒序列。覆盖度表示每个核苷酸位置上的读数数量,而下方对齐的灰色条表示独特的、个别的比对,着色表示它们与参考基因组的相似性。b mRNA疫苗和聚(A)尾序列中测序错误和类型的概况。c 细节显示聚(A)尾的测序覆盖度和错误,显示出特征性的M形缺失概况。d 使用ONT全长测序测量的mRNA长度显示全长和片段化的mRNA疫苗。e 使用tailfindr测量的eGFP mRNA的聚(A)尾长度(绿色),与具有可变聚(A)尾长度的cDNA文库相比较。源数据提供为“源数据文件”。在制备过程中,超螺旋质粒在聚(A)尾的3'端被限制性酶(BsaI)切割,以产生一个线性模板,防止读取通过转录(图4e)。为了测量质粒线性化的效率,通常使用HPLC或琼脂糖凝胶电泳来区分线性和圆形质粒(图S4a-d)。长读纳米孔测序可以确定线性质粒的全长,然而基于连接的纳米孔文库制备方法不测量圆形质粒。我们使用Mana(-plasmid选项;图1和S1)分析了线性化质粒的大小,它提供了与行业标准的琼脂糖凝胶和毛细管电泳方法相当的尺寸轮廓(图S4c-e)。然后使用线性化质粒作为体外转录合成mRNA的模板,该模板被纯化以去除残留的DNA、RNA和蛋白质,并测试以确认序列身份、长度和完整性。我们使用长读cDNA测序(SQK-PCS111)来分析纯化的mRNA,读取结果处理并比对到参考质粒序列,并使用Mana(-mrna选项;图1和S1;见“方法”)进行分析。mRNA疫苗的一致序列身份和长度很容易确认(对于单个读取,我们测量了平均5.0%的错误率,聚(A)尾中的错误率更高(13%);图2a-c)。cDNA测序与之前的质粒DNA测序之间的错误配置文件的逐核苷酸比较也揭示了特定于cDNA文库制备步骤的错误(图S5a)。聚(A)尾对于mRNA疫苗的有效翻译是必需的,并且在制造过程中是衡量的关键质量属性。VAX-seq将逆转录酶引物锚定在聚(A)尾的3'末端,使得能够对完整的聚(A)尾进行测序以测量其长度(图2d和S6a, b)。这种从比对中测量聚(A)尾长度的方法显示平均约有11.2%的长度低估,这是由于删除错误造成的(图2d和S2c)。这些错误是系统的,因为它们在重复实验间是可复制的(图S5b)。为了标准化这些删除错误,我们使用tailfindr软件来评估原始数据,并标准化读长特定的核苷酸移位率。对于eGFP mRNA,我们发现tailfindr准确地估计聚(A)尾长度为126.04nt,与预期的126nt相符(图S6b和2e)。这一分析在重复的mRNA样本中是可复制的(图S6c)。为了比较,我们还使用短读(Illumina)cDNA测序分析了合成mRNA,使用的是Illumina TruSeq mRNA Stranded Library Preparation Kit,并使用修改过的Mana工作流程进行分析(见“方法”)。短读测序的一致性准确性正确确认了mRNA序列(图3a, b),然而,短读在聚(A)尾的错位导致了许多错误和一致性准确性差,突显了使用短读测序分析低复杂性序列的挑战(图3c)。图3 | 使用短读长Illumina测序(TruSeq)分析参考eGFP mRNA疫苗。a 基因组浏览器(IGV)视图显示短读长cDNA测序文库与参考质粒序列的比对。覆盖度表示每个核苷酸位置上的比对深度,而下方对齐的灰色条表示独特的、个别的比对,着色表示它们与参考基因组的相似性。b 转录起始位点的详细信息显示了mRNA疫苗5'端长读长和短读长测序的比对。c 聚(A)尾的基因组浏览器视图详细信息显示了由于短读长错配导致的覆盖不均和连接子序列的缺失。源数据提供为“源数据文件”。完整性直接影响mRNA疫苗或疗法的有效性。mRNA可能因水解、RNases降解或不完全转录而断裂,并且不编码可以翻译成有效药物的全长开放阅读框。由于使用了全长纳米孔测序,VAX-seq可以测量mRNA疫苗的长度,并提供mRNA样本完整性的定量测量(图2c)。我们测量了eGFP mRNA的大小分布,显示主要峰(77%)在预期长度(1153nt)的5%以内,以及一系列较小的、断裂的mRNA(共占该mRNA样本的23%)。这个从读长计算出的大小分布概况类似于使用电泳方法(Agilent TapeStation;图S5c)的测量。然而,RNA测序的一个优点是,可以分析单个峰来确定mRNA序列。我们还分析了三个重复的文库,证明了VAX-seq工作流程测量mRNA完整性的可复制性(图S5d)。在VAX-seq协议中制备cDNA文库时,会在每个mRNA的5'和3'端添加两个侧翼适配器。通过分析包含两个侧翼适配器的测序读长,我们可以区分全长mRNA分子和截短的mRNA分子。对于eGFP mRNA,我们发现58.2%的测序读长包含了完整的mRNA长度(包括Kozak序列、编码序列和3' UTR)。在断裂的读长中,7%的读长可能是由于不完全转录而在3'端截短。其余序列中的大部分(31.3%)可能是由于RNases降解而在5'端截短。剩余的3.5%的读长显示了3'和5'的截短,可能是由于RNA水解造成的。确定截短片段是在体外转录过程中还是在文库制备过程中形成的,将需要未来疫苗测序标准的发展。短读测序显示出差和不均匀的覆盖率,阻碍了对mRNA长度和完整性的分析(图3a)。这种异质的对齐覆盖率在重复实验间高度可复制(R2 = 0.99,图S8a, b)。这表明长读测序可以在mRNA疫苗的制造、储存或交付过程中提供任何mRNA样本完整性的定量概况。体外转录可以产生非目标RNA,包括截短的、读穿或反义RNA,这些RNA可以引发先天免疫反应,必须去除以确保mRNA疫苗的安全性和有效性。我们使用VAX-seq来表征cDNA文库中的这些断裂和非目标RNA污染物(图4e)。为了允许检测非聚腺苷酸化的RNA、模板DNA和剪切片段,我们在文库制备前对所有RNA的3'末端进行了额外的聚腺苷酸化步骤(见方法),这增加了检测到的非目标读数(图S5e)。大多数序列(92.7%)与目标mRNA产品对齐,很少有读数(0.01%)检测到大肠杆菌污染(图S7a, c)。其余(7.3%)的RNA物种包括不同的非目标RNA。其中,0.3%可能来源于隐秘的转录起始位点(图S11a-c)。在有额外的新生聚腺苷酸化步骤的文库中,检测到更多的假定隐秘转录起始位点,其中转录在聚(A)尾上游终止(图S12)。这些读数可能来源于残留的质粒DNA模板,然而,由于它们在质粒参考序列上非随机对齐,它们可能是错误体外转录的结果。隐秘启动子的影响及其对非目标RNA物种的贡献可以通过DNA足迹法等技术进一步研究。为了比较,我们还使用短读(Illumina)cDNA测序分析了合成mRNA。这种方法使用随机六聚体引物,可以灵敏地检测非聚腺苷酸化的RNA,如截短的或反义RNA(图4e和S7b),这些RNA可能来源于异常转录,启动于聚(A)尾的3'端7。短读测序还检测到了类似的非目标RNA,包括上游(1.4%)和下游(5.7%)序列(图S7c, d)。短读的有义或反义方向分析还允许灵敏地检测约0.6%的反义RNA转录本,这些转录本可以形成扩展的稳定双链RNA(图S7d)。这种间接检测双链RNA的方法可能为双链RNA免疫印迹法提供替代方法,双链RNA免疫印迹法是当前行业标准的双链RNA检测技术(图S7e)。纳米孔测序能够直接测序合成mRNA,无需在文库制备过程中进行逆转录和扩增步骤,并且可以直接分析核苷修饰。我们进行了直接RNA测序(SQK-RNA002),然后进行分析(见“方法”,图4a)。观察到的直接RNA测序文库的产量较低(每个孔的测序产量不到~15%),并且它们目前不能多路复用,如果在mRNA制造过程中进行大规模测序,应考虑这一点(图S9a)。我们首先使用直接RNA测序分析mRNA疫苗的质量,不包括聚(A)尾。直接RNA测序提供了足够质量的一致性序列,但平均错误率(7.78%,由2.61%的错配、5.18%的删除和1.43%的插入造成)高于匹配的cDNA测序(图4b和S9c)。然而,通过将每个核苷酸的错误率与匹配的质粒和cDNA测序进行比较,我们可以区分特定于直接RNA测序的偏差,包括删除低质量聚(A)尾核苷酸(图S9b)。这些聚(A)尾中的删除错误可能导致我们的mRNA长度分析中出现次要峰,然而,使用tailfindr(输入原始纳米孔测序数据)分析聚(A)尾长度纠正了这种人为现象,并估计平均聚(A)尾长度为125.03nt(与预期的126nt长度相比;图4c, d)。图4 | 参考eGFP mRNA疫苗的直接RNA测序。a 直接RNA测序比对结果在基因组浏览器(IGV)中的视图。覆盖度表示每个核苷位置上的读数数量,而下方对齐的灰色条表示独特的、个别的对齐,着色表示它们与参考基因组的相似性。b 直接RNA测序显示了mRNA疫苗和聚(A)尾序列中的错误类型和频率。c 从直接RNA测序测量的mRNA疫苗长度图,显示由于聚(A)尾从读数中人为修剪导致额外的小峰。d 使用tailfindr在三个技术重复的直接RNA测序文库中测量聚(A)尾长度。e chematic diagram显示了VAX-seq工作流程识别的不同mRNA物种、片段大小和污染。源数据提供为“源数据文件”。1.7.通过直接RNA测序检测mRNA疫苗中修饰核苷在mRNA疫苗中加入修饰核苷可以减少先天免疫反应,提高mRNA疫苗的翻译和稳定性。我们对包含N1-甲基假尿苷的mRNA疫苗进行了RNA测序(见“方法”)。我们从修饰的mRNA中制备了短读和长读测序文库。这些文库的产量比匹配的天然mRNA疫苗低(约50%),表明修饰核苷降低了cDNA文库制备的效率(图S9d)。接下来,我们分析了修饰核苷对mRNA质量属性的影响。我们发现,在包含天然尿苷和N1-甲基假尿苷的mRNA之间,cDNA测序错误几乎没有影响,而直接RNA测序显示出更高的错误率(图5a, b)。cDNA和直接RNA测序都表明,修饰的mRNA疫苗包含更多的截短转录本,全长的(41%)较少,截短的mRNA分子更多(54%),特别是长度在500nt以下的(图5c)。使用毛细管电泳比较了包含N1-甲基假尿苷和未修饰碱基的疫苗的转录本大小分布,观察到修饰和未修饰疫苗之间的微小片段大小差异(图S10a, b)。直接RNA测序可以在单个mRNA疫苗分子中检测修饰核苷16。每个核苷的比较显示,直接RNA测序识别N1-甲基假尿苷核苷时存在特征性的基底呼叫错误,将其误分类为胞嘧啶(0.62C/0.38U,图5d, e)。这些是低置信度测量,修饰核苷处的错误率增加到23.6%(11.8%的错配,9%的删除,2.8%的插入),这种删除错误在修饰核苷处的富集导致mRNA长度轮廓的偏移(图5c)。在N1-甲基假尿苷处一致的错误轮廓表明,重新训练基底呼叫器将允许准确检测修饰核苷。图5 | 分析含有改良核苷的参考eGFP mRNA疫苗通过直接RNA测序。a, b 使用直接RNA测序技术对质粒参考进行长读长(ONT)比对的基因组浏览器(IGV)视图,用于制备含有a尿苷和b N1甲基假尿苷的mRNA疫苗。覆盖度表示每个核苷位置上的读数数量,而下方对齐的灰色条表示独特的、个别的对齐,着色表示它们与参考基因组的相似性。直接RNA测序观察到异质性覆盖,可能由于改良mRNA疫苗的片段化。c mRNA长度分析表明,由于片段化和缺失测序错误富集,改良mRNA疫苗的长度更短(n = 4)。d 直接RNA测序显示与尿苷相比,N1-甲基假尿苷在核苷上的典型错误(胞嘧啶,蓝色;尿苷,红色)。e 累积分布图显示N1-甲基假尿苷(红/橙色)与未修饰核苷(蓝/绿色)的每个核苷错误概况。源数据提供为“源数据文件”。制造技术的进步使得在COVID-19大流行期间能够生产数十亿剂mRNA疫苗,具有足够的纯度、质量和安全性。然而,测量mRNA疫苗质量所需的分析方法正在发展中。在这里,我们描述了VAX-seq,这是一种纳米孔长读测序协议,能够测量关键的mRNA质量属性,包括序列身份、完整性和污染。VAX-seq可以在不同的制造步骤中测量mRNA质量,从最初的质粒准备到最终产品的表征,提供单一的、全面的、集成的分析。在我们的研究中,我们评估了一系列不同的长读和短读RNA测序方法,以确定分析mRNA疫苗和疗法的最佳实践工作流程。使用牛津纳米孔化学的全长cDNA测序提供了几个优势。纳米孔cDNA测序足以确认整个mRNA疫苗长度的完整和均匀覆盖的序列身份。这使得能够分析由于降解而产生的全长和断裂的mRNA,这是直接限制有效性的关键mRNA属性24。VAX-seq协议还使用一个3'反向适配器,连接到聚(A)尾端,允许准确测量完整的聚(A)尾长度。额外的聚(A)尾mRNA揭示了多样的非目标读数,可能来源于质粒模板。虽然我们发现cDNA测序比直接RNA测序更可靠,但我们仍然预计直接RNA测序将是分析mRNA疫苗化学成分的有用研究工具,包括修饰核苷的加入。在我们的研究中,我们将VAX-seq与当前的行业标准技术进行了比较,包括色谱法、毛细管和琼脂糖电泳以及免疫印迹法。VAX-seq被证明提供了mRNA特征的定量和敏感测量,为当前推荐的分析技术提供了简化的替代方案。例如,当前的行业标准技术包括用于检测双链RNA的免疫印迹法,以及用于mRNA完整性分析的毛细管电泳和RP-HPLC。VAX-seq提供了反义RNA检测(双链RNA的间接指标)和mRNA完整性分析,以及序列确认,在一个步骤中完成,可以实时进行。这使得在制造后几小时内进行快速测试,以便快速检测质量控制问题,以便快速进行故障排除。完整性和纯度是直接影响其有效性和不良免疫反应的mRNA疫苗的两个关键特征。VAX-seq可以常规检测和表征在体外转录过程中产生的复杂的非目标RNA污染物。同样,长读VAX-seq也可以检测在制造、储存和运输过程中可能发生的mRNA疫苗的剪切或降解。幸运的是,VAX-seq需要很少的mRNA输入,并且可以多路复用,以实现许多疫苗批次的大规模验证,成本可控。COVID-19 mRNA疫苗的最新成功使得对进一步mRNA疫苗和疗法的开发给予了极大的关注和投资。然而,要实现这一潜力,mRNA疫苗必须以所需的质量和纯度制造,以确保其安全性和有效性。在这里,我们展示了RNA测序方法,如VAX-seq,支持新mRNA疫苗和疗法的制造、质量控制和开发的优势。首先设计了一个参考构建体,旨在优化用于临床前研究的RNA治疗药物的生产。选择了eGFP30的编码序列作为编码区域的报告基因,因为其蛋白产物可以通过流式细胞术和其他荧光测量方法简单地检测。转录使用改良的T7启动子(5'-TAATACGACTCACTATAAGG-3')启动,与CleanCap AG试剂(TriLink BioTechnologies)在mRNA IVT期间共转录加帽兼容,5'和3' UTR序列分别从人类α珠蛋白和AESmtRNR1中选择,因为它们对mRNA稳定性和表达的影响。选择了126nt的分段聚(A)尾,因为它预计会减少在质粒传播和克隆过程中大肠杆菌中的质粒重组,而不影响哺乳动物细胞中mRNA的半衰期和翻译效率。我们的构建体被合成并克隆到含有复制起点和卡那霉素抗性基因的pUC57-Kan骨架中(GenScript)。使用热冲击将质粒DNA转化到NEB Stable competent E. coli细胞(NEB, C3040H)。然后在含有30 µg/mL卡那霉素的LB培养基中扩增含有质粒的单个菌落。从2500 mL培养液中收集E. coli,通过离心和碱裂解。然后使用多步骤FPLC纯化超螺旋质粒DNA,首先使用阴离子交换色谱,然后使用脱盐柱,其中缓冲液更换为TE。使用Bsal-HFv2限制酶(NEB, R3733)线性化1 mg超螺旋质粒DNA,产生一个片段,该片段在聚(A)尾末端终止。这种线性化确保了体外转录的延伸,立即终止在聚(A)尾的3'端。线性化后,使用疏水相互作用色谱(HIC)进一步纯化质粒DNA。将线性化质粒DNA用4 M硫酸铵稀释3倍,然后使用HIC纯化以去除其他异构体的质粒DNA。与线性质粒DNA对应的合并部分在脱盐柱上使用TE缓冲液进行缓冲液交换,以去除硫酸铵。使用异丙醇沉淀将纯化的线性质粒DNA浓缩至大约500 ng/µL的浓度。我们使用一系列不同的分析方法评估了我们线性化质粒模板的长度和纯度。首先,将线性化质粒的大小分布与超螺旋质粒进行比较,使用琼脂糖凝胶电泳。这允许分析制备中线性化质粒的比例。其次,通过HPLC使用CIMac™分析超螺旋和线性化质粒DNA的纯度。pDNA在0.3 mL(1.4 mm)二乙基氨基乙基(DEAE)弱阴离子交换柱(BIA Separations, Adjovščina, Slovenia)上进行分析,该柱连接到PATfix®分析HPLC系统(Sartorius, Goettingen, Germany)。HPLC使用流动相缓冲液A(0.1 M Tris, 0.3 M Guanidine-HCl, 1% Tween-20(w/v), pH 8.0)和缓冲液B(0.1 M Tris, 0.3 M Guanidine-HCl, 0.7 M NaCl, 1% Tween-20(w/v), pH 8.0)进行。Oxford Nanopore 测序被用来测量质粒模板制备的准确性和纯度。连接测序文库(SQK-LSK109)是从线性化的质粒模板(上文描述)中制备的,并被标记为无PCR本征条码(EXP-NBD104)。根据制造商的说明(Oxford Nanopore Technologies),使用2 µg模板作为输入,而不是推荐的1 µg。在Qubit仪器(Invitrogen)上对结果文库进行定量,使用dsDNA HS试剂盒,并使用D5000 ScreenTapes(Agilent Technologies, USA)完成片段长度分布的定性分析。定量和定性分析的结果被用来计算合并和加载所需的文库浓度。标记的文库在R9.4.1(FLO-MIN106D)或Flongle Flow Cells上进行测序,启用高精度实时基底呼叫(Guppy v5.1.13和MinKNOW Core 4.5.4)。所有质量评分大于9的纳米孔读数被用来形成一个连接的FASTQ文件,并进行进一步分析。3.3.Oxford Nanopore 质粒测序的生物信息学分析首先,使用Porechop v0.2.4去除条码。然后使用定制的流程映射和分析Oxford Nanopore pDNA测序数据。质量过滤后的连接FASTQ读数通过Minimap2(版本2.20-r1064)与质粒参考序列对齐,使用-ax map-ont针对Nanopore34。通过SAMtools v1.15处理得到的SAM对齐文件,生成排序和索引的BAM文件,以及其他各种映射分析文件。生成的BAM文件使用Integrative Genomics Viewer(IGV v2.12.3)进行查看和分析。通过NanoPlot v1.38.1和pycoQC v v2.5.237,38获取进一步的运行和样本质量统计数据。相对于参考索引序列,使用pysamstats v 1.1.2确定映射读数的每个核苷酸的错误概况,选项为--max-depth=300000000 --FASTA --type variation(https:// github.com/alimanfoo/pysamstats)。为了执行简单的错误校正,从cDNA/dRNA序列中对应的核苷酸中减去质粒序列的每个核苷酸的错误概况。绘图和统计分析使用Excel(Mac上的v 16.67)和GraphPad Prism(Mac上的v 9.3.1)软件进行。为了调查未映射读数的内容是否有可能的污染,通过SAMtools(v1.15)使用SAMtools view -S -b -f 4生成未映射读数的BAM文件,并通过SAMtools FASTA将其转换为FASTA文件。然后使用Minimap2将此FASTA文件与E.coli参考序列对齐,然后生成排序和索引的BAM文件和对齐统计数据,如前所述。使用基本局部比对搜索工具(BLAST)核苷酸收藏nr/nt调查未与E.coli参考序列对齐的读数的序列同源性,由国家生物技术信息中心提供。使用bcftools(v1.15)完成变体调用和共识序列生成,将BAM文件与参考序列进行比较并生成VCF;bcftools mpileup -d 300000000 --no-BAQ --min-BQ 0 -Ou -f | bcftools call -c -M --ploidy 1 -Oz -o *.vcf.gz。生成的VCF被索引并标准化到参考序列,并生成一个BCF。使用命令bcftools consensus和选项-a生成consensus.fa序列,以替换VCF中缺失的位置(零覆盖度)为一个字符。接下来,在Illumina MiSeq仪器上对质粒DNA模板进行测序。根据制造商的说明(Illumina),从用于ONT测序的相同线性化质粒模板中制备条码化的Illumina DNA无PCR文库。在澳大利亚基因组研究设施使用v2化学试剂对结果文库进行测序,设置为150碱基配对末端。在Illumina MiSeq上生成的BCL文件使用Illumina DRAGEN BCL Convert 07.021.609.3.9.3管道处理,生成FASTQ.gz文件。使用FastQC(v0.11.9)检查这些文件中读数的质量。然后使用TrimGalore(v0.6.8dev)进行适配器和质量修剪,创建通过Q20阈值39的FASTQ.gz文件。使用--stranded_illumina --paired从Illumina PCR-Free文库中修剪适配器。此外,使用--clip_r1 1 --clip_r2 1从Illumina有义mRNA文库中移除T过hang。使用FastQC检查结果修剪后的文件,然后使用BWA-MEM(bwa-0.7.17-r1188)对齐到索引的质粒参考文件。通过体外转录(IVT)使用T7 RNA聚合酶,按照Henderson等人41描述的协议和制造商的说明(NEB, E2080S)生产带有修饰核苷酸的加帽mRNA。简要地说,使用50 µg/mL纯化的线性质粒DNA作为IVT反应的模板,在32 °C下进行3小时的反应,使用16 µg/mL T7 RNA聚合酶(NEB M0251),核糖核苷酸(6 mM ATP,5 mM CTP,5 mM GTP;NEB, N0450),5 mM N1-甲基假尿苷-5’-三磷酸(TriLink BioTechnologies, TRN108110),或5 mM UTP用于匹配的未修饰对照,转录缓冲液(40 mM Tris·HCl pH 8.0,16.5 mM乙酸镁,10 mM二硫苏糖醇(DTT),20 mM亚精胺,0.002%(v/v)Triton X-100),2 U/mL酵母无机焦磷酸酶(NEB, M2403)和1000 U/mL小鼠RNase抑制剂(NEB, M0314)。Cap1类似物通过添加4 mM CleanCap AG试剂(TriLink, TRN711310)到反应中,共转录地结合到mRNA 5’端。通过添加200单位DNaseI(NEB, M0303)到每毫升IVT反应中,并在37 °C下孵化15分钟,停止mRNA IVT反应。使用Monarch RNA清洁套件(NEB, T2050)根据制造商的说明进行mRNA纯化,最终在蒸馏超纯水(ThermoFisher Scientific, 10977015)中洗脱。我们使用一系列不同的分析方法评估了IVT mRNA的产量、长度和纯度。使用NanoPhotometer N120(Implen)进行UV光谱光度分析对mRNA进行定量,使用TapeStation电泳和RNA ScreenTapes(Agilent Technologies, USA, 5067-5576)评估大小分布。将IVT mRNA样品稀释在无核酸酶的水中,最终浓度为200、500、1000和2000 ng/μL。从稀释的样品中,取5 μL的等分,加载到正电荷尼龙膜(Roche, Basel, Switzerland)上,这导致每个印迹上分别加载了1000、2500、5000和10000 ng的IVT mRNA样品。在内部制造dsRNA作为阳性对照,无核酸酶的水用于阴性对照。样品按照制造商的说明加载到Bio-Dot®微滤装置(BioRad, CA, USA)上。膜被空气干燥,然后通过浸泡和孵化用含有5%无脂干奶的阻断缓冲液在TBS-T(50 mM Tris-HCl,150 mM NaCl,0.05% Tween(w/v))中在室温下孵化1小时并摇动。为了检测dsRNA,膜在4 °C下与两种不同的dsRNA特异性小鼠单克隆抗体(mAb)孵化过夜,这些抗体来源于克隆3G1和2G4(Mozzy Mabs, Brisbane, Australia)。两种抗体分别在1:5稀释度下孵化过夜,稀释在孵化缓冲液(1%无脂干奶在TBS-T中)。然后膜被冲洗3次,然后用TBS-T洗3次,每次15分钟。然后膜与辣根过氧化物酶(HRP)偶联的山羊抗小鼠免疫球蛋白G(IgG)二抗(Abclonal, MA, USA)在1:5000稀释度下孵化,稀释在孵化缓冲液中,孵化1小时并摇动。然后膜被冲洗3次,然后用TBS-T洗3次,每次15分钟。使用Novex™ ECL化学发光底物试剂盒(Invitrogen, MA, USA)进行化学发光检测,使用 Novex™ ECL 化学发光底物试剂盒进行(Invitrogen, MA, USA) 和点的信号强度为使用 ChemiDoc MP 成像系统(Bio-Rad,CA,USA)进行可视化。cDNA-PCR 测序被用来确定 IVT mRNAs 的准确性和纯度。首先,使用 Qubit RNA BR 试剂盒(ThermoFisher Scientific)计算 mRNA 浓度。将 mRNA 稀释在无核酸酶的水中,达到文库制备的适当浓度(约1 ng/µL),并使用 Qubit RNA HS 试剂盒(ThermoFisher)确认浓度。根据制造商的说明(Oxford Nanopore Technologies),准备条码化的 ONT cDNA-PCR 文库(SQK-PCB109 和 SQK-PCS111),但有以下例外:在 cDNA 合成步骤中通过测量反应体积评估蒸发,并在适当的情况下用无核酸酶的水补充。cDNA 被放大 14-16 个周期(推荐为 14-18 个周期)。最后,文库在 8 µL 的洗脱缓冲液中洗脱(而不是推荐的 12 µL 体积),以提高文库的最终浓度。这是必要的,因为与用未修饰碱基制备的文库相比,用含修饰碱基的模板制备的文库似乎产生更低的输出文库。通过 Qubit 仪器(Invitrogen)和 dsDNA HS 试剂盒(ThermoFisher Scientific)对结果文库进行定量,使用 D5000 ScreenTapes(Agilent Technologies, USA)进行片段长度分布的定性分析。定量和定性分析的结果被用来调整合并和加载的文库浓度。多达 10 个条码化的文库在每个 R9.4.1(FLO-MIN106D)Flow Cell 上进行测序,启用高精度实时基底呼叫(Guppy v5.1.13 和 MinKNOW Core 4.5.4)。所有质量评分大于 9 的纳米孔读数被分配为通过,并进行进一步分析。3.8.ONT cDNA-PCR 测序的生物信息学分析cDNA-PCR 数据的分析如上所述的 ONT pDNA 测序进行(见上文)。此外,还进行了以下分析。为了识别包含 SSP 和 VNP 引物的正确方向的全长 FASTQ 转录本,使用了工具 pychopper(v.2.5.0)(使用默认参数)。然后修剪这些适配器,并生成新的 FASTQ 文件。从挽救和全长文件夹中合并修剪后的读数,这些读数如上所述使用 Minimap2 映射到质粒参考序列。还如上所述生成了 BAM 文件,这些文件被用来分析 cDNA 读数长度。使用 SAMtools(v1.15)和 SAMtools view -F 2048 从 BAM 文件中提取主要对齐读数的读数长度分布。使用 GraphPad Prism(Mac 上的 v9.4.1)软件进行绘图和统计分析,为每个样本创建读数长度分布图。接下来,我们分析了 cDNA-PCR 数据集中的靶向读数比例(即正确转录并可能被翻译成功能性蛋白的读数)。首先,使用 BEDtools(v2.27.1)intersect 分析排序的 BAM 文件,识别靶向和非靶向读数的比例。生成 BED 文件,指示包括 Kozak 序列起始和 3' UTR 结束的目标坐标。如果读数与起始和停止坐标重叠,则被归类为靶向,生成 BAM 文件;所有其他读数被归类为非靶向。根据起始或停止坐标重叠进一步筛选非靶向读数,表明 3' 或 5' 降解。生成的 BAM 文件使用 Integrative Genomics Viewer(IGV v2.12.3)进行查看和分析。如前所述,完成 mRNA 编码区域的变体调用和共识序列生成,但也使用选项 --targets 限制对上述指定的起始和停止坐标的堆叠。3.9.使用 ONT cDNA-PCR 测序计算 poly(A) 尾长度从锚定 oligo dT 引物到 3' 端的 cDNA-PCR 数据(SQK PCS111)中估计 poly(A) 尾长度,并使用 tailfindr(v1.3)使用 Kraus 等人 描述的协议。简要地说,输入未对齐的 FAST5 文件,然后将其分割成测序适配器、夹子适配器、poly(A) 尾和基因体。然后根据孔道穿越时间的估计计算 poly(A) 尾长度。从原始 cDNA-PCR 试剂盒(SQK PCB109)和更新版本(SQK PCS111)生成的 Fast5 文件中估计 poly(A) 尾长度。在这里,两个试剂盒的 Fast5 文件都使用高精度进行 basecalled,使用以下配置 dna_r9.4.1_450bps_hac.cfg(Guppy v5.1.13 和 MinKNOW Core 4.5.4)。然后,使用默认设置 运行 tailfindr(v1.3)的 find_tails 功能。从 SQK PCB109 试剂盒生成的 Fast5 文件需要指定自定义 cDNA 5'(TTTCTGTTGGTGCTGATATTGCT)和 3'(ACTTGCCTGTCGCTCTATCTTC)引物详细信息以启用估计。从用于 ONT 测序的相同 IVT mRNA 模板中制备条码化的 Illumina 有义 mRNA 文库,根据制造商的说明(Illumina)。结果文库与质粒 DNA 文库多重混合,并在澳大利亚基因组研究设施的 MiSeq 仪器上使用 v2 化学试剂进行测序,设置为 150 碱基配对末端。Illumina cDNA 测序数据的修剪和映射遵循上述 Illumina pDNA 测序的流程。为 ONT 测序描述的映射统计、每个核苷酸错误计算、变体调用、共识序列生成和未映射读数分析。对于在 Illumina 平台上测序的样本,由于读数长度短,通过不同方法计算靶向和非靶向读数。使用 SAMtools(v1.15)和命令 SAMtools view(各种坐标)提取参考 mRNA 编码区域下游和上游的读数,并生成相应的 BAM 文件。使用 SAMtools flagstat 计算这些 BAM 文件中包含的主要读数,并将此数字与总主要读数进行比较,以计算靶向读数数量。为了识别反义读数,我们使用 SAMtools view 分离来自正向(正链第二对,-b -f 128 -F 16 和反向链第一对,-b -f 80)或反向链(如果它们映射到反向链的第二对,-b -f 144 和如果它们映射到正向链的第一对,-b -f 64 -F 16)的读数。来自反向链的读数被指定为反义读数。为了检测合成 RNA 中缺乏 poly(A) 尾的片段,我们酶促地向我们的 eGFP mRNA 添加了 poly(A) 尾。这是根据 Oxford Nanopore 协议准备的,使用 E. coli Poly(A) 聚合酶。简要地说,高达 10 µg 的 RNA 与 NEB E. coli Poly(A) 聚合酶(M0276)和 1 mM ATP 一起孵化 1.5 分钟。使用 EDTA(最终浓度为 10 mM)停止反应,最终体积为 25 µL。然后使用 72 µL 的 Agencourt RNAClean XP 珠子(Beckman Coulter A63987)清理带有 poly(A) 尾的 RNA,并在 12 µL 的无核酸酶水中洗脱。然后使用 Qubit BR 或 HS RNA 试剂盒(取决于反应中输入的 RNA 量)对洗脱液进行定量。然后使用适当量的 RNA 作为 SQK-PCB109 或 SQK-RNA002 文库制备的模板。如上所述准备和测序文库。直接RNA测序被用来确定IVT mRNAs的准确性和纯度。根据制造商的说明(牛津纳米孔技术),使用ONT SQK-RNA002试剂盒准备文库,但有以下例外。首先,使用400 ng模板来准备每个文库,而不是ONT直接RNA测序协议中推荐的500或50 ng。我们采用了cDNA合成步骤,这提高了模板的稳定性。此外,我们使用了Superscript IV,而不是推荐的Superscript III,因为它的效率更高。使用ThermoFisher Scientific的Qubit RNA BR试剂盒对文库进行了定量。每个文库在单独的R9.4.1(FLO-MIN106D)流动池上进行了72小时的测序。稍后,使用高准确性配置文件rna_r9.4.1_70bps_hac.cfg(Guppy v5.1.13)对Fast5文件进行了基调用。所有质量评分大于9的纳米孔读取被归为通过,并进行进一步分析。直接RNA测序数据的分析与cDNA相同,但使用Pychopper进行条形码检测,以及目标和非目标检测计算除外。此外,按照SQK PCS111文库(上文)的描述进行了聚(A)尾长度计算。接下来,从直接RNA测序数据(SQK-RNA002)中估算聚(A)尾长度。使用tailfindr(v1.3)估算聚(A)尾长度,使用Kraus等人描述的协议。tailfindr(v1.3)利用Fast5文件估算尾长度,该工具最初在与Nanopolish v0.13.3 poly(A)相同的直接RNA数据集上运行。在比较估算的聚(A)尾长度后,进一步分析了样本。tailfindr以默认设置运行,生成.tsv文件作为输出。这个.tsv文件通过自定义R脚本进行了查询,生成了每个读取估算的聚(A)尾长度的密度图。
本文中的数据主要是概念验证,范围从n = 1到n = 4。有关实验复制的详细信息包含在各个结果部分。没有使用统计方法来预先确定样本大小。分析中没有排除任何数据。实验没有随机化,因为模板质量是测序质量最重要的决定因素,而不是任何替代的共变量。在实验和结果评估期间,研究人员没有对分配进行盲测,因为知道样本身份不太可能影响结果的解释。