深度学习增强指导crRNA设计用于基于CRISPR/Cas12a的体外诊断
文摘
科学
2024-09-13 10:35
浙江
快速和准确的诊断检测是改善患者治疗结果和防治传染病的基础。基于Cas12a的聚类规则间隔短回文重复序列(CRISPR)检测系统已成为现场核酸检测的一种有前途的解决方案。设计有效的CRISPR RNA(crRNA)对于CRISPR/Cas的诊断系统至关重要,其改善了crRNAs与其靶序列的配对,减少了脱靶效应,提高了整体效率。然而,目前的设计需要确定一个原间隔器相邻基序(PAM)序列,并进行特异性和灵敏度测试,不仅耗时且昂贵的,同时可能受到个人经验的影响。深度学习已经成为CRISPR的基因组编辑系统设计crRNAs的强大工具。通过将卷积神经网络(CNNs)和循环神经网络(RNNs)在实验验证的crRNAs的大型数据集上进行训练,该工具在预测crRNA的活性和特异性方面表现出优越的性能。基于此,中国农业科学院深圳农业基因组研究所王鑫杰、军事科学院军事医学研究院生物信息中心王升启团队开发了一种名为EasyDesign的深度学习模型,以促进基于Cas12a的检测快速高效的crRNA设计。此外还创建了一个在线平台(https://crispr.zhejianglab.com/)的EasyDesign,集成了RPA引物设计,便于使用。成果以“Deep learning enhancing guide RNA design for CRISPR/Cas12a‐based diagnostics”为题发表于iMeta。1. 数据特征建模及模型评价方法
研究人员的研究包括数据采集、模型训练和验证阶段(图1A)。(1)为了开发深度学习模型的训练数据集,研究人员制备了高质量的Cas12a crRNA序列并进行了相应的荧光检测。研究人员设计了针对多种致病性核酸序列的crRNA,涵盖了世界卫生组织(WHO)和世界动物卫生组织(WOAH)列出的主要病原体,尤其是对公共卫生具有威的动物源性病原体。然后,研究人员采用先前建立的荧光CRISPR方法,使用微孔板读取器进行荧光检测。由此产生的荧光读数,连同DNA和crRNA序列,形成了训练数据集。(2)训练和评估深度学习模型,包括CNN、Transformer和增强版。挑选出在预测crRNA活性方面表现出最高斯皮尔曼等级相关系数(ρ)的模型,用于随后对未见过的核酸数据进行模型验证。模型预测结果与实验结果的一致性证明了模型的鲁棒性和可靠性。2. 高质量的crRNA介导Cas12a检测数据集
为了建立一个真实数据的诊断实践训练数据集,研究人员设计了1533种crRNA,靶向34种天然细菌和病毒病原体,涵盖了世界卫生组织和世界卫生组织确定的常见病原体。研究人员将随机突变引入到原始病原体模板中,以解释这些病原体中固有的频繁进化突变,从而产生198个DNA模板。随后,研究人员采用crRNA介导的Cas12a检测方法,如前所述,在2小时的实验中每隔2分钟收集一次荧光读数,以评估crRNA文库的反应性(图1B)。研究人员选择在30分钟标记处获得的11496个荧光读数作为训练数据集。生成的指南与目标对包括7783对来自病毒源和3713对来自细菌源。其中5275对是人畜共患病原体,1380对是人类病原体,4841对是动物病原体(图1C)。为了确保生成的导引导与目标对的质量,研究人员进一步分析了这些数集中的错配,分别鉴定出3063对没有错配,7939对有单碱基错配,494对有两碱基错配。所有导靶对的平均失配为0.766,表明野生型和突变型对的混合是合理的,反映了自然突变的概率(图1D)。随后,研究人员检查了所有导靶对中碱基的分布,并观察到碱基类型的均匀分布(图1E-H)。在所有包含错配的引导目标对中,碱基突变类型没有显着差异(图1M)。对于所有crRNA,PAM下游21个位置的碱基类型分布保持相对一致(图1N)。在数据集中,研究人员验证了高度不匹配导致活动减少。这一发现支持了生成高错配数据可以改善模型训练的概念。从机制上讲,在crRNA的5'端存在poly(T)似乎与反应性降低有关。正如预期的那样,数据表明当PAM (TTTN)中的“N”为“T”时,活性显著降低,进一步证明“TT”的活性低于TA、TC和TG。此外,没有错配的靶对比不匹配的靶对表现出明显更高的活性。此外,PAM序列中“N”的突变对活性没有明显影响。这些特征进一步支持了研究人员训练数据的通用性。在这些质量检查之后,引导与目标对和相应的荧光数据构成了用于训练深度学习模型的数据集,包括训练数据、增强数据和测试数据。
图1 用于深度学习模型训练的基于Cas12a的crRNA数据集的准备和评估(A)数据采集、模型训练和验证阶段;(B)CRISPR荧光法数据采集;(C)数据集中错配数量的分布;(D)训练数据集中病原体的分布特征;(E)-(H)碱基类型分布;(I)-(M)靶对突变类型(N)GC含量的分布。
3. 开发高效crRNA设计的深度学习模型
训练深度学习模型包括数据处理、模型选择、训练和验证四步流程(图2A)。首先,研究人员使用one-hot(2D)编码作为基编码。然后,研究人员测试了两种CNN衍生(CNND)和Transformer衍生(TransformerD)的模型。研究人员进一步训练了两个模型,即CNN12a和Transformer12a,通过使CNND和TransformerD模型适应Cas12a诊断场景。最后,利用最优模型预测crRNA的活性。在crRNA候选设计过程中,研究人员对PAM靶序列(TTTN)进行了迭代搜索,随后提取了PAM位点下游的21个核苷酸序列。为了考虑周围序列的潜在影响,研究人员在靶标的5'和3'端将crRNA额外延长了10个核苷酸,从而得到45个核苷酸的靶标序列(图2B)。将11496个荧光读数数据集分为10634对的训练集和862对的单独测试集,并规定测试集排除训练集中使用的目标序列。CNN和Transformer模型是基于先前的crRNA效率预测,在Cas12a检测数据集上进行训练的。使用测试集对所有四个训练好的模型进行评估。值得注意的是,针对Cas12a特征量身定制的CNN12a和Transformer12a模型产生了更高的Spearman等级相关系数(ρ值分别为0.656和0.541),其性能优于CNND和TransformerD模型(ρ值分别为0.620和0.532,图2C)。研究人员在训练过程中实现了数据增强,以进一步提高模型的性能。具体来说,研究人员使用了20分钟和30分钟的读数,并将其归一化,以创建一个扩增数据集,其中包含31993对靶对。然后使用该增强数据集训练CNN12a和Transformer12a模型,分别得到CNN12ae和Transformer12ae模型。在使用测试集进行评估后,研究人员发现CNN12ae比CNN12a模型(Spearmanρ=0.673)取得了更好的性能,并且也优于Transformer12ae(ρ=0.467)(图2C)。值得注意的是,CNN12ae在一个更大的测试集上取得了更好的性能(Spearmanρ=0.812),该测试集包括原始测试数据和另外30%的高不匹配的导向对目标对。研究人员对预测值进行核密度估计和实际活度分析,以评估CNN12ae和其他模型在hold-out测试中的性能。研究人员发现,与其他模型相比,CNN12ae显示出具有不同活动水平的不同区域(图2D)。值得注意的是,CNN12ae在低值区域表现出优越的性能(图2E)。此外,研究人员对CNN12ae模型的分类性能进行了评估,其AUC值为0.8247,p值<0.0001,表明其分类能力较强(图2F)。研究人员发现CNN12ae的预测性能在病毒对(0.66)和细菌对(0.69)中基本一致,支持模型的泛化特性。此外,CNN12ae在33351个数据点的数据集上使用五倍交叉验证方法进行评估,确保在训练集和测试集之间严格分离目标RNA序列,以防止数据泄漏。每一个五倍,包含26952个训练数据点和6399个测试数据点,经历了450次训练。模型有效性通过Spearman’s和Pearson’s相关系数来衡量,Spearman’s值为0.8038、0.8267、0.7962、0.7939和0.8481,Pearson’s值为0.7103、0.7399、0.7202、0.6649和0.7878。这些一致且高度相关的系数表明,该模型具有强大的通用性,表明其在各自领域具有准确预测的潜力。因此,研究人员选择了CNN12ae模型来进一步设计Cas12a介导的crRNA。
图2 开发和评估适用于Cas12a诊断设计的深度学习模型(A)深度学习模型流程图;(B)模型的性能比较;(C)单热编码;(D)CNN12ae真值和预测值的核密度估计;(E)预测值四分位数的真实活动密度图;(F)CNN12ae的hold-out测试集的受试者工作特征曲线。
4. EasyDesign在病原核酸检测中的应用评价
为了验证所建立模型的适用性,研究人员进行了crRNA活性实验,EasyDesign预测了4个致病核酸序列的crRNA排序(图3A),共194个crRNA。这些序列包括MPXV,一种导致最近疫情的病原体;导致儿童严重手足口病的EV71和CV-A16;单核细胞增生乳杆菌,一种已知可引起人类严重疾病的食源性细菌病原体。在四种病原体的crRNA候选集中,研究人员发现深度学习模型预测的crRNA与实验验证的基本事实crRNA之间存在一致性,每种病原体的前10个crRNA分别有7、4、4和3个crRNA符合(图3B);而前20种crRNA分别为16、15、13和11个相符。这些结果表明,该模型可以有效地从有限数量的预测候选者中识别出高反应性的crRNA进行实验分析,显著降低了筛选强度。此外,研究人员的实验结果表明,深度学习模型生成的预测crRNA与报道的定量聚合酶链反应(qPCR)位点具有相同或更高的反应性,特别是在目标DNA浓度为109拷贝/反应时(图3C-F)。值得注意的是,当使用较低的DNA模板浓度(108拷贝/反应)时,crRNA活性排名的变化总体上与预期一致,尽管略有变化。这些发现表明EasyDesign可以预测具有高活性的crRNA,为crRNA的高效选择提供有价值的见解。
图3 验证EasyDesign对四种病原体的性能(A)EasyDesign通过病原体模板对比筛选试验验证的流程图;(B)实验检测到的顶级crRNA数量与EasyDesign预测的顶级crRNA数量的比较;(C)-(F)实验CRISPR荧光与EasyDesign预测的crRNA活性比较分析。
5. 用户友好的web工具,用于端到端Cas12a诊断设计
为了提高Cas12a诊断开发的效率,研究人员创建了一个在线服务EasyDesign,可以访问https://crispr.zhejianglab.com/。该平台提供了全面的Cas12a的诊断设计经验,无缝集成了RPA引物设计,促进了使用推荐的crRNA和RPA引物的RPA-CRISPR分析的开发(图4A)。网络平台用户界面友好,可指导用户完成工作流程的每一步,包括序列输入,参数选择和crRNA设计输出。EasyDesign提供了注释设计可视化,阐明了crRNA和引物与目标序列的相互作用。6. EasyDesign促进HPV临床样本诊断
为了评估EasyDesign的有效性,研究人员使用EasyDesign为6个临床样本设计了RPA-CRISPR检测HPV亚型,包括HPV6、HPV11、HPV16、HPV18、HPV31、HPV33亚型。对EasyDesign生成的六种HPV亚型分别合成最佳crRNA和推荐RPA引物(图4B)。利用研究人员在线服务器提供的输入模板DNA序列和候选crRNA与RPA引物的组合,研究人员实现了对HPV合成DNA模板的鲁棒荧光检测信号(图4C-H)。在检测不同亚型的临床样本时,研究人员观察到所有5种候选crRNA都有显著的荧光信号(图4I-N),表明EasyDesign的有效性。虽然EasyDesign能够准确预测高活性crRNA,但它可以通过在线服务促进全球研究界基于Cas12a的检测的发展。
图4 通过EasyDesign网络服务器进行HPV临床样本检测设计(A)基于web的EasyDesign平台流程图;(B)基于web的设计界面展示;(C)-(H)使用合成DNA模板的六种人乳头瘤病毒荧光检测动力学曲线;(I)-(N)在30分钟的潜伏期后获得代表六种HPV亚型的临床样本的荧光检测结果。
总之,研究人员开发了一种名为EasyDesign的深度学习模型,以促进基于Cas12a的检测快速高效的crRNA设计。此外,研究人员还创建了一个在线平台(https://crispr.zhejianglab.com/)的EasyDesign,集成了RPA引物设计,便于使用。这有可能加速基于Cas12a的技术的开发和应用。在公共卫生领域,EasyDesign是一种快速且易于使用的方法,将帮助公共卫生官员制定有效的策略来控制和预防疾病的传播。
注:该文为最新科研动态新闻报道,如与原文作者有原创冲突,可与本公众号作者联系删除。
[1] Deep learning enhancing guide RNA design for CRISPR/Cas12a‐based diagnostics. .iMeta, 2024, 3(4): 1456.