Genome Bio|山东大学团队开发纳米孔测序barcode设计选择工具——TDFPS-Designer

文摘   2024-11-05 07:51   江苏  


纳米孔测序(ONT)在多个研究领域中得到广泛应用,如基因组组装转录组组装甲基化研究变识别为了高效利用测序能力并降低成本,可以通过将多个DNA/RNA样本与独特条形码整合来进行同步测序。排序后,解多路复用用于根据相应条形码对序列进行分类。为了解决这一问题,近年来引入了如DeepBinner和DeePlexiCon等方法,这些方法利用卷积神经网络(CNN)直接处理纳米孔信号进行解多路复用,改进了传统的基于序列的工具。然而,这些方法未探索哪些条形码在解多路复用中最为有效。

目前,ONT提供的条形码套件支持多达96个样本的同时测序,随着样本数量的增加,大容量样本的测序需要额外的策略。直接解决方案是设计专用条形码,以实现高效和准确的解多路复用。条形码设计可被视为一个纠错编码设计问题,该领域的相关理论自20世纪70年代以来不断发展。为满足高吞吐量的测序需求,哈明代码和里德-索罗门代码已应用于DNA条形码设计。研究人员开发了新条形码套件,并提出用于确定序列相似度的算法和实验验证的条形码方案。这些设计假定错误率较低,但对于误差较高的第三代测序数据,这些方案可能并不适用。

在纳米孔测序中,有研究采用进化模型设计条形码以保证信号差异性,并利用CNN进行解多路复用。然而,这些方法并未超越现有条形码套件的容量,限制了其在大样本量测序中的应用。条形码设计需满足大容量和高序列差异两个原则。对于ONT数据,差异可基于原始电流信号或碱基进行测量。尽管编辑距离可以有效衡量相似度,单靠其可能导致数据损失。为提高编辑距离,一些方法引入了质量分数,以便在排序后解释基数的正确排序概率。此类质量感知方法已在序列纠错和解多路复用中使用。

信号方法已被广泛应用于纳米孔数据分析,大多基于动态时间扭曲(DTW)算法来比较信号差异。DTW方法类似于概率方法在NGS中解释替换误差,能通过直接比较原始信号来应对误差。

近日,山东大学韩仁敏课题组在Genome Biology期刊上发表了题为「TDFPS-Designer: an efficient toolkit for barcode design and selection in nanopore sequencing」的研究文章。在本研究中,提出了一个基于TDFPS-Designer的条形码设计器,通过减少DTW最远点采样算法的采样空间,在纳米孔测序中实现准确的解多路复用。该方法在序列空间内选择条形码,并设计了解多路复用策略以确保样本标签的准确分配。实验表明,与随机选择的条形码和官方策略相比,该方法设计的条形码在解多路复用精度上具有显著优势,特别是在高误差率的大容量样本中实现了较高的召回率,提供了有效的解多路复用替代方案。

在纳米孔测序中,将多个样本进行汇集测序有助于节省时间和成本。然而,从混合样本中分离原始数据的过程颇具挑战,条形码在此过程中至关重要。ONT提供的条形码套件支持最多96个样本的同步测序。为实现更大规模样本的同步测序,我们提出了TDFPS-Designer,这是一种基于TDFPS算法的条形码设计新工具。该算法改进了最远点采样算法,采用DTW距离作为测量标准,并通过设定阈值来优化采样空间。借助此算法,TDFPS-Designer在序列空间中挑选出足够不同的序列,以构建不同长度的条形码集。

TDFPS-Designer具备高效的解多路复用策略,基于DTW距离矩阵直接实现解多路复用,确保所有条形码的F1得分超过95%。此外,TDFPS-Designer采用GPU加速机制,大大提升了解多路复用和条形码设计的效率。

尽管目前Guppy被视为解多路复用的先进工具,但实验表明其在排序中易出现错误。相比之下,我们的方法成功克服了这一局限,为用户提供了可靠的解多路复用解决方案,适用于多样本处理需求。我们提出的条形码设计策略不仅能够扩展条形码数量,还能保持稳定的解多路复用性能,这表明TDFPS-Designer具有广阔的发展前景。为进一步提升其性能,我们计划探索更精确的条形码提取策略,以提高解多路复用的准确度,这是我们未来工作的重点。

原文链接:

https://doi.org/10.1186/s13059-024-03423-3



- 转载须知 -


本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





喜欢就点个 在看 吧 : )



X Omics
生物科学与计算机科学的完美碰撞,激发出探索世界的全新视角,让我们一起探索生命科学的新纪元!合作交流:xomics1@gmail.com
 最新文章