目前,ONT提供的条形码套件支持多达96个样本的同时测序,随着样本数量的增加,大容量样本的测序需要额外的策略。直接解决方案是设计专用条形码,以实现高效和准确的解多路复用。条形码设计可被视为一个纠错编码设计问题,该领域的相关理论自20世纪70年代以来不断发展。为满足高吞吐量的测序需求,哈明代码和里德-索罗门代码已应用于DNA条形码设计。研究人员开发了新条形码套件,并提出用于确定序列相似度的算法和实验验证的条形码方案。这些设计假定错误率较低,但对于误差较高的第三代测序数据,这些方案可能并不适用。
在纳米孔测序中,有研究采用进化模型设计条形码以保证信号差异性,并利用CNN进行解多路复用。然而,这些方法并未超越现有条形码套件的容量,限制了其在大样本量测序中的应用。条形码设计需满足大容量和高序列差异两个原则。对于ONT数据,差异可基于原始电流信号或碱基进行测量。尽管编辑距离可以有效衡量相似度,单靠其可能导致数据损失。为提高编辑距离,一些方法引入了质量分数,以便在排序后解释基数的正确排序概率。此类质量感知方法已在序列纠错和解多路复用中使用。
信号方法已被广泛应用于纳米孔数据分析,大多基于动态时间扭曲(DTW)算法来比较信号差异。DTW方法类似于概率方法在NGS中解释替换误差,能通过直接比较原始信号来应对误差。
在纳米孔测序中,将多个样本进行汇集测序有助于节省时间和成本。然而,从混合样本中分离原始数据的过程颇具挑战,条形码在此过程中至关重要。ONT提供的条形码套件支持最多96个样本的同步测序。为实现更大规模样本的同步测序,我们提出了TDFPS-Designer,这是一种基于TDFPS算法的条形码设计新工具。该算法改进了最远点采样算法,采用DTW距离作为测量标准,并通过设定阈值来优化采样空间。借助此算法,TDFPS-Designer在序列空间中挑选出足够不同的序列,以构建不同长度的条形码集。
TDFPS-Designer具备高效的解多路复用策略,基于DTW距离矩阵直接实现解多路复用,确保所有条形码的F1得分超过95%。此外,TDFPS-Designer采用GPU加速机制,大大提升了解多路复用和条形码设计的效率。
尽管目前Guppy被视为解多路复用的先进工具,但实验表明其在排序中易出现错误。相比之下,我们的方法成功克服了这一局限,为用户提供了可靠的解多路复用解决方案,适用于多样本处理需求。我们提出的条形码设计策略不仅能够扩展条形码数量,还能保持稳定的解多路复用性能,这表明TDFPS-Designer具有广阔的发展前景。为进一步提升其性能,我们计划探索更精确的条形码提取策略,以提高解多路复用的准确度,这是我们未来工作的重点。
原文链接:
https://doi.org/10.1186/s13059-024-03423-3
- 转载须知 -
本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
喜欢就点个 在看 吧 : )