近期,看到了美国贝勒医学院和Illumina公司等单位合作的基因组加速计算软件DRAGEN见刊Nature Biotechnology,题为“Comprehensive genome analysis and variant detection at scale using DRAGEN”。
以下是“测序中国”的部分报道:
基因组学的动态读取分析方法(Dynamic read analysis for genomics,DRAGEN)在WGS平台上大规模地综合鉴定多种胚系变异类型。DRAGEN基于泛基因组参考的多基因组映射(提高准确性)、硬件加速和基于机器学习的变异检测来提供对整个基因组变异的见解,从原始读取到变异检测的计算时间约为30分钟,且在所有变异类型(SNV、Indel、STR、SV和CNV)检测的速度和准确性方面优于当前最先进的方法(存疑:文章仅比较了GATK等3种方法)。
通过分析千人基因组计划(1kGP)说明了DRAGEN在大型队列中的扩展能力。总体而言,DRAGEN是一种高精度、快速和可扩展的方法,标志着测序数据分析的一个重要里程碑(别动不动就“里程碑”、“重大突破”~~~),将通过一个高度全面和可扩展的平台,为发现孟德尔病和罕见病等各种疾病相关的准确和潜在变异提供新见解。
小编的一点吐槽:
DRAGEN早在几年前就已经发布了,只是知名度还不够。如今发表NBT,显然能大肆宣传一波,但Illumina似乎已经日薄西山了。
我们在2022年的时候调研了当时比较流行的基因组加速计算平台/软件,比如Sentieon、Parabricks、DeepVariant、BaseNumber等,详见:基因组计算加速平台调研。到今天也没有什么变化,大体还是这些玩家。只是有的换了个名字,比如华大改为了ZBOLT,其实还是MegaBOLT。
每一家宣传都号称自己最快最准确,是革命性的提升。GATK被打压得不行,但偏偏现在大家用得最多的还是它。当然也有基于GATK本身对基因组分区结合硬件加速的方案,如KAUST Rod A. Wing教授的改良流程HPC-GVCW。
据我们了解,除了Sentieon(主要还是有一些积累和文章的引用,产生了一定影响力),其他加速软件或服务卖得并不好。发展不好,只能说明市场需求其实并没有那么大。测序行业不需要那么多的加速方案,尤其是农口,只有学术界才测得起WGS,而芯片短期内根本不必加速。
我们对于未来总是过于乐观,比如期望测序成本一降再降,人类个个用得起、作物株株用得上。除了学术界用国家的钱不心疼外,企业真的不会轻易花这个钱。但动植物的学术界又能连续测几个1K、3K样本的?
即便是人类,动辄几十万的大队列也是非常有限的。对于科研单位来说,花加速这个钱,不如自己买一台服务器(看得见摸得着,也好交差)慢慢跑。
我们不是泼行业的冷水,是市场泼了大家的冷水。
我们当然希望越来越多这样的需求,证明数据源源不断的产生和积累,生产周期要求越来越短,加速计算分析以及AI应用是基因组育种必由之路,行业整体是欣欣向荣的。
等春天,在此之前,别灭亡,先苟着。