深度表型分析可以增强遗传分析的能力,包括全基因组关联研究(GWAS),但缺失表型的发生会损害此类资源的潜力。尽管已经开发了许多表型插补方法,但对数百万个体的准确插补仍然具有挑战性。
2025年1月4日,集美大学方铭、姜丹和杭州医学院陈国波共同通讯在Nature communications上在线发表题为“Rapid and accurate multi-phenotype imputation for millions of individuals”的研究论文。在本研究中利用基于高效机器学习(ML)的算法开发了一种基于mixed fast random forest(PIXANT)的多表型填补方法。
研究通过广泛的模拟证明了PIXANT是可靠、稳健且资源效率高的。然后,将PIXANT应用于277,301名无血源关系的英国白人公民和425个性状的UKB数据,随后对插补表型进行GWAS,鉴定的GWAS基因座比插补前多18.4%(8710对7355)。GWAS统计能力的增加鉴定了一些影响心率的其他候选基因,例如RNF220、SCN10A和RGS6,这表明使用来自大型队列的插补表型数据可能会导致发现复杂性状的其他候选基因。
大规模数据分析,例如全基因组关联研究(GWAS),可以通过提高统计能力来显著改善遗传研究。近年来,研究者见证了GWAS可用数据的巨大增长。例如,英国生物样本库(UKB)数据库已经收集了近五十万个具有丰富表型的基因分型个体。近年来在发现新的基因型-表型关联方面发挥了关键作用。高通量基因分型成本的降低有望导致开发更广泛的生物样本库数据集,其中包含丰富的详细表型信息。反过来,这些大规模数据集将利用遗传分析的范围和深度。然而,转向高维表型将不可避免地导致更高的缺失率。例如,UKB中的缺失率范围为0.11%到98.35%,这种损失会降低下游分析中的发现率。如果可以准确估算缺失的表型,则可以将更完整的数据集用于GWAS。性状通常具有一定程度的相关性,这为多表型插补提供了支架。MICE是一种常用的多表型插补方法,它使用链式方程来处理缺失数据。MICE方法因其对大数据的高效计算而受到统计学家的欢迎。与MICE相比,missForest已经开发出来,并且在应用于连续或二元特征时提供了更好的性能。但在计算上要慢得多。基于变分贝叶斯框架的替代方法(如PHENIX)已被提出,可更好地填补缺失表型。PHENIX基于包含样本亲关系矩阵的多元正态分布,比MICE和misforest更准确;然而,PHENIX计算既耗时又占用内存。据估计,对UKB数据集的PHENIX分析需要几个月的运行时间和超过1T的计算机内存。随着数据集的不断扩展,所需的计算时间和计算机内存也将增加,最终耗尽许多机构的计算资源。图1 PIXANT 流程图(摘自Nature communications )在这里,研究提出了一种用于多表型插补的混合快速随机森林(PIXANT)算法,该算法通过构建快速随机森林树来优化运行时和内存使用方面的大数据分析,使其可扩展至超过100万个体的大数据。PIXANT对跨多种表型的非线性和线性效应以及预测因子之间的高阶交互作用进行建模,使其能够产生无偏插补,准确性比上述方法高得多。研究通过广泛的计算机模拟验证了这一方法,并将其与现有的最先进的方法进行了比较:线性混合模型(LMM)、MICE、missForest和PHENIX。证明该方法在准确性和计算效率方面优于竞争对手的方法。以UKB数据集为例,研究表明PIXANT比PHENIX快几个数量级,内存使用更具可扩展性(例如,当样本量为20,000且表型数为30时,PIXANT的速度比PHENIX快~24.45倍,并且仅使用大约万分之一的内存)。随着样本量的增加,PIXANT相对于PHENIX的优势变得更加明显。然后,研究使用PIXANT插补425个UKB表型并进行GWAS。研究发现更完整的UKB表型能够鉴定更多的GWAS基因座,其中一些由于缺失表型而未知。https://doi.org/10.1038/s41467-024-55496-0—END—
内容为【iNature】公众号原创,
转载请写明来源于【iNature】
微信加群
iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。
投稿、合作、转载授权事宜
请联系微信ID:13701829856 或邮箱:iNature2020@163.com
觉得本文好看,请点这里!