我问过人工智能大模型,为什么生物信息学领域有那么多的不同的软件工具呢!比如一个简单的转录组上游定量流程就有 (质控前用fastqc与multiqc初看数据效果、trim-galore进行质控过滤 ) ,然后Hisat2比对,最后featureCounts定量。而且针对不同物种,不同测序手段,这个流程还有细微差别:
人工智能大模型告诉我是因为不同的工具各自在流程中扮演不同的角色,它们被设计来解决特定的问题,并且可能在性能、准确性或易用性方面有所不同。因此,生物信息学领域中存在多种工具,以适应不同的分析需求和偏好。可以从多个方面来解释:
数据类型的多样性:
生物信息学涉及的数据类型繁多,包括DNA、RNA、蛋白质序列等,每种数据类型可能需要专门的工具来处理。
不同的分析方法可能适用于不同的研究问题和数据集,因此需要多种工具来满足不同的分析需求。 不同的工具可能采用不同的算法和优化策略,以提高分析的准确性、效率或可扩展性。
这个技术的多样性真的是不想吐槽了,单细胞转录组看起来是10x公司的技术一家独大吧,如果是10x公司的fq文件正常走cellranger的定量流程即可。不过目前越来越多的国产单细胞转录组崛起了,新格元或者寻因,都有自己的定量流程。如果进阶到空间单细胞技术,那就更可怕了,哪怕是10x公司自己都有几款不同的产品,更别说它还没有办法一家独大。
每次遇到新技术,就会有新需求,出来了新软件就得学习。实际上起码安装和熟练使用100款工具软件是公司工作的生信工程师的基本功了,而且这个折腾和摸索的过程还没办法被人工智能大模型替代,每个人都要走一遭。幸运的是好多前辈会把他们的学习过程整理和记录并且分享出来,比如《生信菜鸟团》公众号的这个周二专辑:
UMI-tools —— UMI标识处理工具 Trinity — 无参转录组从头组装 SeqKit — 超快速的 FASTA和FASTQ 文件操作工具包 PISA — 一组单细胞数据集处理工具 CNGBdb — 国家基因库生命大数据平台之数据下载 基于泛基因组的遗传变异鉴定 STARsolo — 一个用于单细胞数据基因表达定量的强大模块 STAR — 高通量RNA-seq数据比对的先锋工具 iSeq — 小而精的公共数据集下载集成工具 nf-celescope — 新格元新流程 CeleScope — 新格元单细胞多组学分析工具箱 CellRanger ARC—单细胞RNAseq和ATAC联合分析套件 pyGenomeTracks — 强大且灵活的基因组可视化工具 SeekSoulTools — 单细胞转录组学一站式分析工具 Kallisto — 基于伪比对的转录本定量 Phantompeakqualtools — 质量评估之cross correlation分析 比对软件BWA及其算法(下) vcf2maf—从VCF到MAF,解锁基因突变的秘密 ANNOVAR — 注释数据库与结果 MACS3—探索基因组调控的钥匙 ANNOVAR —— 基因组变异注释利器 SnpEff —从序列到功能,助力遗传变异研究 VEP注释结果怎么看? fastp — FastQ文件一体化预处理工具 Salmon — 兼具高效、精准及偏差感知的RNA-seq定量工具 Alevin — 更快的单细胞定量 BD Rhapsody上游定量流程 VEP — 高效的变异注释工具 Singularity — 生信流程搭建好帮手 Snakemake — 可重复数据分析框架 easyBio — 简化生信上游处理的工具包 FASTX-Toolkit — 短序列预处理工具包 HISAT2— 基于层次图FM索引的高速精准基因组测序reads比对软件 比对软件BWA及其算法(上) Gffcompare — GTF/GFF文件分析的专业选择 StringTie — 高效的RNA-Seq数据转录本组装和定量工具 CIRIquant—circRNA 检测和定量一站式分析工具 synapseclient—Synapse数据平台交互工具 bowtie2 | 一种快速且节约内存的比对工具 BaiduPCS-Go——使用服务器直接下载百度云资源 基因组研究和变异检测领域的重要工具—GATK初识 更快的处理bam数据—Sambamba 基因组分析工具的瑞士军刀—BEDtools 生物信息学必备工具—SAMtools SRA数据库官方工具—SRA Toolkit SRA高效数据传输—ASCP 比对质量评估之 QualiMap 序列比对之BWA 一行代码下载原始数据—Kingfisher RNAseq分析之FastQC
不同的ngs流程有不同的生信软件组合
针对这些软件我们也有对应的使用教学视频:
已经对应的B站全套生信工程师入门视频:
(https://space.bilibili.com/338686099)