沃奇生物独家代理 TBtools 插件已有三年。近日,向 TBtools 作者「CJ-陈程杰」老师汇报了三年的工作小结,并进行了简单讨论。陈老师提及不仅插件要从源头优化,同时也要把教程做好。为此,技术组几个小伙伴讨论后,决定对相关资源进行汇总,方便老师同学们了解。目前已有众筹插件列表如下:
此外,我们还有一个基因家族分析课程专属插件,不公开授权。
Advanced HMMer Search
用于快速实现 HMMER 做相似性序列搜索的工具,主要用于基因家族。此插件提供了便捷操作:
可提供 PFAM 编号,有插件自动下载并构建模式库,随后对序列直接进行搜索
支持输出 模型文件.hmm,对序列进行搜索
支持输入多序列比对结果 ,插件会自动构建模式库,随后对序列进行搜索
详细可见教程
https://mp.weixin.qq.com/s/bflil_pFhBw0Xx6pui-fOA
Newick Rename
稳健的进化树重命名工具很少,陈老师开发的 进化树重命名 插件往往可以有意想不到的好效果,极大降低数据分析工作量。详细可见教程
https://mp.weixin.qq.com/s/yQCyVIheiJDxqnZ2R3ByEw
Batch MEME Motif SeqLogo Viz
MEME 分析结果产生的 Motifs 往往需要可视化看看 每个 Motifs 大体是什么序列。如下:
不得不说,陈老师的这个可视化输出结果很漂亮!目前没有好用的工具可以完成。详细可见教程
https://mp.weixin.qq.com/s/JPSXyDzs9D4YjUgGh7UBhw
Genome Region Compare
进行细致的基因组区间序列相似性分析或者共线性分析,可以让我们更好地探索生物学问题。陈老师曾经众筹开发过这一插件,效果很好。我们公司已经在不少项目上应用。
具体可见教程
https://mp.weixin.qq.com/s/exlBXJBNB1wKTvWmjymjxQ
陈老师还录制了专门的视频介绍和使用教程,推荐学习
https://mp.weixin.qq.com/s/0wSh_dviSgDegCnpU_5lkg
BioPanGu
随着实验室组学数据和研究物种的增加与丰富,对应的数据管理往往会变得比较混乱,为此可以使用 BioPanGu 插件,,一站式管理实验室数据。
详细可见教程
https://mp.weixin.qq.com/s/S4GHGLEiih9ZmFKIdHYt7A
陈老师为这个插件录制了视频教程,老师们需要可以参考。
https://mp.weixin.qq.com/s/gWOoKRQ4ezHV7xq6XjwPQQ
RNAseq 系列插件
转录组数据自主分析,TBtools Pro 系列有 8 个插件,可以用于完成全面分析。结合插件商店的公开插件,如差异表达分析,基因共表达网络分析,几乎可以完成 转录组 数据分析所有内容。
推荐直接学习陈老师的教学视频
https://www.bilibili.com/video/BV1fL4y147mb
如果对文件教程感兴趣,可以了解下述教程,但看过视频则并不需要(来源:生信石头)
SRA 数据查询与整理:SRA XML to Table,见推文:挖掘SRA的辅助小工具(NCBI高通量测序数据收录库)
https://mp.weixin.qq.com/s/FnuSUqhpyKqm_HYpu6phnw
SRA 数据链接获取:SRA XML to Table 和 SRA Number to ENA Info. 前者已经包括了 NCBI 和 DDBJ 数据下载链接,后者主要作为补充,附加 ENA 下载链接(更为稳点)。详细见:《公开可获取~没有下载不到的测序原始数据!》
https://mp.weixin.qq.com/s/CS04e0QRjq0B-NZUfCpUAg
Ascp GUI Wrapper:个人实测,每天清晨通过 FTP 链接下载测序原始数据,速度可以达到 10Mb/s。但更多时候数据只有不到 300Kb/s。网络合适的情况下,可以使用 Aspera ,速度可以达到 30Mb/s。于是写了并公开释放了这个插件,详细见:插件 | 人人-点点点-光速下载 NCBI/ENA NGS原始数据
https://mp.weixin.qq.com/s/YYneVPb3V6Dq5WXiq2JYTQ
SRAtoFastq,sra 是 NCBI 定义的二代数据存储格式,文件大小比fastq.gz下,考虑网络带宽的情况下,下载 sra 数据更方便。下载后需要进行转换,于是有了插件,详细见:SRAtoFastq | 任何人都能自主分析测序原始数据
https://mp.weixin.qq.com/s/WC6Q1wr2M4CsdVZ2XYFjRA
FastQC,无论是NCBI SRA等数据库下载,还是公司返还的测序数据,多少还是要看下测序质量,确保质量OK 或者不要有样品降解,严重污染云云,于是有插件,详细见:插件FastQC | 点点点,人人看看测序数据质量
https://mp.weixin.qq.com/s/Sz9enr_8s9P0goxEObn4TA
Trimmomatic,无论转换得到,或者是公司测序后返还的 Fastq.gz 数据往往是原始数据,通过 FastQC 可以判断,随后进行质量控制,如去除接头和低质量碱基,于是有插件,详细见:Trimmomatic | 点点点,测序原始数据质控,技能√get
https://mp.weixin.qq.com/s/Gmazcogi2KBNkv7J4hXh9Q
Kallisto,RNAseq 数据的基本分析和目的,就是获得基因表达量矩阵。在普通笔记本上,如 4G 内存云云,那么 Kallisto 是最好的选择,于是有插件,详细见:
Kallisto | 点点点,从 测序数据 到 基因表达量矩阵 人人都可以!
https://mp.weixin.qq.com/s/zhYjsF-LiPzPetbVh7bfcA
Trans Value Sum,Kallisto 分析结果是转录本水平的表达量或Counts矩阵,但很多人感兴趣的是基因水平的,于是,公开释放了功能,详细见:汇总 | 转录本表达矩阵 到 基因表达矩阵
https://mp.weixin.qq.com/s/JPM7ofuqZcKPZjySL7w5lA
更为推荐的是 hisat2+stringtie 的有参考基因组的转录组数据分析插件。下述完成教程来自陈老师公众号推送。
示例数据
Hisat2-Build 建立索引
设置基因组序列文件,用于建立索引
点击Start,并等待即可
可以看到输出目录会新的索引相关文件产生
如此,即完成了索引构建。
Hisat2-Align 进行读段回帖
总的来说,基本没什么特别要注意的,除非数据是链特异的,那么最好设置一下。另外是,是否很关注多匹配的reads,如repeat区域,那么可以考虑提高max hits。
恩,Threads 参数控制的是并行任务数目,而不是stringtie运行时的线程数。简单来说,假设输入的是 6 个样品,Threads设置为 2 ,那么同时会有最多两个样品在进行组装(即并行)。
输出结果会放置在输出目录下,
大体如下,
注意到,本文示例中只设置了一个样品,即reads。如果是多个样品,那么会分别输出4个类似文件。
Stringtie-Assembly 进行转录本组装
可能唯一需要注意的就是....并行任务数,可参考前述推文,其实常常也无需修改,一般按照电脑有多少个线程,保留2个,剩下的都可以用上试试。
示例数据只有一个样品,所以只组装出一个XXXX.assembly.gtf。无论有多少个输入样品,最终每个样品都会被独立组装,最后合并成一个 merged.stringtie.gtf。这个文件,可用于后续任何分析(亦即,完成了转录本组装)。
Stringtie-Quantify 进行表达量估计
Stringtie 除了进行组装,还可以估算转录本以及基因的表达量。
按照要求设置文件即可,可能需要调整的就是read length,如果你想要得到 read counts,用于下一步差异表达分析的话。
运行后,可以看到在输出目录增加了 6 个文件。
具体不详细展开。大伙应该知道是啥。
Differential Gene Expression Analysis-DESeq2 Wrapper 和 Batch DEGs,这两个插件是 R-plugin,分别是 我 和 利虎 写的,可以基于Counts鉴定差异表达基因。具体参考推文
https://mp.weixin.qq.com/s/vVj6r61jgtpvFI-9M0W_PA
https://mp.weixin.qq.com/s/VKQSkVoTkZX_XnexxeumTQ
其他如共表达网络分析等,TBtools 有公开插件(非Pro系列,无需授权),配合使用,效果更佳。
注意
Pro 系列授权费用为「插件开发费用和相关使用咨询/答疑人工服务售后费用」。部分依赖程序非 MIT 协议的,可自行网上下载使用,未修改源码,非插件授权范围;大部分插件依赖程序为 MIT 协议,我们团队接管众筹插件后,已进行大量代码优化,并进行重新编译,可加速老师们的科研工作;
所有 Pro 系列插件均支持 Window/MacOS 平台使用。
联系方式
可在工作日联系我们客服人员,非工作日回复延迟,可以留言