Genome varScant | 基因组结构变异分析教程 | 基于TBtools

文摘   2024-10-10 07:00   云南  

一边学习,一边总结,一边分享!

由于微信改版,一直有同学反映。存在长时间接收不到公众号的推文。那么请跟随以下步骤,将小杜的生信筆記设置为星标,不错过每一条推文教程。

欢迎关注《小杜的生信笔记》!!

如何加入社群

小杜的生信笔记仅有微信社群

1. 微信群:付费社群。添加小杜好友,加友请知:加友须知!!,加入社群请查看小杜生笔记付费加友入群声明

入群声明

2. 小杜个人微信:若你有好的教程或想法,可添加小杜个人微信。值得注意的是,小杜个人微信并不支持免费咨询长时间咨询,但支持小问题2-3个免费咨询。

小杜微信:

知识星球:

获得本期教程全文代码:在订阅号后台回复关键词:20241010

2022年教程总汇

https://mp.weixin.qq.com/s/Lnl258WhbK2a8pRZFuIyVg

2023年教程总汇

https://mp.weixin.qq.com/s/wCTswNP8iHMNvu5GQauHdg


引言

今分享基因组结构变异检测的教程,大家常用的软件基本是minimap2软件,这个软件也是出自李恒大佬之手,但是对于新手小白,或是没有服务器的同学而言,直接在本地使用minimap2是不现实的。

然而,今天可以啦。

这个主要是归功于CJ老师开发的TBtools软件。非常厉害的一个生信化软件,TBtools问世以来真是造福了多少生信小白。用过以后,你会一直使用下去的。自己在19年开始了解TBtools,一直到现在,中间换过多台电脑,但是首选安装的软件中一定会有它。

我们前面做过基于TBtools做基因家族分析 | 生信部分,绘制Circos基因圈图 | TBtools等几个教程。

今天,我本想直接使用minimap2来跑一下,抱着TBtools可能会有的心情,就去搜索了一下教程,结果真的有哦!

那么也就是记录一下,这个分析过程,详细的教程和参数CJ老师,也在对应教程推送过。我们也在推文中记录一下,方便你我他!

参考:

  1. https://mp.weixin.qq.com/s/xEZFwx525RclUEwNPbdZoQ
  2. https://mp.weixin.qq.com/s/MHI0jAJdy-_cxpMih6dsQg

基因组结构变异检测

1. 打开TBtools,安装Genome VarScan插件

2. 找到Sequence analysis文件夹

3. 找到P00560**

4. 点击install

5. 打开插件

在这里,我们直接使用CJ老师教程内容,介绍对应参数。参考:TBtools | 基因组结构变异检测插件 Genome VarScan 参数说明

  1. 调用Minimap2进行两个基因组的比对,生成一个paf文件
  1. 基于paf文件,提取编译,其中包括SV和SNP,一般我们就关注SV

其中第一步没有过多调整空间,第二步可以理解为 paftools.js 的 java 实现。所以整体参数和效果,跟 minimap2+paftools.js 鉴定结构变异几乎一样。详解如下:

  1. CPU:线程数,默认是2 ,进行两基因组全序列比对时可使用,注意到,越多线程会使用越多内存,我测试大体水稻基因组的比对,那么一个线程大概要4G 内存。其实具体跟后续BatchSize参数有关系;
  1. Diff:三个基因组序列分歧度标准,如果似乎非常近源甚至是同个物种或品种,那么 OneInThousand,指代1000个碱基只有1个碱基不同;OneInHundred,指代100个碱基会有1个碱基不同。基本上,这两个可以处理绝大多数物种材料。当然,对于比如一些园艺作物,多年生,高杂合材料等等,不同材料的基因组差异可能会比较大,比如 FiveInHundread,指代100个碱基会有5个不同,这个已经支持了跨物种的比对,比如甜橙比对到荔枝... 按照需要来调整,这个可以提高灵敏度和准确性
  1. VarRange:共两个参数,一般如果是做多态性引物开发,30~200以及足够,再长也不方便跑PCR电泳区分
  1. BatchSize:每次读入内存,用于比对到数据块大小,会直接影响内存占用,500Mb 每次默认。如果发现基因组比较大,可以考虑降低,比如做到 200。
  1. Min Align Length for Cov Calc:如果一个 Alignment 长度低于给定值,比如 10000 ,就不参与覆盖度的计算。逻辑上对于两个物种单倍型比对,最好的比对结果 Cov 是 1 。不然可能是假阳性比对,对应了假SV。过滤长度,避免比对碎片影响 Cov 计算。
  1. Min Align Length for Var Calling:如果一个 Alignment 长度低于给定值,比如 50000,就不进行 SV 检测。逻辑上,过短的比对,也不适合做 SV 检测。当然,检测了SV,那么也考虑Cov的问题。
  1. MaqQ:如果比对质量低于给定值,那么不进行变异检测。逻辑上,可以只用 MapQ 60 。毕竟这个对应最高质量。需要注意的是,MapQ = 60 很容易达成。从某个角度来说,比对质量是基于 Query 来说的,查询序列没有更好或者相对较好的比对位置时,那么就会有 MapQ60。所以对于Subject来说,同一个位置可以有多个MapQ 的比对,但其中最好,逻辑上只有一个。当然那这个是展开。
  1. PrintSeq:结果文件中是否要包含SV相关序列,注意到如果 INS 或 DEL 非常大,那么这个序列会很长。

6. 比对结合自己的需求将对应的基因组fa文件拖进去即可。比对还是很快的,我这里使用15个CUP,基因组小一点,几分钟就可以完成。

7. 使用PAF Viz进行可视化

直接在搜索框搜索PAF Viz即可。

将其输出的PAF文件拖进去即可进行可视化。

感叹

时间飞逝,我们可能一转眼硕士,博士就毕业了,亦或是一转眼毕业好多年。但是,回头想一想,我们在以往的时间中又留下了什么呢?难道真的如《再别康桥》中所说,轻轻的我走了,正如我轻轻的来,我轻轻的招手,作别西天的云彩。

自己做分享,亦或是自己的学习笔记,马上3年。你问我,这3年,你分享了什么呢?若是,没有推文,自己也很难回答。但,回头一看自己的文件夹,嗯,还是有点痕迹的。好比,TBtools,就是一个生信软件,但是你深挖一下,给你的感觉就是:哇哦,很有干货哦!不亏是CJ老师。(PS:这里并不是吹捧TBtools,只是自己使用后的感悟。此外,这也不是我第一次推荐TBtools。)

往期部分文章

1. 最全WGCNA教程(替换数据即可出全部结果与图形)

推荐大家购买最新的教程,若是已经购买以前WGNCA教程的同学,可以在对应教程留言,即可获得最新的教程。(注:此教程也仅基于自己理解,不仅局限于此,难免有不恰当地方,请结合自己需求,进行改动。)


2. 精美图形绘制教程

3. 转录组分析教程

4. 转录组下游分析

小杜的生信筆記 ,主要发表或收录生物信息学教程,以及基于R分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

小杜的生信筆記
小杜的生信筆記,生信小白,初来乍到请多指教。 主要学习分享,转录组数据分析,基于R语言数据分析和绘制图片等,以及相关文献的分享。
 最新文章