如果使用find_circ来鉴定circRNA|生信开发实战

企业   2024-12-08 09:58   浙江  

    circRNA(环状 RNA)在生命活动中起着至关重要的作用。它们具有独特的结构和功能,circRNA不具有5'端帽子和3'端poly(A)结构,相反,circRNA通过共价键将3'和5'末端连接起来形成完整的环形结构,避免被核酸外切酶降解,因而比线性RNA更稳定,更具有保守性。circRNA 可能参与基因表达的调控。它们可以通过与 miRNA(微小 RNA)相互作用,影响 miRNA 对靶基因的调控,从而在转录后水平调节基因表达。因此对circRNA的鉴定。

CIRCexplorer2CIRI是目前circRNA产品中的两款circRNA鉴定工具,CIRCexplorer2需要【基因注释文件】和【参考基因组序列文件】来注释环状RNA,具有高准确性;CIRI是一款使用BWA-MEM比对结果,支持基于BSJ de novo的检测,具有高灵敏度。find_circ也是一款支持BSJ de novo检测的circRNA鉴定工具,除了常规的鉴定工作外,在鉴定circRNA数量明显偏低的样本中也可以使用find_circ进行circRNA的补充鉴定,辅助说明非分析流程导致的数目偏低。

 

find_circ的基本原理:find_circ根据bowtie2比对结果,从没有比对到参考序列的reads的两端各提取20nt的anchor序列,将每一对anchor序列再次与参考序列比对。如果anchor序列的5' 端比对到参考序列(起始与终止位点分别记为A3,A4),anchor序列的3'端比对到此位点的上游(起始与终止位点分别记为A1,A2),并且在参考序列的A2到A3之间存在剪接位点(GT-AG),则将此read作为候选circRNA。最后将read count大于等于2的候选circRNA作为鉴定的circRNA。


find_circ的运行方法:

find_circ是基于py脚本进行circRNA的鉴定,其需要使用Bowtie2进行circRNA反向剪切位点鉴定相关的序列比对,也需要提供基于Bowtie2建立的基因组索引。(服务器已安装,直接调用即可)。如果项目是在联川开展和分析的,基因组建库时已经构建好索引(基于分析参数的基因组路径查询索引,Bowtie2索引和HISAT2是提前构建好的),分析流程中已包含unmapped.bam,直接进入步骤2即可。如果没有,可以参考下述命令,使用Bowtie2进行基因组索引构建和比对(Bowtie2索引为鉴定circRNA所必须,但是基因组比对可以使用Bowtie2HISAT2TopHat中的任意一款,此处不做示例),使用samtools进行unmapped.bam的提取。

Shell#!/usr/bin/bash
###bowtie2建立参考基因组索引###srun -p all bowtie2-2.2.0/bowtie2-build /find_circ/hsa.GRCh38.dna.chr.fa /find_circ/hsa.dna.chr
#hsa.dna.chr为索引前缀#

###hisat2(2.2.1)建立参考基因组索引####/opt/anaconda3/bin/hisat2-build#hisat2-build需要大约200GB的运行内存来满足人类基因组规模大小的基因组的索引构建,因为建立索引涉及到graph construction#

###samtools提取unmapped reads###srun -p all /samtools-1.9/samtools view -hf 4 output.bam | samtools view -Sb - > unmapped.bam#samtools view参数:#-h 文件包含header line#-b 输出bam格式#-u 输出非压缩的bam格式#–S 忽略版本兼容


分析流程获取unmapped.bam


find_circ基于比对工具(比如Bowtie2HISAT2TopHat等)输出的unmapped.bam进行下游分析。如果是原始数据,可以使用Bowtie2HISAT2TopHat进行基因组比对并输出unmapped.bam


以下是运行指令:

Shell#!/usr/bin/bash
###提取未比对reads两头20bp短序列anchor.fq####srun -p all /python /find_circ/find_circ/unmapped2anchors.py /find_circ/unmapped.bam /find_circ/find_circ/anchor.fq#或#srun -p all /python /find_circ/unmapped2anchors.py /find_circ/unmapped.bam | gzip > anchors.fq.gz

###anchor.fq比对基因组寻找潜在的circRNA####基于RNA-Seq的基因组比对(pair-end模式)#bowtie2参数介绍:#-p 使用多线程#--very-sensitive 允许多重比对,报告出最好的一个#--score-min=C,-15,0 设置比对分数函数#--mm 设置I/O模式。
##如果可执行程序显示没有权限,可以运行:chmod 755 *.py,将py脚本改为755

srun -p all /bowtie2-2.2.0/bowtie2 --reorder --mm --score-min=C,-15,0 -q -x hsa.dna.chr -U anchors.fq.gz | /find_circ/find_circ/find_circ.py --genome=hsa.GRCh38.dna.chr.fa --prefix=hsa_ --name=my_test_sample --stats=stats.txt --reads=splice_reads.fa > spliced_sites.bed
#--prefix参数指定的是spliced_sites.bed文件中第四列内容的前缀,建议拉丁名缩写,在spliced_sites_bed中同时包含了环状RNA和线性RNA,环状RNA的名称用circ标识,线性RNA的名称用norm标识#--name参数会在生成的spliced_sites.bed文件中指定tissues列的名字#--reads参数会生成包含spliced reads的fa文件#--stats参数会生成包含数值统计信息的txt文件

###结果筛选####根据关键词CIRCULAR筛选环状RNA#去除线粒体上的环状RNA#筛选unique junction reads数至少为2的环状RNA#去除断裂点不明确的环状RNA#过滤掉长度大于100kb的circRNA,这里的100kb为基因组长度,直接用环状RNA的头尾相减即可
grep CIRCULAR spliced_sites.bed | grep -v chrM | gawk '$5>=2' | grep UNAMBIGUOUS_BP | grep ANCHOR_UNIQUE | /find_circ/find_circ/maxlength.py 100000 > find_circ.candidates.bed
#不对unique junction reads数过滤#grep CIRCULAR spliced_sites.bed | grep -v chrM | gawk '$5>=1' | grep UNAMBIGUOUS_BP | grep ANCHOR_UNIQUE | /find_circ/find_circ/maxlength.py 100000 > find_circ.candidates1.bed
###分析多个样本####如果有多个样本,需要分别用find_circ.py运行,然后将各自的结果合并#srun -p all /python /find_circ/merge_bed.py sample1.bed sample2.bed [...] > combined.bed


我们来看一下最终的输出结果:

find_cric最终输出文件为find_circ.candidates.bed,输出circRNA的候选,内容如下:

 

列说明如下:

 

注意事项


find_circ的检出效率比CIRCexplorer2稍高,但和CIRI相差无几,使用find_circ不一定显著增加circRNA的鉴定数目,且不同的上游基因组比对工具(Bowtie2HISAT2TopHat)衔接find_circ鉴定的circRNA数量有所不同,但没有显著差异。find_circ的优点是对于基因组注释不完善的物种进行circRNA的鉴定,甚至没有基因组的物种(需要较为完善的全长转录组数据),且能分析来自线粒体的circRNA(在结果筛选时不过滤线粒体来源),并且find_circ基于python2,无需安装,便于快速上手使用。



 


 




相关阅读

解析细胞功能基因集变异——遇见GSVA|生信开发实战
单细胞评分分析R包Ucell
空间转录组细胞注释软件之Cell2location |生信开发实战
单细胞代谢分析之-scFEA

本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!

扫描下方二维码





点分享


点点赞


点在看


联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章