TRF:分析 DNA 序列中串联重复序列

学术   2024-11-21 14:00   上海  

Tandem Repeats Finder (TRF) 是一个用于分析 DNA 序列中串联重复序列的程序。串联重复序列是指 DNA 中两个或多个相邻的、近似重复的核苷酸模式。TRF 可以帮助用户定位和展示这些重复序列。用户只需提交一个 FASTA 格式的序列文件,无需指定模式、模式大小或其他参数。程序会生成两个输出文件:一个重复表文件和一个对齐文件。重复表文件包含每个重复序列的位置、大小、拷贝数和核苷酸内容等信息。


TRF安装

# 克隆 TRF 的 GitHub 仓库:

git clone https://github.com/Benson-Genomics-Lab/TRF.git

cd TRF

# 执行编译

mkdir buildcd build../configure

make

# 编译完成后可执行文件储存在path/to/build/src/trf 路径下

# 添加环境变量(此时位于build文件夹下)

export PATH=$PWD/src/:$PATH


TRF用法

# 查看帮助信息

trf -h

# 识别 DNA 序列中重复序列

trf test_seqs.fasta 2 5 7 80 10 50 2000
  • trf:运行 Tandem Repeats Finder。

  • test_seqs.fasta:输入文件,包含待分析的 DNA 序列,此处为 TRF/t 下测试文件。

  • 2 5 7 80 10 50 2000:这些通常是 trf 的参数,指示算法如何处理输入文件。具体参数的意义可能取决于 trf 的版本,常见的参数解释如下:

    • 2:最小重复单位的长度(可能是二聚体)。

    • 5:允许的最小重复次数。

    • 7:允许的最大间隔。

    • 80:允许的误差百分比。

    • 10:允许的最小重复的长度。

    • 50:允许的最大长度。

    • 2000:搜索的最大长度。

# 添加可选参数,以优化输出结果

trf test_seqs.fasta 2 5 7 80 10 50 2000 -f -d -m
  • -f: 该参数将输出每一串联重复序列两侧200bp 的侧翼序列,输出到比对文件中,以便更好地理解重复序列的上下文。

  • -d: 该参数将产生一个屏蔽文件,记录了与列表文件一样的信息,及比对信息,可用于后续程序的处理

  • -m: 输出一个 masked sequence file,即将重复序列掩盖或屏蔽的序列文件,通常用于后续分析,以避免在其他分析中重复考虑这些序列。


密码子实验室
我们一直坚持认为,让知识更有价值,让科学研究更简单,让实验室管理更智能化,让每一个热爱学习的人更有效率,是我们的使命。生物信息学实操、实验操作技能、科研绘图技巧、行业动态播报,这里只有干货。
 最新文章