TRF安装
# 克隆 TRF 的 GitHub 仓库:
git clone https://github.com/Benson-Genomics-Lab/TRF.git
cd TRF
# 执行编译
mkdir build
cd build
../configure
make
# 编译完成后可执行文件储存在path/to/build/src/trf 路径下
# 添加环境变量(此时位于build文件夹下)
export PATH=$PWD/src/:$PATH
TRF用法
# 查看帮助信息
trf -h
# 识别 DNA 序列中重复序列
trf test_seqs.fasta 2 5 7 80 10 50 2000
trf:运行 Tandem Repeats Finder。
test_seqs.fasta:输入文件,包含待分析的 DNA 序列,此处为 TRF/t 下测试文件。
2 5 7 80 10 50 2000:这些通常是 trf 的参数,指示算法如何处理输入文件。具体参数的意义可能取决于 trf 的版本,常见的参数解释如下:
2:最小重复单位的长度(可能是二聚体)。
5:允许的最小重复次数。
7:允许的最大间隔。
80:允许的误差百分比。
10:允许的最小重复的长度。
50:允许的最大长度。
2000:搜索的最大长度。
# 添加可选参数,以优化输出结果
trf test_seqs.fasta 2 5 7 80 10 50 2000 -f -d -m
-f: 该参数将输出每一串联重复序列两侧200bp 的侧翼序列,输出到比对文件中,以便更好地理解重复序列的上下文。
-d: 该参数将产生一个屏蔽文件,记录了与列表文件一样的信息,及比对信息,可用于后续程序的处理
-m: 输出一个 masked sequence file,即将重复序列掩盖或屏蔽的序列文件,通常用于后续分析,以避免在其他分析中重复考虑这些序列。