核苷酸多样性(nucleotide diversity),记为π,是分子遗传学中一个重要的概念,可以作为一个群体遗传的重要指标去衡量种群的遗传多样度水平,也可以用在单个基因的多序列比对之中找到受选择的区域。
在这里,就群体水平和基因水平给大家演示如何进行核苷酸多样性的计算。
01
—
群体水平π的计算
软件:vcftools
命令:
vcftools --gzvcf clean.vcf.gz --window-pi 100000 --window-pi-step 10000 --keep wild_popid.txt --out pi.wild
3.结果文件及可视化
结果文件:结果文件一共5列,分别对应着染色体ID、起始位置、终止位置、变异数目、π值
如果需要计算该群体整体π值,可以用以下命令:
# awk简单求平均:
awk 'NR>1 { sum+=$NF} END { print sum/NR}' pi.wild.windowed.pi
# 0.000792588
可视化:可以采用ggplot2进行绘图展示
02
—
多序列比对的π值计算
1. windows软件:DnaSP
1.准备文件:序列比对结果(以fas结尾)
2.运行软件:DnaSP
3. 结果可视化:结果导出到excel中可以进行绘图
更多生物信息视频课程: