PRSice之前写过安装教程,是安装在Linux系统下的:不会安装使用PRSice-2软件就太不讲究了。今天介绍一下在windows下的安装教程。
1. 软件下载
https://choishingwan.github.io/PRSice/
最新版的包括Mac和Linux系统和windows系统,这里我们再Windows系统下演示一下。
「安装包:」
「测试数据:」「注意,上面数据如果无法下载,可以公众号(育种数据分析之放飞自我)后台回复PRS,获得软件包和测试数据。」
2. 软件安装
本演示,在Windows11系统下进行。
下载好的安装包和测试数据:
解压软件:
3. 命令文件介绍
3.1 PRSice_win64.exe
二进制文件,直接运行即可。核心计算文件,计算PRS。
3.2 PRSice.R
R 脚本文件,主要是绘图可视化,包括bar plot, high-resolution plot和quantile plot
3.3 BESE文件
基础数据文件,这里是GWAS summary的结果。
包括91063个snp结果。
TOY_BASE_GWAS.assoc
数据包括:
SNP名称 染色体 物理位置 A1,有效的分型,effective allel A2,无效的分型,non-effective allel P,P值 OR,OR值
3.4 TARGET文件
测试文件,包括:plink的二进制文件和 对应的表型数据文件:
包括2000个个体。
TOY_TARGET_DATA.bed TOY_TARGET_DATA.bim TOY_TARGET_DATA.fam TOY_TARGET_DATA.pheno
二进制文件包括:bim,bed和fam文件 表型数据文件:
FID IID Pheno
CAS_1 CAS_1 0.687940475297167
CAS_2 CAS_2 -0.156139175886002
CAS_3 CAS_3 -0.690876014335686
CAS_4 CAS_4 -0.147899250768441
CAS_5 CAS_5 -0.66034095162489
CAS_6 CAS_6 0.0438675950151819
CAS_7 CAS_7 -0.472359275893301
CAS_8 CAS_8 1.49482653529014
CAS_9 CAS_9 1.01876296041241
4. windows系统进入cmd终端
在菜单栏中,键入cmd
先测试一下R语言是否安装成功,并且把Rscript放到了环境变量里面:
Rscript
如果显示下面界面,说明已经配置成功:
如果显示找不到Rscript,需要将安装路径的bin文件夹,放到环境变量里面,比如我的安装路径:
C:\Program Files\R\R-4.2.2\bin
右键我的电脑,点击属性:找到高级系统设置:找到环境变量:
双击Path,点击新建,将R的bin路径复制进去:
查看帮助文档:
.\PRSice_win64.exe
文档大体分为几个部分:
Base file,基础文件,可以根据指定a1,a2,maf,beta,bp,chr,pvalue等信息 Target file,目标文件,支持plink二进制文件,可以定义表型,maf质控等 Dosage,主要是定义运行的资源配置,比如线程、硬盘、内存等(可以省略) Clumping,主要是质控Clumping参数,有默认值(可以省略) Covariates,定义协变量,包括数字协变量和因子协变量 P-value Thresholding,P值的阈值定义 PRSet Misc
5. 二分类性状计算
5.1 运行代码
代码:
Rscript PRSice.R --dir . --prsice PRSice_win64.exe --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T
Rscript,是用R语言进行操作 --dir,默认是当前路径 --prsice,指定PRSice的执行文件 --base,是基础数据,这里是GWAS的结果,TOY_BASE_GWAS.assoc --target,这里是plink的二进制文件,前缀名 --thread 1,用1个线程 --stat OR,这里用的是OR值(二分类性状的OR值,连续性状是Beta值) --binary-target T,用的是二分类性状
5. 运行日志
日志文件:
5.3 运行结果
结果文件:
6. 二分类结果解释
6.1 PRSice.price文件
该文件,主要是根据不同Threshold阈值后,选择的SNP个数(Num_SNP)以及对应的解释度(R2)等信息
Pheno Set Threshold R2 P Coefficient Standard.Error Num_SNP
- Base 0.00025005 0.0133696 8.43169e-06 -0.197266 0.0442903 2
- Base 0.00030005 0.00824473 0.000456434 -0.225204 0.0642503 3
- Base 0.00040005 0.0089725 0.000256089 -0.350267 0.0958035 5
- Base 0.00045005 0.0101339 0.000102845 -0.445497 0.114707 6
- Base 0.00065005 0.00532975 0.004775 -0.402003 0.142462 8
- Base 0.00070005 0.00876654 0.00030122 -0.549246 0.151967 9
- Base 0.00080005 0.00233607 0.061455 -0.369219 0.197422 13
- Base 0.00085005 0.00153157 0.129826 -0.342923 0.226384 15
- Base 0.00095005 0.000124324 0.665873 -0.100725 0.233258 16
6.2 PRSice.best文件
这个文件,是每个个体,计算的PRS值
FID IID In_Regression PRS
CAS_1 CAS_1 Yes -0.00599501328
CAS_2 CAS_2 Yes -0.00631017938
CAS_3 CAS_3 Yes -0.00227495325
CAS_4 CAS_4 Yes -0.00204360007
CAS_5 CAS_5 Yes -0.000830676955
CAS_6 CAS_6 Yes -0.00224943517
CAS_7 CAS_7 Yes -0.000687589983
CAS_8 CAS_8 Yes -0.00413102565
CAS_9 CAS_9 Yes 0.00256661049
6.3 PRSice.summy文件
这个文件,是给出最优模型的结果,比如适合的SNP个数,R2,回归系数,P值等信息。
head PRSice.summary
Phenotype Set Threshold PRS.R2 Full.R2 Null.R2 Prevalence Coefficient Standard.Error P Num_SNP
- Base 0.4463 0.0520082 0.0520082 0 - 86.288 9.96331 4.69368e-18 36759
6.4 PRSice_BARPLOT_*.png
这个柱形图,是应用比较广泛的图,X坐标是不同P值,Y坐标是PRS风险得分的解释百分比(R2),柱形图最高的点表示该模型最优,比如下面图中,在P值为0.4463时,模型最优,解释的百分比是5%左右,P值为4.7e-18,极显著。
6.5 PRSice_HIGH-RES_PLOT_*.png
下图X坐标是不同的P阈值,Y坐标是显著性(-log转化),可以看到最显著的P的阈值是在0.5左右。
7. 软件安装好了
下面就是跑程序了。。。