又开始一个新的软件啦,大家是否有需要的?可以同一人群的不同trait做。咱们就开始吧~
官网地址:URLs. MTAG software is available at https://github.com/omeed-maghzian/mtag/.
文章:Multi-trait analysis of genome-wide association summary statistics using MTAG
Patrick Turley ,2018,NG
看看人家这引用率。
老规律,进入官网界面后下载软件。
git clone https://github.com/omeed-maghzian/mtag.git
cd mtag
这是基于python,所以要提前装好。 需要Python 2.7。如果你的anaconda是python3,那得创建python2.7的环境。(参考网址https://conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html#creating-an-environment-with-commands)
conda create -n myenv_py2.7 python=2.7
激活。以后进来每次激活就可以,不用重新创建了。
conda activate myenv_py2.7
用完了退出环境
conda deactivate
tutorial链接https://github.com/omeed-maghzian/mtag/wiki/Tutorial-1:-The-Basics
开始启动程序:
python mtag.py -h
#出来一大推,说明软件没问题了。
文件准备
下载两个示例数据
wget http://ssgac.org/documents/1_OA2016_hm3samp_NEUR.txt.gz
wget http://ssgac.org/documents/1_OA2016_hm3samp_SWB.txt.gz
两个示例文件都是GWAS summary结果,空格分隔的txt文件。如图:
这几列都是必须要有的。顺序没关系,但列名一定要指定或同默认。
多个trait文件snp要匹配,也可以用
--snp-name
指定。a1是effect allel,也可以用
--a1_name
指定。同理a2,freq也可以指定。z是GWAS的效应大小。也可以用beta和se。
--use_beta_se
默认识别的列名为beta,se,也可以用--beta_name
and --se_name
指定名称。n为样本量,也可以用
--n_name
指定。因为计算时候用到ldsc,所有有些格式需要ldsc能够识别。
染色体和bp也可以用
--chr_name and --bpos_name
指定。
运行软件
大致计算过程:
1.读取GWAS summary结果,通过minor allele frequency (MAF) >= 0.01和sample size N >= (2/3) * 90th percentile来过滤数据。
2.合并过滤后的GWAS汇总统计结果,得到可用snp的交集。
3.通过LD分数来估计残差的协方差矩阵。
4.估计遗传协方差矩阵。
5.运行MTAG输出结果。
代码:
python /[path]/mtag.py \
--sumstats 1_OA2016_hm3samp_NEUR.txt,1_OA2016_hm3samp_SWB.txt \
--out ./tutorial_results_1.1NS \
--n_min 0.0 \
--stream_stdout &
记得上面的path要改啊,就是mtag.py的路径。
--n_min 0.0
使样本量少的数据,避免snp的丢失。
--stream_stdout
生成log文件。
--out
可以指定文件夹和前缀。[DIR]/[TAG]
结果文件
[TAG].log:这个就不用说了吧。
以下两个文件是分隔符分隔的文件,包含了MTAG矫正后的效应值和se的结果,与输入的gwas summary文件其余部分相同。
主要看mtag_beta,pvalue.
以上是最基本的操作,还有后续的
Tutorial 2: Special Options
Tutorial 3: maxFDR Calculation
有时间再写吧!谢谢观赏!