说明:InterPro是一个整合了各种蛋白及其功能的数据库,内含有蛋白质所属的家族及其所包含的结构域和位点。而interproscan就是用来搜索蛋白DOMAIN的一个工具,用户可以根据自己的核苷酸序列或者蛋白序列来搜索自己序列所含的domain信息。
1.下载与安装
# 此处为最新版本5.52-86.0,64位,下载MD5文件用来检验下载的完整性
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz.md5
md5sum -c interproscan-5.52-86.0-64-bit.tar.gz.md5
# 返回ok则说明下载完整
#解压
tar -pxvzf interproscan-5.52-86.0-*-bit.tar.gz
# 解压完后,进入目录,查看是否安装完好,若有用法说明弹出则表示安装成功。
./interproscan.sh
# 进行初始化,此命令大致是准备好HMM模型以供hmmscan使用
python3 initial_setup.py
2.测试与相关参数说明
测试
#完成上面的步骤后,即可进行测试(以下两条命令选一即可)
./interproscan.sh -i test_all_appl.fasta -f tsv -dp
./interproscan.sh -i test_all_appl.fasta -f tsv
# -db参数的含义:本人的理解是:含有-db则是关闭了连接EBI联网搜索的权限而使用本地化搜索,默认情况下是支持EBI联网搜索,若只需本地则使用-db。(可能不正确,大家看看就行)
参数说明
- -appl / -applications 搜索应用的名字(可选)
- 默认情况下,运行所有的分析,也可以自己指定一个或多个。
# 指定pfam搜索
./interproscan.sh -appl Pfam -i /path/to/sequences.fasta
#同时指定多个进行搜索
./interproscan.sh -appl CDD,COILS,Gene3D,HAMAP,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,PROSITEPATTERNS,PROSITEPROFILES,SFLD,SMART,SUPERFAMILY,TIGRFAM -i /path/to/sequences.fasta
- -i /-fasta 序列文件
- 输入的是蛋白或者核酸的fasta文件,将会返回TSV,XML,Gff3三个输出结果
./interproscan.sh -i /path/to/sequences.fasta
# 输出结果为sequences.tsv, sequence.xml, sequences.gff3
- -t / 序列类型
- 默认是蛋白序列,若为核苷酸序列,则需要加上此参数
./interproscan.sh -t n -i /path/to/sequences.fasta
....还有很多参数就不一一展示,有兴趣的可以查看官网文档
3.包含的分析
主要包含以下分析:
- CDD
- COLIS
- Gene3D
- HAMAP
- MOBIDB
- PANTHER
- Pfam
- PIRSF
- SMART
- ...