前言
康奈尔大学,FeiLab的一个预测工具。
iTAK 是依赖于数据库
的用于从蛋白质或核苷酸序列中识别植物转录因子 (TF)
、转录调节因子 (TR)
和蛋白激酶 (PK)
,然后将单个 TF、TR 和 PK 分类为不同的基因家族
的工具。
本人能力有限,本文可能存在描述不当与错误的地方,请仔细辨别后使用。
鉴定与依据
TFs 和 TRs 的识别和分类是基于主要从 PlnTFDB (Perez-Rodriguez et al., 2010)和 PlantTFDB [(Jin et al., 2014) 总结的一致性规则(每个基因家族的必需和禁止的蛋白质结构域),与来自 PlantTFcat (Dai et al., 2013)和 AtTFDB (Yilmaz et al., 2011)的家族 使用了支持证据。
PKs的鉴定依赖于Pfam数据库中与PF00069
和PF07714
的hits。鉴定到的PK通过与比较一系列的HMMs( Lehti-Shiu MD, Shiu S-H (2012))将其划分到不同的基因家族。
我来bici两句:iTAK发表文章中指出了两个数据库(PlnTFDB和PlantTFDB)各自的一些缺陷。plnTFDB我没用过,但是PlantTFDB在iTAK出来后是有更新的,高老师看不到这篇文章和这个工具不太可能。如果提出的问题确实存在且合理,我相信后面更新中肯定会修正的(这只是我的臆想,我的水平还不到去校对文中提到问题的水平),所以大家也不要看到iTAK
发文中提到了PlantTFDB
的问题就不用PlantTFDB
预测TF了。
工具有没有人在用?
这个工具,我是在一个学长的毕业答辩上听来的。
我昨天在pubmed搜了下,印象比较深的是有两篇中药论文中都用到了这个工具。
另外,我在网上搜到了一家生信分析报告模板,其中就有用这个工具。
关于软件本地部署,中文中有些本地部署的流程,但不建议大家本地部署(数据库的更新依赖mysql),因为github中的数据库文件没有在线网页版的新。虽然我不更新数据库的本地部署与在线版的预测结果条数一致(具体序列ID并没有进行比较),但我还是用了在线版本的分析结果。
iTAK 1.6 在线版本主页
http://itak.feilab.net/cgi-bin/itak/index.cgi
过程
第一步
:进入主页http://itak.feilab.net/cgi-bin/itak/index.cgi
不需要工具,就是网络慢点。
第二步
:输入数据,选择数据类型
蛋白质序列数据,以文件形式上传或者直接粘贴FASTA格式序列。
输入数据要求与限制(≈没限制)
:fasta格式,核苷酸
或者蛋白序列
,序列数<50k条
且文件大小<100M
。
第三步
:填写接收数据邮箱。
虽然可以在线等,但是写个邮箱稳妥点。
如果提交成功则应该会跳转类似如下界面。
第四步
:下载结果
我测试的3万多条蛋白序列,用了大概50分钟。
在线等结果或者复制邮箱中的网页链接到浏览器打开。
呈现如下结果(这里只截图了TF,TR):
点击左上角"Download
" 就可以下载所有结果。
结果文件内容
解压结果文件,层层打开文件夹PXXXXXXXXXX_output\home\kentnf\webfiles\bioinfo\itak\itak_web\itak_html\tmp\itak_online\PXXXXXXXXXX_output (这个文件夹属是有点深不可测)即可看到6个结果文件
- tf_sequence.fasta
所有鉴定的TF/TR序列
- tf_classification.txt
所有TF/TR的分类,tab制表符分割,包含序列的ID和各自的家族。
- tf_alignment.txt
制表符分割的txt文档,包含所有鉴定到的TF/TR比对蛋白结构域数据库。
- pk_sequence.fasta
所有鉴定到的PK蛋白序列。
- Shiu_classification.txt
所有鉴定到的PK蛋白分类。制表符分割的txt文件,包含序列ID和相应的蛋白激酶家族。
- Shiu_alignment.txt
制表符分割的txt文档,包含所有鉴定到的PK比对蛋白结构域数据库。
后话=废话
其实,这个工具我是先直接本地部署的,但是github上数据库这么久没更新,心里属实不踏实。看了下iTAK.pl
,当然是看不懂的,但是我发现了一些隐藏的选项和内容。在脚本最后的email模块发现了这个在线网址链接才知道原来还有在线版本。同时网站提供了最新数据库,但是看了下部署,竟然有用到mysql,然后直接对本地版说了拜拜。现在还没时间学习mysql。