基因家族分析一(NBS基因家族鉴定)

https://www.bilibili.com/video/av85069377?p=2
大致流程

一:准备文件

1. 拟南芥的基因组,CDS,蛋白,GFF以及HMM文件。

GCF_000001735.4_TAIR10.1_genomic.fna
GCF_000001735.4_TAIR10.1_genomic.gff
GCF_000001735.4_TAIR10.1_protein.faa
GCF_000001735.4_TAIR10.1_rna.fna
NB-ARC.hmm

2.利用HMM文件搜寻pep文件

#利用hmmsearch搜寻pep
$hmmsearch --cut_tc --domtblout NBS-ABC.out NBS-ARC.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa
#过滤筛选得到E-value小于1*10-20,先拿到序列号
$grep -v "#" NBS-ABC.out|awk '($7 + 0) < 1E-20'|cut -f1 -d  " "|sort -u > NBS-ARC_qua_id.txt
#再根据筛选的序列号,从拟南芥pep文件中提取序列
$less Arabidopsis_thaliana.TAIR10.pep.all.fa | /home/spider/project/yuantao/soft/seqkit grep -f NBS-ARC_qua_id.txt > NBS-ARC_qua.fa
hmmsearch结果文件

3.利用clustalw进行多序列比对,构建物种特定的NB-ARC基因家族hmm模型

流程如下:

clustalw -> 1 -> NB-ARC_qua.aln ->2 ->1--> NBS-ARC_qua.aln ->NB-ARC_qua.dnd ->X

最终生成NBS-ARC_qua.aln和NBS-ARC_qua.aln文件,其中NB.aln文件就是用于构建新的马尔科夫模型文件。

$hmmbuild new-NB-ARC.hmm NBS-ARC_qua.aln

在利用新生成的拟南芥特异的马尔科夫模型寻找pep文件中的NB-ARC基因家族序列。

$hmmsearch --cut_tc --domtblout NBS-ARC.second.out new-NB-ARC.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa

对结果文件筛选,E-value值小于0.01,ID取重复重复,最后将ID存为final_E02.NB_ids.list。

grep -v "#" NBS-ARC.second.out|awk '($7 + 0) < 1E-20' | cut -f1 -d " "|sort -u >final.NBS.list
$less Arabidopsis_thaliana.TAIR10.pep.all.fa | /home/spider/project/yuantao/soft/seqkit grep -f final.NBS.list > final_NBS-ARC_qua.fa

这个序列就可以用于后续的进化树,保守结构域,motif等分析。

二:通过blast鉴定基因家族成员(适用于没有该基因家族HMM模型)

利用CDD,Pfam,interProscan确定基因家族成员保守结构域。
利用Plant CARE和PLACE预测成员顺式作用原件。
利用别的物种的基因家族的蛋白序列,实例用玉米和水稻的NBS序列寻找拟南芥的NBS序列。

1.从NCBI下载NBS序列(尽可能下载多个其他物种的NBS序列)

取NCBI得protein条目下搜索NBS序列。

2.blastp比对并筛选目标物种中符合要求的序列。

用query=ref_nbs.plant.fa去拟南芥蛋白序列中搜索

$makeblastdb -in Arabidopsis_thaliana.TAIR10.pep.all.fa -dbtype prot -out TAIR
$blastp -num_threads 16 -db TAIR -query ref_nbs.plant.fa -evalue 1e-20 -outfmt 7 -seg yes > reftoTAIR_blastp.out
#删除#开头的行
$sed -i '/^#/d' reftoTAIR_blastp.out
$awk '{print$2}' reftoTAIR_blastp.out >NBS_second.ids
##最后利用sort和uniq函数对NBS_second.ids去重复,再将去重复的HMM和blast找到的id取交集。
$cat NBS_second.ids|sort|uniq >uniq_NBS_second.ids
$comm -12 uniq_NBS_second.ids final.NBS.list > common.list
#最后根据交集中的ID取拟南芥的pep文件中搜索可信的NB-ARC序列
$less Arabidopsis_thaliana.TAIR10.pep.all.fa | /home/spider/project/yuantao/soft/seqkit grep -f common.list > final_all_NBS-ARC_qua.fa

拿到这些蛋白序列之后,就需要到NCBI,Pfam等网站上搜索是否含有NBS保守的结构域。

3.取Pfam查找NBS结构域(max=500条序列)

Pfam网站

例子

等着吧,一般都要排队。最后结果会发你邮箱。
结果

4.取NCBI的的CDD

不支持文件上传,只能复制粘贴。


CDD

搜索

5.利用interPro搜索结构域

interpro

结果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335