一、InterPro数据库简介
Interpro是集成了蛋白质家族、结构域和功能位点的非冗余蛋白质特征序列数据库。 Interpro数据库成员包括Coils 、Gene3D、Pfam、PRINTS、ProSitePatterns、 ProSiteProfiles、 SMART、 SUPERFAMILY、 TIGRFAM、 ProDom、 PIR 数据库。采用 interproscan 软件可以对新蛋白质序列通过序列比对或者 HMM 算法等搜索与 interpro 蛋白质特征序列匹配预测蛋白质各种结构功能域、信号肽、跨膜特征、蛋白质螺旋结构等.
interproscan 结果文件见下图:
interpro 结构功能域或者功能位点计数分析
将注释结果(文件链接http://rice.plantbiology.msu.edu/pub/data /Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0 /all.dir/all.interpro)导入到R中进行结构功能域或者功能位点计数分析,代码如下
#导入R包
library(tidyverse)
library(ggpubr)
# 读取结果文件并去掉有缺失值的行
interpro <- read_tsv("all.interpro",na = "N/A") %>% na.omit()
# 统计蛋白质家族、结构域和功能位点的比例等
ipr <- interpro %>% select(model,ipr_acc,ipr_desc) %>% group_by(model, ipr_acc) %>%
summarise(ipr_desc = ipr_desc[[1]]) %>% group_by(ipr_acc, ipr_desc) %>% summarise(Count=n())%>%
arrange(desc(Count)) %>% ungroup() %>%mutate(Percent = Count/sum(Count))
# 绘制前20的结构功能域或者功能位点
p <- ggplot(ipr) +
geom_bar(aes(x = ipr_desc, y = Percent, fill = ipr_desc), stat = "identity") +
scale_y_continuous(labels = scales::percent, limits = c(0, 0.08),name = "Percent of Domain") +
scale_x_discrete(limits = ipr$ipr_desc[1:20], name = NULL) + scale_fill_discrete(guide = FALSE)+
theme_pubr() +
theme(axis.text.x=element_text(angle=60,vjust=1, hjust=1))
#保存图片
ggsave("interpro.pdf", p, width = 16, height = 10)
ggsave("interpro.png", p, width = 16, height = 10)
ipr数据如下:
可视化结果: