数据库 | 基因组注释

导读

从网上收集的一些数据库信息,方便学习查看:

  1. VFDB
  2. PHI
  3. TCDB
  4. Swiss Prot
  5. Pfam
  6. GO
  7. eggnog-mapper: KEGG/COG/KOG/GO/BiGG

一、VFDB 【毒力因子】

毒力因子指由细菌,病毒,真菌等代谢产生的带有侵袭力和毒素等毒力性质的分子,主要用于微生物感染宿主时,通过抑制或逃避宿主的免疫反应等出入宿主组织细胞,并从宿主获得营养及自身增殖生长的目的。毒力因子可编码在可移动遗传元件(比如质粒、基因岛、噬菌体等)上并进行水平基因转移(传播),使无害细菌变成危险的病原菌,所以在鉴定毒力因子时一般会考虑基因岛、分泌蛋白等。VFDB数据库由中国医学科学院研发,收集整理了24个属100多种重要医学病原菌已知毒力因子的组成、结构、功能、致病机理、毒力岛、序列和基因组信息等内容,被广泛应用于毒力因子基因鉴定。

官网:http://www.mgc.ac.cn/VFs/download.htm
fasta下载:http://www.mgc.ac.cn/VFs/Down/VFDB_setB_pro.fas.gz

二、PHI 【病原体宿主互作】

PHI-base(Pathogen Host Interactions),病原宿主互作数据库,是一个免费开放的数据库,收录了经过实验验证或文献报道的能够感染植物、动物、真菌和昆虫的真菌、卵菌、细菌等病原菌的致病基因、毒力基因和效应蛋白基因。另外,还收录了抗真菌化合物及其靶基因。PHI数据库(4.6版本,20190411),从3011篇文献中收集了263种致病菌(细菌、真菌、原生动物和线虫)的6438个基因和194种宿主(植物占~70%、脊椎动物、昆虫、线虫和真菌)的11340种相互关系,其中包含510中疾病。PHI-base将收集到的参考文献信息、 基因信息、病原和宿主信息、疾病信息、表型和相互关系等记录到数据库中,并提供关键词进行搜索。

官网:http://www.phi-base.org/
fasta下载:http://www.phi-base.org/downloadLink.htm

三、TCDB 【转运蛋白分类】

TCDB是对膜转运蛋白(Membrane Transport Protein)进行分类的一个数据库,它制定了一套转运蛋白分类系统(Transporter Classification), 简称TC System, 类似于对酶进行分类的EC系统。TCDB对于每一个转运蛋白家族,提供了一个TC Nmuber, TC Number 由小数点分隔的5为数字或者字母构成。对于整个TC 分类系统而言,包含5个层级的分类,所以TC Number 包含5个数字或者字母, 每个数字或字母实际代表某一个层级的分类结果,第一级分类包括5个大类。目前TCDB提供了超过800个转运蛋白家族, 包含10000多条唯一的蛋白质序列和10000多篇文献。

官网:http://www.tcdb.org/
fasta下载:http://www.tcdb.org/download.php

四、Swiss Prot 【注释蛋白】

SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

官网:https://www.ebi.ac.uk/uniprot/
fasta下载:https://www.uniprot.org/downloads

五、Pfam 【蛋白家族】

Pfam提供蛋白质家族和结构域的完整准确的分类,被广泛用于查询蛋白家族或蛋白结构域的注释,结构及其多序列比对信息。在该数据库中,每个蛋白家族由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。Pfam包括两个质量级别的家族数据库:Pfam-A和Pfam-B。1. Pfam-A来自基础序列数据库Pfamseq,是根据最新的UniProtKB数据库建立,质量较高。2. Pfam-B做为Pfam-A的补充,是一个未注释的低质量数据库,一般是由ADDA数据中的非冗余cluster自动生成的。虽然质量较低,但对于鉴定Pfam-A无法覆盖到的功能保守区域也是非常有用的。

官网:http://pfam.xfam.org/
fasta下载:ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.full.gz

六、GO 【基因本体】

GO数据库是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种,是OBO(Open BiomedicalOntologies)组织中的一员,GO提供了一系列的语义(terms)用于描绘基因、基因产物的特点,这些语义通过三个概念维度展开:细胞学组件(Cellular Component)用于描述某个节点的亚细胞结构、位置和大分子复合物,如外部封装结构(external encapsulating structure)等;分子功能(molecular function),用于描述基因以及基因产物的功能,比如蛋白质结合转录因子活性(protein binding transcription factor activity);生物学途径(biological process)指的是分子功能的有序组合以实现更复杂的生物功能,例如树突状细胞的抗原处理和递呈(dendritic cell antigen processing and presentation)。

官网:http://geneontology.org/
ncbi fasta下载:ftp://ftp.ncbi.nih.gov/gene/DATA/gene2go.gz

七、eggNOG-mapper 【KEGG/COG/KOG/GO/BiGG】


进行KOG注释的方法和COG一致。对真核生物使用KOG注释。原核使用COG注释。

官网:http://eggnog-mapper.embl.de/
guthub:https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2
软件:git clone https://github.com/jhcepas/eggnog-mapper.git
数据库:download_eggnog_data.py
NCBI COG: https://www.ncbi.nlm.nih.gov/COG/
NCBI KOG: ftp://ftp.ncbi.nih.gov/pub/COG/KOG/

  • 注释结果:
1. query_name
2. seed eggNOG ortholog
3. seed ortholog evalue
4. seed ortholog score
5. Predicted taxonomic group
6. Predicted protein name
7. Gene Ontology terms 
8. EC number
9. KEGG_ko
10. KEGG_Pathway
11. KEGG_Module
12. KEGG_Reaction
13. KEGG_rclass
14. BRITE
15. KEGG_TC
16. CAZy 
17. BiGG Reaction
18. tax_scope: eggNOG taxonomic level used for annotation
19. eggNOG OGs 
20. bestOG (deprecated, use smallest from eggnog OGs)
21. COG Functional Category
22. eggNOG free text description

参考:
序列功能注释神器:eggNOG-mapper,KEGG/COG/KOG/GO/BiGG 一网打尽
COG KOG注释

\color{green}{还有很多参考没有及时保存,后期添上,这里纯属个人学习备忘,无任何商业用途/(ㄒoㄒ)/~~}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容