clusterProfiler包进行id转换

常用id

Ensemble id:由欧洲生物信息数据库提供,一般以ENSG开头,后边跟11位数字。如TP53基因:ENSG00000141510
Entrez id:由美国NCBI提供,通常为纯数字。如TP53基因:7157
Symbol id:为我们常在文献中报道的基因名称。如TP53基因的symbol id为TP53
Refseq id:NCBI提供的参考序列数据库:可以是NG、NM、NP开头,代表基因,转录本和蛋白质。如TP53基因的某个转录本信息可为NM_000546
简单介绍一下clusterProfiler包
clusterProfiler包是有Y叔开发的包之一,可以进行基因及基因簇的分析和基因谱功能可视化,功能强大且更新很频繁。我们今天在clusterProfiler包中用到的是其中的叫做bitr()和bitr_kegg()的函数,支持许多物种的ID转换。

clusterProfiler包的安装

#安装
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("clusterProfiler")
#查看帮助文档
browseVignettes('clusterProfiler')
#载入包
library(clusterProfiler)
#载入注释包  如人类的基因组注释包library(org.Hs.eg.db)
library(org.Hs.eg.db)

简单地说明一下注释包:
因为在不同的物种中,都有着不同的注释信息。当我们要进行人类的基因组的注释时,我们要选择人类的基因组注释包。另外,在bioconductor中OrgDb对象支持19个物种的注释http://bioconductor.org/packages/release/BiocViews.html#___OrgDb

查看注释包中支持的ID转换类型

clusterProfiler包方便地提供了keytypes()函数查看注释包中的可以进行ID转换的项目。查看一下人类的注释包中支持的ID转换类型。
常用的几种,如:ENSEMBL、ENTREZID、SYMBOL、REFSEQ都在其中
keytypes(org.Hs.eg.db)

ID转换

如果输入的是SYMBOL ID的话

利用birt()函数

eg <- bitr(x,fromType = 'SYMBOL',
           toType = c('ENTREZID','ENSEMBL','REGSEQ'),
           OrgDb='org.HS.eg.db',
)
#其中的参数代表:
geneID:输入的geneID
fromType:输入的ID类型
toType:输出的ID类型
OrgDb:注释对象的信息
Drop:去除空值与否

结果


函数输出的对象为数据框dataframe,有利用数据框的操作方式进行后续操作。

一个小例子

利用bitr_kegg()函数进行基因ID与蛋白质ID的转换

和之前的bitr函数类似,完整的bitr_kegg()函数为bitr_kegg(geneID, fromType, toType, organism, drop = TRUE)
注意:
1.这里我们的输入fromType以及输出toType,允许的ID为必须为:‘kegg’, ‘ncbi-geneid’, ‘ncbi-proteinid’ or ‘uniprot’中的一个,否则会报错;另外,kegg id的数据源是NCBI,所以这个kegg id与entrez id是一致的。
2.orgaism参数可以为:‘hsa’,代表人类。其他的物种名称可以参考kegg的网站https://www.genome.jp/kegg/catalog/org_list.html

以TP53基因为例,我们这里的输入为TP53的entrez id: 7157

这里我们需要了解为什么会出现3个不同的uniprot。

首先,在uniprot中,uniProtKB是经过专家校验的蛋白数据库集,我们一般也通过该数据库查找蛋白的信息。UniProtKB英文全称UniProt Knowledgebase(UniProt知识库。主要由两部分组成:UniProtKB/Swiss-Prot (包含检查过的、手工注释的条目) 和 UniProtKB/TrEMBL (包含未校验的、自动注释的条目)。 网址为:https://www.uniprot.org/


我们分别看一下我们通过转换之后的uniprot id在uniprot数据库中的说明。我们进入数据库中查询,可以发现,P04637显示的是TP53基因的蛋白质表达水平,级别是Reviewed,就是其来源为UniProtKB/Swiss-Prot。



同理,我们可以找到K7PPA8和Q53GA5的结果。两者都是转录本水平的表达,级别都是Unreviewed,就是其来源为UniProtKB/TrEMBL。另外,相对而言,K7PPA8的注释分数要高,说明注释的程度要高一些。

ID转换之后

一般ID转换仅仅为开始的准备工作,将自己的数剧转换好之后可以进行后续的分析。另外,利用clusterProfiler包可以进行许多丰富的下游分析,比如GO分析、KEGG分析等等,有兴趣的同学们可以进一步学习。
参考 http://www.360doc.com/content/19/0506/00/30846661_833639624.shtml

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容