基因ID命名及相互转换

由于ID来自于不同的数据库,或者说命名的意图不同,所以对于同一个基因,总是有多个不同的ID,最常见的比如entrze ID、ensembl ID、HGNC ID、refseq ID等。

    Entrze ID:是美国NCBI数据库中的基因标识符,通常是由纯数字表示,比如人类TP53基因的Entrze ID是7157(注意,不同物种的基因ID是不同的);

    Ensembl ID:是欧洲生物信息数据库的基因标识符,人的基因都是以ENSG(ensembl gene)四个大写字母开始,后面跟着11位数字,所以ensembl ID的长度通常都是15位,比如人类TP53基因的ensembl ID是ENSG00000141510,值得注意的是ensembl ID不仅包含了两万多个蛋白质编码基因,同样也有很多的假基因、miRNA等,因此它的数量较多,有六万多个,比人类已知的基因数多得多

    HGNC ID: 是指由人类基因命名委员会(HUGO Gene Nomenclature Committee)指定的基因标识符,该委员会通常对基因赋予一个名字以及一个ID,比如人类TP53基因,其标准的symbol是TP53(相当于简称),标准的名称是tumor protein p53,HGNC ID 是11998。

    Refseq ID:美国NCBI提供的基因标准序列(参考序列)数据库,在该数据库中,人类TP53基因的ID是NG_017013。

此外,与某个基因相关的还有GO ID、芯片探针ID、uniprot ID等。

Biomart数据库:是ensembl下属的一个网络数据库,里面包含非常多的信息。

biomaRt:是该网站的R语言接口,可以帮助用户在R语言中实现biomart的功能,因此使用该包时必须保证互联网连接通畅!

此外,与某个基因相关的还有GO ID、芯片探针ID、uniprot ID等。

Biomart数据库:是ensembl下属的一个网络数据库,里面包含非常多的信息。

biomaRt:是该网站的R语言接口,可以帮助用户在R语言中实现biomart的功能,因此使用该包时必须保证互联网连接通畅!

BiocManager::install("biomaRt") #安装biomaRt(Bioconductor 3.9.0)

library(biomaRt)    #加载包

listMarts()    #查看目标数据库(mart),主要是版本号version,会定期更新

#              biomart              version

#1 ENSEMBL_MART_ENSEMBL      Ensembl Genes 102

#2  ENSEMBL_MART_MOUSE      Mouse strains 102

#3    ENSEMBL_MART_SNP  Ensembl Variation 102

#4 ENSEMBL_MART_FUNCGEN Ensembl Regulation 102

## version版本可能会一直更新,所以先用listMarts()函数查看一下,目前为103版

#选择数据库和版本号

tmp_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL",version = "Ensembl Genes 103")

listDatasets(tmp_mart)    #显示该数据库下所包含的数据集(dataset)

#                      dataset                          description    version

#1 abrachyrhynchus_gene_ensembl Pink-footed goose genes (ASM259213v1) ASM259213v1

#2    acalliptera_gene_ensembl      Eastern happy genes (fAstCal1.2)  fAstCal1.2

#3  acarolinensis_gene_ensembl        Anole lizard genes (AnoCar2.0)  AnoCar2.0

#4    acitrinellus_gene_ensembl        Midas cichlid genes (Midas_v5)    Midas_v5

#5        ahaastii_gene_ensembl    Great spotted kiwi genes (aptHaa1)    aptHaa1

#6    amelanoleuca_gene_ensembl                Panda genes (ailMel1)    ailMel1

#...

#因为要转化人的gene ID,所以选择人的数据集,版本为GRCh38.p13

my_mart <- useMart(biomart = "ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl",version = "Ensembl Genes 103")

#转换基因ID: ncbi ID(即entrez ID)--> ensembl ID

test_genes <- c("10327","124","125","126","127","128","130","130589","131","160287")

gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),

                    filters = "entrezgene_id",

                    values=test_genes , mart= my_mart)

#attributes参数是你需要返回的gene信息,需要什么类型都写上(listAttributes()可以查看所有gene attribute类型)

#filters参数是你当前能提供的gene的ID类型,而values的值就是ID类型的具体值,一般是一个向量

#结果返回一个包含attributes具体信息的data.frame,attributes为列名

gene_id_info

#  ensembl_gene_id entrezgene_id hgnc_symbol

#1  ENSG00000117448        10327      AKR1A1

#2  ENSG00000187758          124      ADH1A

#3  ENSG00000196616          125      ADH1B

#4  ENSG00000248144          126      ADH1C

#5  ENSG00000198099          127        ADH4

#6  ENSG00000197894          128        ADH5

#7  ENSG00000172955          130        ADH6

#8  ENSG00000143891        130589        GALM

#9  ENSG00000196344          131        ADH7

#10 ENSG00000166800        160287    LDHAL6A

#提取全部基因信息

gene_id_info<- getBM(attributes=c("ensembl_gene_id","entrezgene_id","hgnc_symbol"),

                    filters = "chromosome_name",

                    values=c(1:22,'X','Y'), mart= my_mart)

————————————————

版权声明:本文为CSDN博主「X.Ray」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/qq_20095851/article/details/102863318

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,519评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,842评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,544评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,742评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,646评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,027评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,169评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,324评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,268评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,299评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,996评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,591评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,911评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,288评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,871评论 2 341

推荐阅读更多精彩内容