51.《Bioinformatics Data Skills》之获取基因组区域碱基序列

获取启动子区域之后，我们可能想要提取这些区域的碱基序列，有两种常见做法：

直接使用Bioconductor发行的R包
将区域存储为类似BED格式的文件，使用BEDTools命令行工具

这里着重介绍第1种方案，采用一个关键的R包BSgenome (BS代表biostrings)。此包与之前介绍的GenomicFeatures类似，预先存储了不同特种，不同版本的基因组序列信息（部分依赖数据如图1，所有依赖数据见官方说明），如果没有你感兴趣序列的话可以考虑BEDTools工具。

图1 BSgenome序列数据

通过以下命令安装BSgenome：

> BiocManager::install("BSgenome")

导入小鼠的参考基因组序列：

> library(BSgenome.Mmusculus.UCSC.mm10)
> mm_gm <- BSgenome.Mmusculus.UCSC.mm10

序列基本信息查看

通过metadata命令可以查看序列的物种，版本，来源等信息：

> metadata(mm_gm)
$organism
[1] "Mus musculus"

$common_name
[1] "Mouse"

$genome
[1] "mm10"

$provider
[1] "UCSC"

$release_date
[1] "Dec. 2011"

$source_url
[1] "http://hgdownload.cse.ucsc.edu/goldenPath/mm10/chromosomes/"

通过seqinfo命令查看序列信息：

> seqinfo(mm_gm)
Seqinfo object with 66 sequences (1 circular) from mm10 genome:
  seqnames       seqlengths isCircular genome
  chr1            195471971      FALSE   mm10
  chr2            182113224      FALSE   mm10
  chr3            160039680      FALSE   mm10
  chr4            156508116      FALSE   mm10
  chr5            151834684      FALSE   mm10
  ...                   ...        ...    ...
  chrUn_GL456392      23629      FALSE   mm10
  chrUn_GL456393      55711      FALSE   mm10
  chrUn_GL456394      24323      FALSE   mm10
  chrUn_GL456396      21240      FALSE   mm10
  chrUn_JH584304     114452      FALSE   mm10

直接查看某条染色体序列：

> mm_gm$chrM
16299-letter DNAString object
seq: GTTAATGTAGCTTAATAACAAAGCAAAGCACTGAAA...TCTAATCATACTCTATTACGCAATAAACATTAACAA

定位碱基序列

序列本质上字符串，那么我们就可以使用已有的一段序列来搜索其出现的位置(使用Biostrings::matchPattern函数)。比如说我们在1号染色体上搜索“TCGATCGA”序列：

> matchPattern("TCGATCGA", mm_gm$chr1)
Views on a 195471971-letter DNAString subject
subject: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN...NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
views:
           start       end width
   [1]   5118747   5118754     8 [TCGATCGA]
   [2]  12846411  12846418     8 [TCGATCGA]
   [3]  20403153  20403160     8 [TCGATCGA]
   [4]  24329147  24329154     8 [TCGATCGA]
   [5]  28627400  28627407     8 [TCGATCGA]
   ...       ...       ...   ... ...
  [73] 181302459 181302466     8 [TCGATCGA]
  [74] 184731611 184731618     8 [TCGATCGA]
  [75] 184836336 184836343     8 [TCGATCGA]
  [76] 185637438 185637445     8 [TCGATCGA]
  [77] 189056519 189056526     8 [TCGATCGA]

注意：这种方式只限于小规模地查找，不可进行大规模的序列比对。

查看区域序列

上一节我们获取了启动子区域信息(命令如下)：

数据下载地址

> chr1_gtf <- import("Mus_musculus.GRCm38.75_chr1.gtf.gz")
> chr1_pcg <- mm_gtf[mm_gtf$type == "gene" & mm_gtf$gene_biotype == "protein_coding"]
> chr1_pcg_3kb_up <- flank(chr1_pcg, width = 3000)

在我们提取启动子区域序列之前，需要关注一个细节，启动子区域的染色体编号和参考基因组染色体编号方式并不一致（seqlevels提取染色体编号）：

> all(seqlevels(chr1_pcg_3kb_up) %in% seqlevels(mm_gm))
[1] FALSE

这是因为我们前面使用的注释数据来自NCBI，其采用纯数字来编号染色体（如“1”，“2”），而BSgenome采用来自UCSC的基因组，采用的染色体编号方式为“chr1”, "chr2"等，通过seqlevelsStyle函数确认：

> seqlevelsStyle(chr1_pcg_3kb_up)
[1] "NCBI"    "Ensembl" "MSU6"    "AGPvF"
> seqlevelsStyle(mm_gm)
[1] "UCSC"

那么，这里就需要先统一染色体命名方式，这里将NCBI的序列转变为UCSC的风格：

> seqlevelsStyle(chr1_pcg_3kb_up) <- "UCSC"
> all(seqlevels(chr1_pcg_3kb_up) %in% seqlevels(mm_gm))
[1] TRUE

接下来就可以进行启动子区域的序列提取了，采用getSeq函数：

> promoters_seq <- getSeq(mm_gm, chr1_pcg_3kb_up)
> promoters_seq
DNAStringSet object of length 1240:
       width seq
   [1]  3000 ATTCTGAGATGTGGTTACTAGATCAATGGGAT...CGGCTAGCCGGGCCCAGCGCCCAGCCCCGCGG
   [2]  3000 GAAGTGGTATATCTGCCTAGTCTAGGTGTGCA...GCTGTACTTAATCTGTGAGCACACATGCTAGT
   [3]  3000 CTTAAAAACCTAGATATTCTATTTTTTTTTTT...CTTTGATAACGTCGTGAGCTCGGCTTCCAACA
   [4]  3000 GAATTGGCACAGTTTCACATGATTGGTCCATT...GTACGGCCGCTGCAGCGCGACAGGGGCCGGGC
   [5]  3000 AAATATAAAGTTAACATACAAAAACTAGTCGC...TCGGGGCGCGAGCTCGGGGCCGAACGCGAGGA
   ...   ... ...
[1236]  3000 CAACATGGGTAGTAGTGGGGGAGCTTTAGTTC...GAGGGGCTGGCCTCACCAAGACGCAACAGGGA
[1237]  3000 AGGTGTGTTATATAATAATTGGTTTGACACTG...CTTAAAACTTGCTCTCTGGCTTCCTGGCGCCC
[1238]  3000 TTGGCCAGGTGATTGATCTTGTCCAACTGGAA...GTAAGGCCGGGCTATATGCAAACCGAGTTCCC
[1239]  3000 GGCATTCCCCTATACTGGGGCATAGAACCTTC...ATTTAAGGGTCTGCTCCCCACTGCTTACAGCC
[1240]  3000 GTAAATTTTCAGGTATATTTCTTTCTACTCTT...CTTTGATATTTCTGTGGTCCTTATTTCTAGGT

getSeq函数的两个参数分别为存储基因组序列的BSgenome对象和存储范围的GRanges对象。

最后，我们可以将提取的碱基序列以fasta格式存储，采用writeXStringSet命令：

> writeXStringSet(promoters_seq, filepath= "Mmusculus.UCSC.mm10.promoters.fasta", format = "fasta")

最后编辑于：2021.07.29 11:02:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 193,495评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,469评论 2赞 369
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 140,825评论 0赞 318
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 51,974评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,849评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 45,990评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,415评论 3赞 380
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,125评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,351评论 1赞 288
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,474评论 2赞 307
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,249评论 1赞 324
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,119评论 3赞 310
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,496评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,838评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,118评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,366评论 2赞 340
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,573评论 2赞 335

51.《Bioinformatics Data Skills》之获取基因组区域碱基序列

序列基本信息查看

定位碱基序列

查看区域序列

推荐阅读更多精彩内容