可以从fasta中提取基因序列的4款软件

前言

  做生分析有时候需要从基因组fasta文件中提取基因的序列,对于这个需求有不少现成的软件可以来实现,今天来跟大家分享4款可以完成这个需求的软件,废话不多说了,直接来看看是哪4个软件:seqkit、seqtk、bedtools、gffread,这四个软件本身功能都很丰富且实用,提取序列只是软件的功能之一。前面两款功能很类似,这个从它们的名字也可以看出来,功能有些冗余实际实用时选择其中一款即可。bedtools应该很多人都用过,这个软件主要是用来操作bed文件,可以对两个bed进行交集、并集等,gffread单独拿出来有些人可能不知道,如果说cufflinks很多人可能就知道了,gffread就是cufflinks工具集中的一个子软件,它还用一个常用的功能就是gtf、gff格式互转。那下面我们就来看看四款软件的具体使用方法。

  1. seqkit
    首先来看一下seqkit使用方法,该软件的功能很多(可使用seqkit -h来查看全部可用命令),提取序列使用的是subseq子命令,该命令可以根据bed、gtf、region位置信息从fasta文件中提取基因序列,并且可以扩展两侧的序列,具体代码如下:
Usage:
  seqkit subseq [flags]

Flags:
      --bed string        by tab-delimited BED file
      --chr strings       select limited sequence with sequence IDs when using --gtf or --bed (multiple value supported, case ignored)
  -d, --down-stream int   down stream length
      --feature strings   select limited feature types (multiple value supported, case ignored, only works with GTF)
      --gtf string        by GTF (version 2.2) file
      --gtf-tag string    output this tag as sequence comment (default "gene_id")
  -h, --help              help for subseq
  -f, --only-flank        only return up/down stream sequence
  -r, --region string     by region. e.g 1:12 for first 12 bases, -12:-1 for last 12 bases, 13:-1 for cutting first 12 bases. type "seqkit subseq -h" for more examples
  -u, --up-stream int     up stream length

Global Flags:
      --alphabet-guess-seq-length int   length of sequence prefix of the first FASTA record based on which seqkit guesses the sequence type (0 for whole seq) (default 10000)
      --id-ncbi                         FASTA head is NCBI-style, e.g. >gi|110645304|ref|NC_002516.2| Pseud...
      --id-regexp string                regular expression for parsing ID (default "^(\\S+)\\s?")
      --infile-list string              file of input files list (one file per line), if given, they are appended to files from cli arguments
  -w, --line-width int                  line width when outputing FASTA format (0 for no wrap) (default 60)
  -o, --out-file string                 out file ("-" for stdout, suffix .gz for gzipped out) (default "-")
      --quiet                           be quiet and do not show extra information
  -t, --seq-type string                 sequence type (dna|rna|protein|unlimit|auto) (for auto, it automatically detect by the first sequence) (default "auto")
  -j, --threads int                     number of CPUs. (default value: 1 for single-CPU PC, 2 for others) (default 2)
 
#提取序列
seqkit subseq --bed gencode_lncrna.bed -o test.fa GRCh38.primary_assembly.genome.fa

可以看来seqkit提取序列还是很方便的,而且可以分别指定上下游延申多少bp的侧翼序列,或者只提取上下游序列也是可以的,还可以指定输出文件的宽度,更多细节功能这里就不多说了。

  1. seqtk
    下面来看一下seqtk的功能,这个软件根据bed文件来从fasta中提取序列,从下面的代码可以看出这个软件的子命令参数很少,通过重定向的方式输出到新的文件里,用起来很简单。
Usage:   seqtk subseq [options] <in.fa> <in.bed>|<name.list>
Options: -t       TAB delimited output
         -l INT   sequence line length [0]
#提取序列
seqtk subseq GRCh38.primary_assembly.genome.fa gencode_lncrna.bed >test.fa

  1. bedtools
    bedtools功能很多,非常出名的功能是用来对bed文件取交集等一系列操作,那些功能这里就不多说了,感兴趣的可以自己去测试。可以看出该软件可以根据bed、gff、vcf位置来从fasta中提取序列,下面来演示一下该软件如何提取序列。
Usage:   bedtools getfasta [OPTIONS] -fi <fasta> -bed <bed/gff/vcf> -fo <fasta>
Options:
        -fi     Input FASTA file
        -bed    BED/GFF/VCF file of ranges to extract from -fi
        -fo     Output file (can be FASTA or TAB-delimited)
        -name   Use the name field for the FASTA header
        -split  given BED12 fmt., extract and concatenate the sequencesfrom the BED "blocks" (e.g., exons)
        -tab    Write output in TAB delimited format.
                - Default is FASTA format.

        -s      Force strandedness. If the feature occupies the antisense,
                strand, the sequence will be reverse complemented.
                - By default, strand information is ignored.

        -fullHeader     Use full fasta header.
                - By default, only the word before the first space or tab is used.
#提取序列
bedtools getfasta -fi GRCh38.primary_assembly.genome.fa -bed gencode_lncrna.bed -name -fo test.fa

该软件提取序列时,可以根据基因链的信息来提取序列,这个功能有时候很实用。同时这个软件的速度也是非常的块。

  1. gffread
    gffread是cufflinks软件集中的一个子软件,该软件另一个常用的功能是gtf、gff格式互转,感兴趣的可以自己测试。这个软件的参数非常多,这里就不展示了。这款软件可以根据gff、gtf位置信息来从fasta中提取序列,值得一提的是该软件在提取序列时,可以选择输出的格式,如提取外显子区的序列、CDS序列、翻译成蛋白序列,功能很是贴心。下面来展示一下如何提取。
#提取序列
gffread -g GRCh38.primary_assembly.genome.fa -w test.fa  gencode.v34.primary_assembly.annotation.gtf

介绍了几个可以根据bed文件来提取序列的软件,那有些人可能还想知道如何得到bed文件呢?可以根据gtf文件来生成,下面给大家介绍一款用来根据gtf生成bed文件的软件——bedops。这里提醒一下,该软件有很多种安装方式,但推荐大家使用conda安装省事省心,其他方式基本都需要sudo权限。下面来看一下这款软件使用方法。

#安装软件
conda install -c conda-forge -c bioconda bedops
#gtf to bed
gtf2bed < gencode.v34.primary_assembly.annotation.gtf >test.bed

用conda安装好bedops后,激活一下环境就可以使用了,转换格式用的是gtf2bed子软件,值得注意的是该软件的输入输出文件都用重定向的方式,还有一个需要注意的点提醒一下大家,如果你的gtf文件中没有transcript ID这个属性会报错,会出现这样的错误提示“Error: Potentially missing gene or transcript ID from GTF attributes (malformed GTF at line [1]?)” 。此时,可通过下面的命令来解决问题:

#gtf文件没有transcript ID属性可以使用该命令
awk '{ if ($0 ~ "transcript_id") print $0; else print $0" transcript_id \"\";"; }' input.gtf | gtf2bed - > output.bed

最后

  今天给大家介绍了四款可以用来从fasta提取序列的软件,外加一个可以将gtf转bed文件的软件,有了这几款软件,基本上提取序列就是很容易的事。这些软件其他的功能也是很不错,大家可以自己去探索吧!emm,今天就分享到这里了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342