生信软件 | bowtie2(测序序列与参考序列比对)

1. 介绍

  • Bowtie2 是将测序reads与长参考序列比对工具 (适用于将长度大约为50到100或1000字符的reads与相对较长的基因组, 如哺乳动物,进行比对)。
  • 通常是比较基因组学(包括识别变体(variation calling),ChIP-seq,RNA-seq,BS-seq)管道的第一步。
  • 可以处理非常长的读数(即10s或100s的千字节),但它针对近期测序仪产生的读数长度和误差模式进行了优化,如Illumina HiSeq 2000,Roche 454和Ion Torrent仪器。
  • Bowtie2使用FM索引(基于Burrows-Wheeler Transform 或 BWT)对基因组进行索引,以此来保持其占用较小内存。对于人类基因组来说,内存占用在3.2G左右。Bowtie2 支持间隔,局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。

如果目的是对齐两个非常大的序列(例如两个基因组),请考虑使用MUMmer
如果目的是与相对较短的参考序列(如细菌基因组)非常灵敏的比对,可以使用Bowtie 2完成,但也可以考虑使用NUCmerBLATBLAST等工具。当参考基因组很长时,这些工具可能会非常缓慢,但当参考基因组很短时通常就足够了。

2. 安装

这里提供两种方法,选择一种安装即可,强烈建议使用Conda方式安装

2.1 Conda 安装

conda install -y bowtie2

这里需要安装Conda (一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件的依赖问题) : Conda 安装使用图文详解

2.2 传统安装

下载

http://bowtie-bio.sourceforge.net/bowtie2/index.shtml

在Linux系统下将上述的链接下载到本地

sudo wget https://jaist.dl.sourceforge.net/project/bowtie-bio/bowtie2/2.3.4.1/bowtie2-2.3.4.1-linux-x86_64.zip

解压

unzip bowtie2-2.3.4.1-linux-x86_64.zip

设置环境变量

  • 打开环境变量设置文件
sudo vim /etc/environment
  • 添加软件 bin 目录的路径,并用 : 隔开,如下图
  • 执行source命令,使配置立即生效
sudo source /etc/enviroment

3. 使用

3.1 示例

单末端

"bowtie2 -p 10 -x genome_index -U input.fq | samtools sort -O bam -@ 10 -o - > output.bam

双末端

bowtie2 -p 10 -x genome_index -1 input_1.fq -2 input_2.fq | samtools sort -O bam -@ 10 -o - > output.bam

需要注意的是:

  • 这条命令把bowtie2 生成的sam文件通过管道|传递到samtools,将sam转换为bam文件,省去中间sam文件的空间占用
  • genome_index 指的是用于bowtie2的索引文件(如下图),而不是参考基因组本身,构建过程参考后文。
  • genome_index 需要指定路径及其共用文件名,比如我的索引文件放在/data/ref/bowtie2/mm10目录下,但是需要输入的参数为/data/ref/bowtie2/mm10/mm10。最后一个mm10指的是共用文件名。
    mark

3.1.1 必需参数

参数 解释
-x <bt2-idx> 参考基因组索引的基名。基本名称是任何索引文件的名称,但不包括最终的.1.bt2/ .rev.1.bt2/等。bowtie2在当前目录中首先查找指定的索引,然后在BOWTIE2_INDEXES环境变量中指定的目录中查找。
-1 <m1> 以逗号分隔的包含队友1的文件列表(文件名通常包含_1),例如-1 flyA_1.fq,flyB_1.fq。使用此选项指定的序列必须与文件中的文件和读取的文件一致<m2>。读数可能是不同长度的混合。如果-指定,bowtie2将从“标准输入”或“标准输入”文件句柄读取队友1。
-2 <m2> 逗号分隔的包含队友2(文件名通常包括_2)的文件列表,例如-2 flyA_2.fq,flyB_2.fq。使用此选项指定的序列必须与文件中的文件和读取的文件一致<m1>。读数可能是不同长度的混合。如果-指定,bowtie2将从“标准输入”或“标准输入”文件句柄中读取队友2。
-U <r> 逗号分隔的包含未配对读取的文件列表要对齐,例如lane1.fq,lane2.fq,lane3.fq,lane4.fq。读数可能是不同长度的混合。如果-指定,bowtie2则从“标准输入”或“标准输入”文件句柄中读取数据。
-S <sam> 将SAM对齐文件写入。默认情况下,对齐被写入“标准输出”或“标准输出”文件句柄(即控制台)。

3.1.2 可选参数(常用)

参数 解释
-q 读取(与指定<m1><m2><s>)是FASTQ文件。FASTQ文件通常有扩展名.fq.fastq。FASTQ是默认格式。另见:--solexa-quals--int-quals
-p/--threads NTHREADS 启动NTHREADS并行搜索线程(默认值:1)。线程将在单独的处理器/内核上运行,并在解析读取和输出对齐时进行同步。搜索对齐高度平行,加速接近线性。提高-p增加的蝴蝶结2的内存占用。例如,当与人类基因组索引对齐时,-p从1增加到8会将内存占用增加数百兆字节。该选项仅在bowtiepthreads库链接时才可用(即,如果BOWTIE_PTHREADS=0未在构建时指定)。
--local 在这种模式下,Bowtie 2不要求整个读取从一端到另一端对齐。相反,为了达到最大可能的对齐分数,可以从末端省略一些字符(“软裁剪”)

3.2 构建索引

3.2.1 官方索引

wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
unzip mm10.zip
rm mm10.zip make_mm10.sh

3.2.2 自建索引

这里以构建M. musculus, UCSC mm10 为例

wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz 
tar -zxvf chromFa.tar.gz 
cat *.fa mm10.fa
bowtie2-build mm10.fa mm10

3.3 例子

3.3.1 例子:M. musculus, UCSC mm10

  • 下载参考基因组
wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz 
tar -zxvf chromFa.tar.gz 
cat *.fa mm10.fa
  • 构建bowtie2索引文件
bowtie2-build mm10.fa mm10
  • 运行bowtie2 获取 SAM 文件
bowtie2 -p 6 -3 5 --local -x mm10 -1 example_1.fastq -2 example_2.fastq -S SRR3208744.bam

这行命令表示使用--local的比对模式,使用 mm10 的索引;这里是双末端测序,所以将待比对文件 example_1.fq example_2.fa 分别输入,以 example.sam 的文件输出

如果为单末端测序的话,上述命令换为:

bowtie2 -p 6 -3 5 --local -x mm10 -U /opt/sdc/SRR/example.fastq -S example.sam

  • SAM 文件转为 BAM 文件
samtools sort example.sam > example.bam
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容