探针寻找之旅(9)——BWA-aln比对短序列探针到基因组

BWA-aln简介

  • BWA(Burrow-Wheeler Aligner),是一款将DNA序列mapping到参考基因组上的软件,能够将差异度较小的序列比对到一个较大的参考基因组上。有三个比对算法:BWA-backtrack,BWA-SW和BWA-MEM。
  • BWA-aln对应的就是BWA-backtrack算法:用于将100bp以内的短序列比对到参考基因组(本来是用来比对 Illumina 的序列的,reads 长度最长能到 100bp),此处就借用来将多条50bp的序列比对到基因组。
  • BWA-aln对应的命令:bwa aln/samse/sampe(samse=sample single-end,sampe=sample paired-end)。

项目需求

  • 将上千个50bp的染色体探针序列比对到最新版基因组

序列准备

  • FASTA格式探针文件(BWA软件支持格式为fasta、fastq以及他们的压缩文件.gz作为比对序列),可以使用AWK进行调整
  • 基因组FASTA文件,可以使用$ less genome.fa | awk '$1 ~"^>"'查看所有序列名(包括染色体),有的基因组含有未组装的Scaffold序列,可以拼作为一条未知染色体,还有的基因组含有线粒体、叶绿体基因组等。

基因组比对

$ conda create -n bwa python=3.7
$ conda activate bwa
$ conda install bwa
  • 建立基因组索引 → 比对到基因组
# bwa建立索引
bwa index csi.chromosome.fa
# 比对到基因组,生成二进制文件(-t 指定线程数)
bwa aln -t 2 -f ./probe1.sai ./genome.fa ./probe1.fa
# 转为sam文件,因为是一条序列的比对,使用单端测序的解读方式
bwa samse -f ./probe1.sam ./genome.fa ./probe1.sai
# .sai文件可以删除了

探针比对结果统计

  • sam文件的解读:生信:2:sam格式文件解读,博主写的很全,很厉害

    • 主体部分有11个主列和1个可选列
      QNAME 比对的序列名称 例如:M04650:84:000000000-B837R:1:1101:22699:1759(一条测序reads的名称)
      FLAG Bwise FLAG(表明比对类型:paring,strand,mate strand等) 例如:99
      RENAME 比对上的参考序列名 例如:NC_000075.6
      POS 1-Based的比对上的最左边的定位 例如:124057649
      MAPQ 比对质量 例如:60
      CIGAR Extended CIGAR string(操作符:MIDNSHP)比对结果信息;匹配碱基数,可变剪接等 例如:87M
      MRNM 相匹配的另外一条序列,比对上的参考序列名 例如:=
      MPOS 1-Based leftmost Mate Position (相比于MRNM列来讲意思和POS差不多) 例如:124057667
      ISIZE 插入片段长度 例如:200
      SEQ 和参考序列在同一个链上比对的序列(若比对结果在负义链上,则序列是其反向重复序列,反向互补序列) 例如:ATTACTTGGCTGCT
      QUAL 比对序列的质量(ASCII-33=Phred base quality)reads碱基质量值 例如:-8CCCGFCCCF7@E-
      可选的列 以TAG:TYPE:VALUE的形式提供额外的信息
  • 写脚本统计sam结果

$ cat stat2.sh
#! /bin/sh
#
cd $(pwd)
echo -e "probe\tchr1\tchr2\tchr3\tchr4\tchr5\tchr6\tchr7\tchr8\tchr9" > title.txt
for i in $(ls *.sam)
do
        echo ${i%.*} > ${i%.*}.prob
        for j in 'chr1' 'chr2' 'chr3' 'chr4' 'chr5' 'chr6' 'chr7' 'chr8' 'chr9'
        do
                less $i | awk '$3 == "'$j'" {print $0}' | wc -l >> ${i%.*}.prob
        done
done
for i in $(ls *.prob)
do
        paste -s $i > tmp.row
        cat title.txt tmp.row > probedistribution.csv
        cat probedistribution.csv > title.txt
done
  • 统计效果
$ cat probedistribution.csv
probe   chr1    chr2    chr3    chr4    chr5    chr6    chr7    chr8    chr9
chr1a   1200    0       0       0       0       0       0       0       0
chr1b   1003    0       0       0       0       0       0       0       0
chr2a   0       1292    0       0       0       0       0       0       0
chr2b   0       1685    0       0       0       0       0       0       0
chr3a   0       0       1065    0       0       0       0       0       0
chr3b   0       0       1097    0       0       0       0       0       0
chr4a   0       0       0       1330    0       0       0       0       0
chr4b   0       0       0       1047    0       0       0       0       0
chr5a   0       0       0       0       1344    0       0       0       0
chr5b   0       0       0       0       1177    0       0       0       0
chr6a   0       0       0       0       0       875     0       0       0
chr6b   0       0       0       0       0       832     0       0       0
chr7a   0       0       0       0       0       0       1106    0       0
chr7b   0       0       0       0       0       0       1110    0       0
chr8a   0       0       0       0       0       0       0       849     0
chr8b   0       0       0       0       0       0       0       1112    0
chr9a   0       0       0       0       0       0       0       0       1134
chr9b   0       0       0       0       0       0       0       0       1182

后续


参考文章

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,478评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,825评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,482评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,726评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,633评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,018评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,168评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,320评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,264评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,288评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,995评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,587评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,909评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,284评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,862评论 2 339

推荐阅读更多精彩内容