重测序之BSA

刘小泽写于18.7.18
表型与基因型相关联（基因定位）是遗传学上的重要问题。

什么是重测序Resequencing？

我们使用的基因组是怎么来的？通过Denovo测序，也就是从头测序，拼接得到基因组

那么重测序呢？已有的基因组发表出来以后，重新进行测序就不需要拼接，直接可以对测序reads进行短序列比对。简而言之就是对基因组序列已知的物种个体进行基因组测序。本质就是找变异。

通过这种方法，可以比较个体或者群体差异，建立该物种的变异数据库，挖掘重要性状的关键候选基因。利用重测序可以进行变异检测(SNP Calling)、遗传图谱构建、群体进化以及全基因组关联分析（GWAS）。

由于基因组的测序覆盖度不同，可分为全基因组重测序和简化基因组重测序。全基因组重测序（WGS）是在全基因组水平上检测动植物重要性状相关的变异位点，可以检测SNP(单核苷酸多态性)、InDel（小片段插入缺失）、SV（结构变异）、CNV（拷贝数变异）、转座子变异等。

利用鸟枪法建立350bp文库，测序深度10-30X，适用于有参物种，成本较高(SNP/InDel >10X; SV > 20X; CNV > 30X, 转座子> 20X)增加测序深度可以提高基因组覆盖度和变异检出率

简化基因组测序（GBS, Genotyping by Sequencing） 将基因组DNA进行酶切，然后对酶切片段序列进行测序，一般能捕获全基因组的1%序列，主要用于检测SNP，成本低适合大规模样品标记筛选。

什么是BSA？

BSA是一种检测位于特定染色体片段上标记的方法，又叫Mapping-by-sequencing。理论上，任何一对具有相对形状的亲本杂交产生的分离后代都适用，也就是针对质量性状单基因或数量性状主效基因的定位。但BSA一次只能分析一个性状

建库时两个亲本分别建库，子代分别混池建库，共四个，文库片段大小350bp测序深度一般亲本>10X，子代混池>20X

一般要经过以下几步：

发现相对性状：可能是人为诱变，可能是自然发现
构建群体: 异交(outcross)或回交(backcross)
选取目标性状群体
测序分析

如何分析？

拿回来数据，第一步总是要对数据过滤清洗，去接头去不合格reads；第二步是序列比对，常用bwa、bowtie2；第三步SNP calling， GATK(最全最好用的)、samtools+bcftools（易上手的）；第四步作图确定可能区域；第五步变异位点注释

使用的软件：

主要是SHOREmap 、samtools、bcftools、fastqc、multiqc、bwa，可以先把软件安装好，最快的方法是conda install -p /your conda path/ tools 。

下载测试数据：

这一次分析拟南芥回交BC群体数据以及参考基因组、注释文件

mkdir -p ~/bwa/data && cd ~/bwa/data
axel http://bioinfo.mpipz.mpg.de/shoremap/data/software/BC.fg.reads1.fq.gz
axel http://bioinfo.mpipz.mpg.de/shoremap/data/software/BC.fg.reads2.fq.gz
axel http://bioinfo.mpipz.mpg.de/shoremap/data/software/BC.bg.reads1.fq.gz
axel http://bioinfo.mpipz.mpg.de/shoremap/data/software/BC.bg.reads2.fq.gz
# reference genome & gff in dir reference 下载到reference下
mkdir -p ~/bwa/reference && cd ~/bwa/reference
wget -c https://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_chromosome_files/TAIR10_chr_all.fas
wget -c https://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff

#chr_sizes
wget http://bioinfo.mpipz.mpg.de/shoremap/data/software/chrSizes.txt</pre>

分析过程：

质控
进入到数据文件夹，例如data下
```
ls *.fq | xargs -i fastqc {}
multiqc .
```

1.png

2.png

这应该是清洗以后的数据了，质量还不错。如果自己拿回来的数据，有时需要去接头，去掉前几bp的低质量序列

序列比对

重测序中的比对使用最多就是bwa，分为两步：先对参考基因组构建索引index，然后使用bwa mem比对；【当然构建索引使用bowtie2软件的bowtie-build命令也是可以的】比对的结果是sam格式，我们这里用samtools sort一步将管道输入给它的sam文件排序并转换格式为bam文件【你可能注意到还有一些start、end、echo之类的命令，他们是为了提示用户进行到了哪一步，并且计算运行时间；这些都是可有可无的，属于点缀】

3.png

SNP calling这是基于贝叶斯定理，你肯定眼熟～后期讲统计概率先讲它！太重要了！

4.png

假如我们之前比对的短序列和参考基因组有差异了，那么还不能确定他就是一个变异，作为候选人，需要接受多方考证：一个是测序准确度，测不准也有可能会有变异；一个是比对软件的精度，都是人开发的，难免有误差：一个是抽样的误差，就是群体选材时产生的；如何确定它是不是一个真实的变异呢？这里贝叶斯定理就派上了大用场～

比如基因组上一个位点有50条reads比对上，但是其中的40条都与参考基因组不同，那么很有可能他是一个真的变异位点，至于什么变异下面再分析

这里用的samtools是最新版本1.8，mplieup主要功能主要是生成BCF、VCF文件。这里-v指定输出为vcf文件，否则默认生成pileup格式文件；-f指定构建过索引的参考序列；-u是uncompressed，输出未压缩的VCF文件；

5.png

SHOREmap确定候选区域

SHOREmap的安装还是比较复杂的，需要有root权限去安装两个动态库首先，确定自己的系统是不是64位uname -m 显示X86_64就是64位；其次，安装依赖的库DISLIN ，而doslin自己又需要两个动态库

#检查安装doslin的两个动态库
    #检查libXm.so*是否安装，在命令行输入
    ls /usr/lib/libXm.so*
    #如果显示'ls: cannot access /usr/lib/libXm.so*: No such file or directory‘，就需要安装【接下来需要root权限】
    sudo apt-get update
    sudo apt-get install libmotif4
    #再检查一遍
    ls /usr/lib/libXm.so*
    
    #检查libXt.so是否安装
    ls /usr/lib/x86_64-linux-gnu/libXt.so 
    #32位系统输入：ls /usr/lib/i386-linux-gnu/libXt.so
    #出现'ls: cannot access /usr/lib/x86_64-linux-gnu/libXt.so: No such file or directory‘，就需要安装
    sudo apt-get install libxt-dev
    #再检查一遍
    #安装完doslin需要的动态库后，进入软件目录，开始下载doslin
    cd /path/to/software
    # 下载
    wget ftp://ftp.gwdg.de/pub/grafik/dislin/linux/i586_64/dislin-11.1.linux.i586_64.tar.gze
    # 解压缩
    tar -zxvf dislin-11.0.linux.i586_64.tar.gz
    cd dislin-11.0
    # 加入系统路径
    mkdir -p $HOME/biosoft/dislin
    DISLIN=$HOME/biosoft/dislin
    export DISLIN
    # 开始安装
    ./INSTALL
    # 复制dislin_d.h 到dislin文件夹中
    cp ./examples/dislin_d.h $DISLIN


    然后才开始正题——安装SHOREmap，当前最新版本是3.6版本
    #里面的安装路径需要个性化自己定制哦
    cd /your software path/
    wget http://bioinfo.mpipz.mpg.de/shoremap/SHOREmap_v3.6.tar.gz
    # 替换SHOREmap下的dislin的一些文件
    tar -zxvf SHOREmap_v3,6
    rm dislin/*dislin_d.*
    cp $DISLIN/*dislin_d.* dislin
    # 编辑/etc/profile[root用户]或.bashrc[非root]
    vi ~/.bashrc
    export LD_LIBRARY_PATH=/path/to/SHOREmap_v3.6/dislin
    # 退出保存.bashrc
    source ～/.bashrc
    # 到之前安装的文件夹下
    cd & cd src/SHOREmap_v3.6
    #进行编译(可选，如果没有g++)
    #sudo apt-get install build-essential
    make
    #【编译过程如果出错，有可能动态库文件路径设置不正确，把它放到/etc/profile或者/.bashrc的上面】
    # 将编译文件拷贝到习惯的文件夹中，然后添加执行路径
    cp SHOREmap ../../biosoft/SHOREmap_v3.6
    echo "export $HOME/bisoft/SHOREmap_v3.6" >> ~/.bashrc
    source ～/.bashrc
    # 检查是否安装成功
    SHOREmap

6.png

以下是官网给出的针对Outcross和Backcross群体的不同分析流程，但是都要求先转换格式【我们这里的测试流程是针对的Backcross】

6_1.png

转换格式：将vcf转换成软件能认识的格式基本两个参数就是--marker 和--folder【注意：因为这里是用的两台服务器，前面跑的那台没有root权限，又注册了一个腾讯云服务器，获得了权限后安装的各种库，接下来的分析也用的是云服务器，因此代码可能和上面有出入】

SHOREmap convert --marker ./variant/BC_bg_raw_variant.vcf --folder background/
SHOREmap convert --marker ./variant/BC_fg_raw_variant.vcf --folder foreground/
#生成三个文件👇</pre>

7.png

提取候选分子标记的一致性信息:SHOREmap extract

四个参数--chrsizes 、--folder、--marker 、--consen 分别对应染色体长度信息、指定输出目录、上面转换后的

    #background
    SHOREmap extract --chrsizes chrSizes.txt --folder ../background/ --marker ../background/1_converted_variant.txt --consen ../background/1_converted_consen.txt -verbose
    #foreground
    SHOREmap extract --chrsizes chrSizes.txt --folder ../foreground/ --marker ../foreground/1_converted_variant.txt --consen ../foreground/1_converted_consen.txt -verbose
    #生成 extracted_consensus_0.txt</pre>

x_8.png

回交分析SHOREmap backcross用来分析回交作图群体得到的重组后代混池数据，想过滤出所有参考基因组和测序池之间的不同部分用于找到突变点特异部分。如何确保不是自然变异或者是测序错误而产生的特异部分呢？要求测序池中选择的部分要多次出现在亲本或背景中。再根据前景/背景的碱基识别,base calls,质量/覆盖率/等位基因等信息，确定是否把保留的SNP位点作为分子标记

必选的参数有三个：
1. 染色体大小文件--chrsizes，包括两行，一是染色体位置，二是大小；
2. --marker通过SHOREmap convert生成的候选marker文件 converted_variant.txt
  
  x_9.png
  
  这几列分别代表：项目名称、染色体ID、SNP标记位点位置、参考序列上的碱基、变异的碱基、可变碱基质量（0-40）【也是用Phred换算】、符合这种碱基改变的reads数、前一项占总覆盖度的百分比、覆盖到SNP位置的比对平均命中数（也就是这个区间能检测到SNP的位点数）
3. --folder 输出文件夹

SHOREmap backcross --chrsizes chrSizes.txt --marker ../foreground/1_converted_variant.txt --consen extracted_consensus_0.txt --folder ./ -plot-bc --marker-score 40 --marker-freq 0.0 --min-coverage 10 --max-coverage 80 -bg ../background/1_converted_variant.txt --bg-cov 1 --bg-freq 0.0 --bg-score 1 --non-EMS --cluster 1 --marker-hit 1 -verbose

显示的结果及文件：

x_10.png

结果生成了每一条染色体等位基因频率分布pdf文件

9.png

x_11.png

x_12.png

x_13.png

x_14.png

SHOREmap annotate：注释候选区域

SHOREmap annotate --chrsizes chromsize.txt --folder ../analysis/ --snp ../foreground/1_converted_variant.txt --chrom Chr3 --start 1 --end 4000000 --genome ../genome/TAIR10_chr_all.fas -gff../annotation/TAIR10_GFF3_genes.gff

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342