生信分析学习笔记 - RNAseq （五） HISAT2回帖及评估

声明：本文部分内容和部分图片来源于网络。本文为生信小白学习笔记，不能保证专业名词和内容全部正确或权威。

下图为某一条RNAseq从数据预处理，序列回帖到数据可视化的工作流程，包含了较多的软件（Linux环境运行）和若干个包（R语言环境运行），本系列将按下图，对每一个步骤进行学习和理解。

某RNAseq分析流程

HISAT2

简介

HISAT2是将下一代测序读段结果基于图比对到一组基因组（graph-based alignment of next generation sequencing reads to a population of genomes）。

HISAT2是一种快速而灵敏的比对程序，可用于将下一代测序数据（包括DNA和RNA）比对到人类基因组和单个参考基因组上。基于图的BWT扩展，创造性地设计并完成了一个图FM索引（GFM）。除了使用一个代表全人类基因组的全球GFM索引，HISAT2使用大量小的GFM索引，这些索引共同覆盖了全基因组。这些小的索引（也被称为局部索引），与集中比对方式结合在一起，能够实现快速和准确的序列比对。这个新的索引方案被称为层次图片FM索引（HGFM）。

HISAT2工作原理

1. HISAT2应用了基于bowtie2的方法处理很多低水平的用于构建和查询FM索引的操作。（*）

2. 与其他比对器相比，HISAT2应用了两类不同的索引类型，代表全基因组的全局FM索引和大量的局部小索引，每个索引代表64000bp。

3. 以人类基因组为例，创建了48000个局部索引，每一个覆盖1024bp，最终可以覆盖这个3 billion碱基的基因组。这种存在交叉（overlap）的边界可以轻松的比对那些跨区域的read（可变剪切体）。

4. 尽管有很多索引，但是HISAT2可以把他们使用合适的方式进行压缩，最终只占4GB左右的内存。

模式

报告模式

报告模式管理HISAT2寻找多少个比对以及如何报告它们。

通常，当我们说一个读段有一个比对，是指它有一个有效比对。当我们说一个读段有多个比对时，是指它有多个有效且彼此不同的比对方式。

默认情况下，HISAT2会对5‘和3’端进行温和地剪切。

比对总结

当HISAT2完成运行，会输出运行结果。这些信息将输入到‘标准错误’（stderr）文件中。对包含未匹配读段地数据文件，HISAT2总结可能如下所示：

针对包含已匹配读段的数据文件，HISAT2总结如下所示：

Alignment rate越高表示HISAT2对该文件比对成功率越高。

索引大小

hisat2-build能够索引任何尺寸的参考基因组。对小于40亿个核苷酸长度的基因组，hisat2-build使用32位数字在索引的不同位置建立一个‘小’索引。当基因组更长，hisat2-build能够使用64位数字建立较大的索引。小索引保存在.ht2文件中，而大索引会保存在.ht21文件中。使用者无需担心特定的索引的尺寸，HISAT2中的包装脚本将自动生成并使用合适的索引。

性能调试

如果运行的电脑有多线程或多核，可以使用 -p

-p选项可以使HISAT2启动一定数量的并行搜索线程。每一个线程运行在一个不同的中央处理器或核中，而所有的线程并行地查找比对，将比对量提高了大概并行线程的倍数（虽然在现实中，加速有时比线性较差）。

HISAT2使用

主要参数

⚪ hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <hit>]

1. -x <hisat2-idx>

参考基因组索引的名字。该名称是任何索引文件的名称。HISAT2会首先寻找在现有文件中特定的索引，然后再在HISAT2_INDEXES指定地环境变量的目录中搜索。

2. -1 <m1>

逗号分隔的文件列表包括了双端测序的文件1，例如，-1 flyA_1.fq,flyB_1.fq。使用此命令指定的文件-文件的顺序必须与<m2>读取-读取的顺序相一致。

3. -2 <m2>

逗号分隔的文件列表包括了双端测序的文件2，例如，-2 flyA_2.fq,flyB_2.fq。对文件顺序的要求同上。

4. -U <r>

逗号分隔的文件列表包含待比对的未成功匹配（unpaired）读段，例如，lane1.fq,lane2.fq,lane3.fq,lane4.fq

5. --sra-acc <SRA accession number>

逗号分隔的SRA登录号文件列表，例如，--sra-acc SRR353653,SRR353654

6. -s <hit>

写入SAM比对结果的文件。

选项

输入选项

比对选项

计分选项

拼接对齐选项

报告选项

双端测序选项

输出选项

SAM选项

性能选项

其他选项

具体选项见链接。

HISAT2比对操作

HISAT2提供了一些示例文件，这些示例文件的结果并不具有科学意义，这些文件只供运行HISAT2和相应的下游分析。

首先是获取和安装HISAT2，并设置相应的环境变量到包含hisat2, hisat2-build和hisat2-inspect的HISAT2目录中。

比对实例读段

从HISAT2网站获取待分析物种参考基因组，下一步将待分析读段比对到参考基因组上。命令如下：

$HISAT2_HOME/hisat2 -f -x $HISAT2_HOME/example/index/22_20-21M_snp -U $HISAT2_HOME/example/reads/reads_1.fa -S eg1.sam

本例使用的是使用hisat2-build构建的索引文件（22_20-21M_snp）。这行命令将一组未配对的读段数据比对到索引上。比对结果被写入进eg1.sam文件中，同时，一段简短的比对总结被写入进console。

可使用下列语句查看SAM文件的前几行。

head eg1.sam

可能会得到下图类似的结果。

上图前几行（以@开始）是SAM文件表头行，其他行是SAM比对结果，每读段或每对读段一行。

双端测序比对

为了使用HISAT2比对双端测序数据，首先，需要需要进入相同更多目录然后运行以下命令：

$HISAT2_HOME/hisat2 -f -x $HISAT2_HOME/example/index/22_20-21M_snp -1 $HISAT2_HOME/example/reads/reads_1.fa -2 $HISAT2_HOME/example/reads/reads_2.fa -S eg2.sam

SAMtools转换文件格式

SAMtools是管理和分析SAM和BAM比对文件的一组工具，提供了一个可以方便转换SAM和BAM文件格式。在HISAT2软件进行序列比对后，可用SAMtools将SAM文件转换为BAM文件，命令如下：

samtools view -bS eg2.sam > eg2.bam

同时，SAMtools也可以转换为BAM文件的同时进行排序（版本需要1.2或更高）。命令如下：

samtools sort eg2.bam -o eg2.sorted.bam

对BAM进行排序时非常有用的，因为比对通常是压缩的，这对于长期存储是很方便的，同时，排序的BAM文件也有助于突变的发现。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342