基因组比对及T2T kmer可视化软件---RAviz功能介绍

老规矩,先和同学们介绍一下为什么要做这么一款软件?基因组比对paf格式文件:


基因组比对paf格式文件

当同学们需要进行基因组层面的序列比较时,通常要面对如上所示的比对结果文件,这个文件可能有几十万甚至几百万行,那么想要从如此大量的数据中筛选出所需要的信息将成为一个无比繁琐且耗时的过程,其痛苦不言而喻。而目前所发表的可视化软件在处理大文件(超过1GB)时又表现出卡、顿等不佳的情况。因此,为了解决基因组层面比对可视化问题并顺应基因组T2T发展潮流,特意开发了RAviz来解决这类问题。

安装系统

可在Windows及MacOS上安装

具体介绍及操作如下

1、RAviz界面

RAviz一共分为四个部分。第一部分(①)是对作图的一些参数的调整,该部分是可选的且通常不需要调节,在设计软件时已经将各参数尽可能调整到了最佳的一个状态。第二部分是会显示与作图相关的原始数据,因为RAviz在绘图过程中会根据设定参数为同学们过滤一些不是那么靠谱的比对结果。第三部分(③)用于paf格式比对结果的可视化。第四部分在展示比对结果的同时也可以展示rare kmers(这个在T2T组装中发挥了重要作用)。

2、paf格式比对结果的可视化

paf格式的比对结果至少应该至少包括12列,如下面文件所示:


从第一列到第十二列,其内容分别是:query ID, query序列的总长度,比对部分在query序列上的起点,比对部分在query序列的重点,比对是发生在正链还是负链上,参考序列的ID,参考序列的长度,比对部分在参考序列上的起点,比对部分在参考序列上的终点,比对部分的长度,含有gap的比对部分的长度,比对质量以及其他部分。

这个格式的比对结果可以通过minimap2软件(https://github.com/lh3/minimap2)。在得到比对结果后,需要将比对结果按照第一列进行排序(可以使用的命令是:sort -k 1,1 +路径+“ -o ” +保存路径)。同时,RAviz支持拖拽文件的操作。

在RAviz中,我们通过构建index文件的方法来快速显示大文件(>1GB)的比对内容。在第一次进行可视化的过程中,RAviz会自动根据第一列的内容构建index文件。另外,考虑到一些用户可能想要分析第六列即想要分析参考ID的那一列,可以通过点击按钮“t->q”来实现对第六列索引文件的构建。“alignment_length”(默认值1000)以及“mapping_quality”(默认值60)则可以用于过滤比对结果。点击“draw”即可展示比对结果。当文件太大,确实很难一次性显示所有内容,RAviz将每次只显示8000行,可以通过点击“next”按钮浏览下一个8000行而击“before”可以浏览上一个8000行。上面所述的内容仅仅只是比对结果的粗略展示,如果想要进一步细致的观察比对结果,RAviz允许用户通过放入感兴趣的ID来进行可视化展示,其位置如下图所示:


放入ID后,用户在放入ID后还需要点击“query ID”或者“reference ID”来进行绘制。如果比对文件太大,很难通过打开文件来获得ID ,这个时候用户可以使用“show query ID”或者“show reference ID”来获取相应的ID。绘制的结果是SVG或者pdf等矢量图格式,从而保证了展示结果的高度清晰并且RAviz将自动调用系统默认的程序来展示结果。我们建议用户使用Adobe Acrobat Pro DC软件来展示PDF文件并将其设置为系统默认程序。

3、rare kmers的结果可视化

在这个部分,RAviz将同时显示比对结果以及rare kmers结果。输入文件如下所示:


其基本格式为:query ID, query序列的总长度,比对部分在query序列上的起始位置,比对部分在query序列的终止位置,比对发生在正链还是负链,参考ID,参考序列的总长度,比对部分在参考序列上的起始位置,比对部分在参考序列的终止位置,之后是rare kmers对应的起始位置和终止位置。为了能够便捷地得到输入文件,除RAviz外,还为同学们特意准备了另外一份脚本,通过该脚本的运行可以流畅地得到输入文件,脚本的位置在https://github.com/xianjia10/kmer-map.git。关于该脚本的具体使用已经在github上了做了详细说明。该脚本的运行会得到三个文件,如果运行脚本输入文件是1.paf,则这三个文件的名字分别是1.sort.kmermap,1.sort.kmermap.query.index以及1.sort.kmermap.reference.index。在使用的时候需要将这三个文件放入到同一个文件夹中。

另外,在测试阶段,我们发现在产生paf文件的过程中比对软件可能会不明原因的默认添加很多奇怪的字符,这个时候就会就会影响到后续的分析。因此,希望同学们在使用前一定要检测好文件格式是否能够满足要求。检测方法如下:


点击“draw”按钮,如果程序能够正常运行则基本可以确定paf文件是可用的。

与前一个模块不同的是,在显示kmer的这个模块中,“before”和“next”按钮是按照ID来逐个显示的而不是前一个模块的按8000行显示。其他操作基本与之前模块相同。

4、对可视化结果的解读

paf文件可视化的结果


上下两行,分别代表了query和reference ID,中间的线连通的是比对部分,如果线有近似平行的关系,则表示比对发生在正链上;如果两个线出现交叉的情况则表示比对出现在负链上。

如果用户需要对比对结果进行更细致的观测,则点击“draw details based on the input ID”按钮,即可出现如下结果:


而当同时显示比对以及rare kmers结果时会产生如下结果:


如上图的第一图所示,这个比对含有很多的kmers,而与之对应的下图的比对则没有kmers,这说明上图的比对可靠性高于下图中的比对,这种判断将在T2T组装中发挥重要作用。

5、快速开始

以上是对于RAviz的详细描述,事实上,为进一步简化同学们操作时的步骤,很多都设置了默认的参数,因此实际操作会简单很多,以下是操作基本步骤的汇总

5.1 当使用paf文件进行可视化


5.2 如果想要浏览下一个8000行


5.3 输入ID以显示特定ID的内容


5.4 当想看一下reference ID的内容时


5.5 显示特定ID kmer的分布情况

1、

2、


查询ID

3、输入ID并勾选ID 类型


4、点击二键中的任意一个以不同的风格显示内容


5、结果


文本框这个位置会显示基本的信息,包括比对位置及信息以及kmer的数量情况

当数量少的时候会自动以svg阅读器的方式显示,ctrl+鼠标滚轮,将对生成图片进行自由地放大和缩小操作


可以看出kmer主要分布在了片段的这个位置上


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容