MutScan软件介绍

近期在分析人的一种眼科疾病的WES数据时,发现RPGR基因的第15号外显子的一部分在高度重复区域,该区域是高含量的CT重复,因此前期的文库捕获、后期比对都比较困难。好在我的样本在这个区域的覆盖度还可以,但是常规的流程没有检测出来这个区域的可靠变异,因此需要验证这个区间是否还有漏掉的位点。发现MutScan软件可以基于输入的位点进行验证,从fastq序列入手,不经过bwa比对,而是进行字符串匹配(当然会考虑到容错),找出来一些位点。

1.软件的情况如下:

1.1 源代码网址:

http://www.github.com/OpenGene/MutScan

1.2 下载二进制文件后直接使用:

wget http://opengene.org/MutScan/mutscan
chmod a+x ./mutscan

或者下载可编译文件:

# get source (you can also use browser to download from master or releases)
git clone https://github.com/OpenGene/MutScan.git

# build
cd mutscan
make

# Install
sudo make install

1.3 软件功能:

直接扫描FastQ文件检测和可视化目标突变

1.4 软件特性

  • 超敏感,保证所有支持突变的读取都将被检测到
  • 可以比普通管道快 50 X+ ( 例如。 BWA + Samtools + GATK/VarScan/Mutect).
  • 非常容易使用,无需其他任何东西。 没有校准没有参考基因组没有变异电话没有。
  • 包含在癌症相关突变突变点,如 EGFR p.L858R, BRAF p.V600E.。
  • 美观且信息丰富的HTML报表,具有信息pileup可视化。
  • 多线程支持。
  • 支持单端和双端数据。
  • 对于对端数据,MutScan将尝试合并每对,并进行质量调整和错误纠正。
  • 能够扫描一个,文件中的突变,可以用来可以视化被称为变量的变异。
  • 可以用于筛选假阳性突变。 换句话说,MutScan可以处理高度repetive序列以避免 false INDEL调用。
应用程序方案:
  • 你对某些特定的( 比如drugable突变) 类型感兴趣,并希望检查给定的FastQ文件是否包含它们。
  • 你对管道调用的突变没有足够的信心,因此你希望可视化并验证它们以避免 false 正调用。
  • 你担心管道使用过于严格的筛选,并且可能会导致某些 false 负数,因这里你要快速检查。
  • 你想看到所谓的变异,并用它清晰的pipeUp信息拍摄一个截图。
  • 你称为大量INDEL突变,并且担心它们主要是 false 优点( 特别是在高度repetive区域)。
  • 你想验证并可视化你的管道调用的VCF中的每个记录。

1.5 Windows 版本( 可能不是最新版本)

如果要在 Windows 上编译 MutScan,则应使用 cygwin。 我们已经用 cygwin-2.6.0/G++ 5.4构建了一个,它可以从以下位置下载: http://opengene.org/MutScan/windows_mutscan.zip

1.6 HTML报告

  • 将生成一个HTML报告,并将它的写入给给定的文件名。 有关示例,请参阅 http://opengene.org/MutScan/report.html
  • 如果在Linux服务器中运行命令并希望在本地系统上查看HTML报告,那么 记住要复制所有 xxxx.htmlxxxx.html.files 并将它们保存在同一文件夹中,然后单击 xxxx.html 在浏览器中查看它。
  • 默认文件 NAME 是 mutscan.html,并且还会生成一个文件夹 mutscan.html.files
  • 默认情况下,将为每个发现的突变生成一个 indivudal HTML文件。 但是你可以指定 -s 或者 --standalone 来包含单个HTML文件中的所有突变。 如果扫描太多记录( 例如扫描 VCF ),请注意这个模式,它将给你一个非常大的HTML文件,并且不能加载。
  • 下面是MutScan生成的突变( EGFR p.t790m ) pileup的屏幕截图:


    image.png
  • 上面 p.T790M 突变的pileup。 EGFR p.T790M 是肺癌中非常重要的drugable突变。
  • 每个基础的颜色表示它的质量,并且在鼠标超过时显示质量。
  • 第一列,d 表示 MATCH的编辑距离,--> 表示转发,<--表示反向

1.7 JSON报告

默认情况下禁用JSON报告。 你可以通过使用 -j 或者 --json 指定一个JSON文件 NAME 来启用它。 JSON报告如下所示:

{
 "command":"./mutscan -1/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R1_001.fastq -2/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R2_001.fastq -h z.html -j z.json -v --simplified=off ",
 "version":"1.14.0",
 "time":"2018-05-15 15:48:21",
 "mutations":{
 "NRAS-neg-1-115258747-2-c.35G>C-p.G12A-COSM565":{
 "chr":"chr1",
 "ref":["TGGATTGTCAGTGCGCTTTTCCCAACACCA","G","CTGCTCCAACCACCACCAGTTTGTACTCAG"],
 "reads":[
 {
 "breaks":[31,61,62,76], 
 "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
 "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieiiiiiiiiiiieieeeee" },
 {
 "breaks":[31,61,62,76], 
 "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
 "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieeeee" }
 ]
 },
 "PIK3CA-pos-3-178936082-9-c.1624G>A-E542K-COSM760":{
 "chr":"chr3",
 "ref":["AAAGCAATTTCTACACGAGATCCTCTCTCT","A","AAATCACTGAGCAGGAGAAAGATTTTCTAT"],
 "reads":[
 {
 "breaks":[22,52,53,83], 
 "seq":"GGAAAATGACAAAGAACAGCTCAAAGCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGAGCAGGAGAAAGATTTTCCAAAGATGTTTCTCAGAACGCTGCAGTCTGCAATTTGTATGAATTCCC",
 "qual":"eeeeeiiiQiiiiiieiiiieiSeiiiiiie`iiii`i`iiiiiiiiiiiiii`iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiaiiiiiiiiiiiiiiiiiieiiiiiieeeee" },
 {
 "breaks":[0,27,28,58], 
 "seq":"GCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGCGCAGGAGAAAGATTTTCTATGGACCACAGGTAAGTGCTAAAATGGAGATTCTCTGTTTCTTTTTCTTTATTACAGAAAAAATAACTGACTTTGGCTGATCTCAGCATGTTTTTACCATACC",
 "qual":"AAAAAEEEEiieiiieiiiiiiiiiieiiiiiiiie``iiiiiieiiiiiiiiiieiiiieiieieeiiiSiiiiiieiiiiiiiiiiiiiieiiiiiSiiiiiiiiiiiiieiiiiiiiiiiii`ieiiieiii`ieiiiii`eS``eieEEEAAAAA" }
 ]
 }
 }
}

1.8 软件选项

usage: mutscan -1 <read1_file> -2 <read2_file> [options]...
options:
 -1, --read1 read1 file name, required
 -2, --read2 read2 file name
 -m, --mutation mutation file name, can be a CSV format or a VCF format
 -r, --ref reference fasta file name (only needed when mutation file is a VCF)
 -h, --html filename of html report, default is mutscan.html in work directory
 -j, --json filename of JSON report, default is no JSON report (string [=])
 -t, --thread worker thread number, default is 4
 -S, --support min read support required to report a mutation, default is 2.
 -k, --mark when mutation file is a vcf file, --mark means only process the records with FILTER column is M
 -l, --legacy use legacy mode, usually much slower but may be able to find a little more reads in certain case -s, --standalone output standalone HTML report with single file. Don't use this option when scanning too many target mutations (i.e.> 1000 mutations) -n, --no-original-reads dont output original reads in HTML and text output. Will make HTML report files a bit smaller -?, --help print this message

1.9 示例

纯文本结果,其中包含检测到的突变和它们的支持读取,将直接打印。 你可以使用 > 将输出重定向到文件,例如:

mutscan -1 <read1_file_name> -2 <read2_file_name > result.txt

MutScan生成非常有用的HTML文件报告,默认为工作目录中的mutscan.html。 你可以使用 -h 参数更改文件 NAME,例如:

mutscan -1 <read1_file_name> -2 <read2_file_name> -h report.html

对于单端排序数据,省略 -2 参数:

mutscan -1 <read1_file_name>

多线程

-t 参数指定要启动的工作线程数。 默认的线程号是 4。 建议使用比系统的CPU内核少的数字。

变异文件

  • -m 指定的变异文件可以是 CSV file,也可以是 VCF file
  • 如果没有指定 -m,MutScan将使用内置的默认变异文件,其中包含 60个相关的癌症相关突变点。
  • 如果提供了 CSV,则不需要参考基因组程序集。
  • 如果提供 VCF,应提供相应的参考基因组程序集( 例如 )。 ucsc.hg19. fasta ),并且不应该被压缩。

格式的csv格式变异文件

带有 name,left_seq_of_mutation_point,mutation_seq,right_seq_of_mutation_point 和 chromosome(optional) 列的CSV文件:

#name, left_seq_of_mutation_point, mutation_seq, right_seq_of_mutation_point, chromosome

NRAS-neg-1-115258748-2-c.34G>A-p.G12S-COSM563, GGATTGTCAGTGCGCTTTTCCCAACACCAC, T, TGCTCCAACCACCACCAGTTTGTACTCAGT, chr1

NRAS-neg-1-115252203-2-c.437C>T-p.A146V-COSM4170228, TGAAAGCTGTACCATACCTGTCTGGTCTTG, A, CTGAGGTTTCAATGAATGGAATCCCGTAAC, chr1

BRAF-neg-7-140453136-15-c.1799T>A -V600E-COSM476, AACTGATGGGACCCACTCCATCGAGATTTC, T, CTGTAGCTAGACCAAAATCACCTATTTTTA, chr7

EGFR-pos-7-55241677-18-c.2125G>A-p.E709K-COSM12988, CCCAACCAAGCTCTCTTGAGGATCTTGAAG, A, AAACTGAATTCAAAAAGATCAAAGTGCTGG, chr7

EGFR-pos-7-55241707-18-c.2155G>A-p.G719S-COSM6252, GAAACTGAATTCAAAAAGATCAAAGTGCTG, A, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7

EGFR-pos-7-55241707-18-c.2155G>T-p.G719C-COSM6253, GAAACTGAATTCAAAAAGATCAAAGTGCTG, T, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7

testdata/mutations.csv 给出了csv格式变异文件的示例

vcf格式变异文件

标准VCF可以作为一个变异文件,文件扩展名为 .vcf 或者 .vcf。 如果突变文件是VCF文件,你应该通过 -r <ref.fa> 指定 reference assembly file。 例如命令可以是:

mutscan -1 R1.fq -2 R2.fq -m target.vcf -r hg19.fa

使用 bam/fill

如果希望使用 bam/fill文件运行 MutScan,可以使用 samtools 将它们转换为FASTQ文件,使用 samtools fastq 命令,最新版本的samtools fastq 数据支持 paired。

注释

  • 如果你读得太短,MutScan 需要至少 50个长读,不要使用它
  • 如果你希望只使用一个读取支持来提取突变,请在命令中添加 -S 1 或者 --support=1

2. 一些说明:

(1)相关的网站:
https://github.com/OpenGene/MutScan#get-mutscan

https://www.biostars.org/p/213988/

https://www.biostars.org/p/283969/#283980

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2024-6

(2)关于indel模式,创建vcf时的格式:
如果变异类型是insertion,则直接把变异后的序列作为M序列,如下图中的红色框内:


image.png

对于deletion类型:


(3)该软件更像是验证变异位点,不是call 变异,是需要把已知的位点先填入的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342