近期在分析人的一种眼科疾病的WES数据时,发现RPGR基因的第15号外显子的一部分在高度重复区域,该区域是高含量的CT重复,因此前期的文库捕获、后期比对都比较困难。好在我的样本在这个区域的覆盖度还可以,但是常规的流程没有检测出来这个区域的可靠变异,因此需要验证这个区间是否还有漏掉的位点。发现MutScan软件可以基于输入的位点进行验证,从fastq序列入手,不经过bwa比对,而是进行字符串匹配(当然会考虑到容错),找出来一些位点。
1.软件的情况如下:
1.1 源代码网址:
http://www.github.com/OpenGene/MutScan
1.2 下载二进制文件后直接使用:
wget http://opengene.org/MutScan/mutscan
chmod a+x ./mutscan
或者下载可编译文件:
# get source (you can also use browser to download from master or releases)
git clone https://github.com/OpenGene/MutScan.git
# build
cd mutscan
make
# Install
sudo make install
1.3 软件功能:
直接扫描FastQ文件检测和可视化目标突变
1.4 软件特性
- 超敏感,保证所有支持突变的读取都将被检测到
- 可以比普通管道快 50 X+ ( 例如。 BWA + Samtools + GATK/VarScan/Mutect).
- 非常容易使用,无需其他任何东西。 没有校准没有参考基因组没有变异电话没有。
- 包含在癌症相关突变突变点,如 EGFR p.L858R, BRAF p.V600E.。
- 美观且信息丰富的HTML报表,具有信息pileup可视化。
- 多线程支持。
- 支持单端和双端数据。
- 对于对端数据,MutScan将尝试合并每对,并进行质量调整和错误纠正。
- 能够扫描一个,文件中的突变,可以用来可以视化被称为变量的变异。
- 可以用于筛选假阳性突变。 换句话说,MutScan可以处理高度repetive序列以避免 false INDEL调用。
应用程序方案:
- 你对某些特定的( 比如drugable突变) 类型感兴趣,并希望检查给定的FastQ文件是否包含它们。
- 你对管道调用的突变没有足够的信心,因此你希望可视化并验证它们以避免 false 正调用。
- 你担心管道使用过于严格的筛选,并且可能会导致某些 false 负数,因这里你要快速检查。
- 你想看到所谓的变异,并用它清晰的pipeUp信息拍摄一个截图。
- 你称为大量INDEL突变,并且担心它们主要是 false 优点( 特别是在高度repetive区域)。
- 你想验证并可视化你的管道调用的VCF中的每个记录。
1.5 Windows 版本( 可能不是最新版本)
如果要在 Windows 上编译 MutScan,则应使用 cygwin
。 我们已经用 cygwin-2.6.0/G++ 5.4构建了一个,它可以从以下位置下载: http://opengene.org/MutScan/windows_mutscan.zip
1.6 HTML报告
- 将生成一个HTML报告,并将它的写入给给定的文件名。 有关示例,请参阅 http://opengene.org/MutScan/report.html。
- 如果在Linux服务器中运行命令并希望在本地系统上查看HTML报告,那么 。 记住要复制所有
xxxx.html
和xxxx.html.files
并将它们保存在同一文件夹中,然后单击xxxx.html
在浏览器中查看它。 - 默认文件 NAME 是
mutscan.html
,并且还会生成一个文件夹mutscan.html.files
。 - 默认情况下,将为每个发现的突变生成一个 indivudal HTML文件。 但是你可以指定
-s
或者--standalone
来包含单个HTML文件中的所有突变。 如果扫描太多记录( 例如扫描 VCF ),请注意这个模式,它将给你一个非常大的HTML文件,并且不能加载。 -
下面是MutScan生成的突变( EGFR p.t790m ) pileup的屏幕截图:
- 上面 p.T790M 突变的pileup。 EGFR p.T790M 是肺癌中非常重要的drugable突变。
- 每个基础的颜色表示它的质量,并且在鼠标超过时显示质量。
- 第一列,d 表示 MATCH的编辑距离,--> 表示转发,<--表示反向
1.7 JSON报告
默认情况下禁用JSON报告。 你可以通过使用 -j
或者 --json
指定一个JSON文件 NAME 来启用它。 JSON报告如下所示:
{
"command":"./mutscan -1/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R1_001.fastq -2/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R2_001.fastq -h z.html -j z.json -v --simplified=off ",
"version":"1.14.0",
"time":"2018-05-15 15:48:21",
"mutations":{
"NRAS-neg-1-115258747-2-c.35G>C-p.G12A-COSM565":{
"chr":"chr1",
"ref":["TGGATTGTCAGTGCGCTTTTCCCAACACCA","G","CTGCTCCAACCACCACCAGTTTGTACTCAG"],
"reads":[
{
"breaks":[31,61,62,76],
"seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
"qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieiiiiiiiiiiieieeeee" },
{
"breaks":[31,61,62,76],
"seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
"qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieeeee" }
]
},
"PIK3CA-pos-3-178936082-9-c.1624G>A-E542K-COSM760":{
"chr":"chr3",
"ref":["AAAGCAATTTCTACACGAGATCCTCTCTCT","A","AAATCACTGAGCAGGAGAAAGATTTTCTAT"],
"reads":[
{
"breaks":[22,52,53,83],
"seq":"GGAAAATGACAAAGAACAGCTCAAAGCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGAGCAGGAGAAAGATTTTCCAAAGATGTTTCTCAGAACGCTGCAGTCTGCAATTTGTATGAATTCCC",
"qual":"eeeeeiiiQiiiiiieiiiieiSeiiiiiie`iiii`i`iiiiiiiiiiiiii`iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiaiiiiiiiiiiiiiiiiiieiiiiiieeeee" },
{
"breaks":[0,27,28,58],
"seq":"GCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGCGCAGGAGAAAGATTTTCTATGGACCACAGGTAAGTGCTAAAATGGAGATTCTCTGTTTCTTTTTCTTTATTACAGAAAAAATAACTGACTTTGGCTGATCTCAGCATGTTTTTACCATACC",
"qual":"AAAAAEEEEiieiiieiiiiiiiiiieiiiiiiiie``iiiiiieiiiiiiiiiieiiiieiieieeiiiSiiiiiieiiiiiiiiiiiiiieiiiiiSiiiiiiiiiiiiieiiiiiiiiiiii`ieiiieiii`ieiiiii`eS``eieEEEAAAAA" }
]
}
}
}
1.8 软件选项
usage: mutscan -1 <read1_file> -2 <read2_file> [options]...
options:
-1, --read1 read1 file name, required
-2, --read2 read2 file name
-m, --mutation mutation file name, can be a CSV format or a VCF format
-r, --ref reference fasta file name (only needed when mutation file is a VCF)
-h, --html filename of html report, default is mutscan.html in work directory
-j, --json filename of JSON report, default is no JSON report (string [=])
-t, --thread worker thread number, default is 4
-S, --support min read support required to report a mutation, default is 2.
-k, --mark when mutation file is a vcf file, --mark means only process the records with FILTER column is M
-l, --legacy use legacy mode, usually much slower but may be able to find a little more reads in certain case -s, --standalone output standalone HTML report with single file. Don't use this option when scanning too many target mutations (i.e.> 1000 mutations) -n, --no-original-reads dont output original reads in HTML and text output. Will make HTML report files a bit smaller -?, --help print this message
1.9 示例
纯文本结果,其中包含检测到的突变和它们的支持读取,将直接打印。 你可以使用 >
将输出重定向到文件,例如:
mutscan -1 <read1_file_name> -2 <read2_file_name > result.txt
MutScan生成非常有用的HTML文件报告,默认为工作目录中的mutscan.html
。 你可以使用 -h
参数更改文件 NAME,例如:
mutscan -1 <read1_file_name> -2 <read2_file_name> -h report.html
对于单端排序数据,省略 -2
参数:
mutscan -1 <read1_file_name>
多线程
-t
参数指定要启动的工作线程数。 默认的线程号是 4
。 建议使用比系统的CPU内核少的数字。
变异文件
- 由
-m
指定的变异文件可以是CSV file
,也可以是VCF file
。 - 如果没有指定
-m
,MutScan将使用内置的默认变异文件,其中包含 60个相关的癌症相关突变点。 - 如果提供了 CSV,则不需要参考基因组程序集。
- 如果提供 VCF,应提供相应的参考基因组程序集( 例如 )。 ucsc.hg19. fasta ),并且不应该被压缩。
格式的csv格式变异文件
带有 name,left_seq_of_mutation_point,mutation_seq,right_seq_of_mutation_point 和 chromosome(optional) 列的CSV文件:
#name, left_seq_of_mutation_point, mutation_seq, right_seq_of_mutation_point, chromosome
NRAS-neg-1-115258748-2-c.34G>A-p.G12S-COSM563, GGATTGTCAGTGCGCTTTTCCCAACACCAC, T, TGCTCCAACCACCACCAGTTTGTACTCAGT, chr1
NRAS-neg-1-115252203-2-c.437C>T-p.A146V-COSM4170228, TGAAAGCTGTACCATACCTGTCTGGTCTTG, A, CTGAGGTTTCAATGAATGGAATCCCGTAAC, chr1
BRAF-neg-7-140453136-15-c.1799T>A -V600E-COSM476, AACTGATGGGACCCACTCCATCGAGATTTC, T, CTGTAGCTAGACCAAAATCACCTATTTTTA, chr7
EGFR-pos-7-55241677-18-c.2125G>A-p.E709K-COSM12988, CCCAACCAAGCTCTCTTGAGGATCTTGAAG, A, AAACTGAATTCAAAAAGATCAAAGTGCTGG, chr7
EGFR-pos-7-55241707-18-c.2155G>A-p.G719S-COSM6252, GAAACTGAATTCAAAAAGATCAAAGTGCTG, A, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7
EGFR-pos-7-55241707-18-c.2155G>T-p.G719C-COSM6253, GAAACTGAATTCAAAAAGATCAAAGTGCTG, T, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7
testdata/mutations.csv 给出了csv格式变异文件的示例
vcf格式变异文件
标准VCF可以作为一个变异文件,文件扩展名为 .vcf 或者 .vcf。 如果突变文件是VCF文件,你应该通过 -r <ref.fa> 指定 reference assembly file。 例如命令可以是:
mutscan -1 R1.fq -2 R2.fq -m target.vcf -r hg19.fa
使用 bam/fill
如果希望使用 bam/fill文件运行 MutScan,可以使用 samtools
将它们转换为FASTQ文件,使用 samtools fastq
命令,最新版本的samtools fastq
数据支持 paired。
- 如果你读得太短,
MutScan
需要至少 50个长读,不要使用它 - 如果你希望只使用一个读取支持来提取突变,请在命令中添加
-S 1
或者--support=1
2. 一些说明:
(1)相关的网站:
https://github.com/OpenGene/MutScan#get-mutscan
https://www.biostars.org/p/213988/
https://www.biostars.org/p/283969/#283980
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2024-6
(2)关于indel模式,创建vcf时的格式:
如果变异类型是insertion,则直接把变异后的序列作为M序列,如下图中的红色框内:
对于deletion类型:
(3)该软件更像是验证变异位点,不是call 变异,是需要把已知的位点先填入的。