dada2
插件对原始数据paired-end-demux.qza
进行质量过滤需要两个参数,trunc-len-f
和trunc-len-r
。这个想法是通过尽可能多地删除较低质量部分来优化正向和反向的读取与合并,并且仍然保留足够的重叠部分。我们可以通过检查原始数据的质量值来获得过滤参数。现在可以通过figaro
程序来得到合适的参数.
1. 安装figaro
(https://github.com/Zymo-Research/figaro)
wget http://john-quensen.com/wp-content/uploads/2020/03/figaro.yml
conda env create -n figaro --file figaro.yml
conda activate figaro
2. github
下载为figaro
的zip文件
wget https://github.com/Zymo-Research/figaro/archive/master.zip
unzip master.zip
mv figaro-master figaro
cd figaro
chmod 777 figaro.py
3. 运行figaro
#创建data文件夹放入要处理的原始数据
mkdir data
A1_16s_R1.fastq
A1_16s_R2.fastq
A2_16s_R1.fastq
A2_16s_R2.fastq
#请严格按照此格式命名
conda activate figaro
python $PWD/figaro/figaro.py -i data -o data -f 1 -r 1 -a 465 -F zymo
-i 输入目录
-o 输出目录
-f 正向引物的长度。如果已除去引物,请输入1。
-r 反向引物的长度。如果已除去引物,请输入1。
-a 预期的合并扩增子长度(即引物扩增长度),可以保守一些,并提供稍大的价值。
(此处以341F-806R为示例)
-F 文件名格式(请严格按照代码所示填写)
4. 输出文件解读
trimParameters.json
forwardExpectedError.png
reverseExpectedError.png
要获取推荐的截断参数,请查看trimParameters.json:如下所示
[
{
"trimPosition": [
247,
240
],
"maxExpectedError": [
2,
3
],
"readRetentionPercent": 87.24,
"score": 82.24249607692565
},
]
推荐的正向截断位置为247,
推荐的反向截断位置为240。
修剪和截断后,正向读取的预期错误数为2,
反向读取的预期错误数为3,
qiime2 dada2插件合并87.24%的读数