「BioNano系列」下机原始数据过滤和评估

从这部分开始，就开始涉及一些软件的操作和数据分析，因此在进入正文之前，我们需要准备好环境。

环境准备

第一步：从 https://bionanogenomics.com/library/datasets/下载人类测试数据集，以及对应的NA12878人类基因组。

DLE数据集

wget http://bnxinstall.com/publicdatasets/DLS/20180413_NA12878_S3_compressed.tar.gz
tar xf 20180413_NA12878_S3_compressed.tar.gz
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/002/077/035/GCA_002077035.3_NA12878_prelim_3.0/GCA_002077035.3_NA12878_prelim_3.0_genomic.fna.gz
gunzip GCA_002077035.3_NA12878_prelim_3.0_genomic.fna.gz
mv GCA_002077035.3_NA12878_prelim_3.0_genomic.fna NA12878.fa

第二步: 在https://bionanogenomics.com/support/software-downloads/下载Solve软件，

Solve下载地址

服务器要满足如下需求:

Python=2.7.x
perl=5.14.x或5.16.x
R > 3.1.2，并且安装data.table, igraph, intervals, MASS, parallel, XML, argparser
glibc >= 2.14 和 gcc库
至少有一个256G节点的内存，最好有一些32G内存的小节点

tar -zxvf Solve3.3_10252018.tar.gz

解压缩后里有如下几个文件夹

cohortQC: 主要是MQR运行脚本
HybridScaffold: 单酶系统和双酶系统混合组装工具脚本
Pipeline：从头组装的脚本
RefAligner：用于序列联配和组装
RefGenome：hg19和hg38的cmp文件
SVMerge: 用于合并单酶系统得到SV结果
UTIL: 运行从头组装的一些实用shell脚本，可以根据需要进行修改
VariantAnnotation: 对找到的SV进行注释
VCFConverter: 将SMAP和SVMerge的结果输出成VCF格式

数据过滤

目前的主流Bionano设备已经是Sapjyr，BNX文件产生于Saphyr，经由Bionano Access 下载到本地。

从公司拿到的是"RawMolecules.bnx"文件，不过我们练习用的数据是"output/all.bnx.gz"，

mkdir test
mv output/all.bnx.gz test
zcat  all.bnx.gz| head -n 20000 | grep "# Run Data" | wc -l
# 281

我们发现发现数据集来自于281个通道。

Label SNR 过滤: 过滤信噪比较低的分子，信噪比低意味着质量差。有如下几个情况，不需要做Label SNR 过滤,或在你BNX文件的"#rh"部分有"SNRFilterType"定义，就不需要过滤

人类样本不需要过滤。
Bionanao Access 1.2 以后新的图像检测算法得到的BNX文件不需要SNR过滤.
对于AutoDetect或Irysview处理过的数据，默认会进行label SNR过滤，处理之后就是Molecules.bnx

由于我们是人类数据集，因此下面的代码就不需要运行了，并且绝大部分情况下也用到下面的命令。

perl /opt/biosoft/Solve3.3_10252018/cohortQC/10252018/filter_SNR_dynamic.pl -i RawMolecules.bnx -o Molecules_filter.bnx -P diag_hist.pdf > snr.log &

分子长度过滤: 过滤短与某个阈值的分子，公司一般会只保留100kb或120Kb以上的分子(取决于数据量，数据越多，阈值越高)

gunzip all.bnx.gz
RefAlinger -i all.bnx -minlen 120 -merge -o output -bnx > run.log &

在输出的内容中，注意如下部分

Final maps=1147524, sites=46764680, length= 268845841.028kb (avg= 234.283 kb, label density= 17.395 /100kb)

表明过滤后，还有113万条分子，涉及到4676万标记，总测序量为258G，标记密度是17.395/100kb，平均分子长度大于234Kb.. 测序深度等于总测序量除以基因组大小，这是人类基因组，按照3G计算，那么深度就是80X.

过滤后平均分子长度应大于200Kb。标记密度不能过高，过高会因分辨率不够而无法区分，过低则无法用于比对。一般DLS在10~25 ， NRLS在8~15.

组装评估: 在正式组装之前，我们还需要判断下当前数据是否满足组装要求。为了获取所需的评估参数，得将过滤后的BNX文件和基因组模拟模切得到的CMAP进行比对

第一步: 对基因组序列模拟酶切，得到CMAP文件

perl /opt/biosoft/Solve3.3_10252018/Pipeline/10252018/fa2cmap_multi_color.pl -i ../NA12878.fa -e cttaag 1
mv ../NA12878_CTTAAG_0kb_0labels.cmap .

CMAP的格式比较简单，说明如下:

cMAP格式说明

第二步: 用align_bnx_to_cmap.py进行比对。 bionano光学图谱比对的基本原理是基于标记的相对位置。

python /opt/biosoft/Solve3.3_10252018/Pipeline/10252018/align_bnx_to_cmap.py  \
    --prefix  human \
    --mol molecules120k.bnx  \
    --ref NA12878_CTTAAG_0kb_0labels.cmap \
    --ra /opt/biosoft/Solve3.3_10252018/RefAligner/7915.7989rel  \
    --nthreads 80  \
    --output prealign \
    --snrFilter 2 \
    --color 1

参数说明可自行阅读帮助说明。我们重点关注输出结果中如下几方面内容:

“contigs/alignmolvref/alignmol_log_simple.txt”里的“Fraction of aligned molecules”和"Effective coverage of reference (X)". 我们要判断数据是否符合最低的比对率。比对率和基因组实际情况有关(组装质量，错误率，重复坍缩情况)。对于人类基因可以达到90%以上，对于不怎么完整度的基因组，即便Bionano的质量很高，比对率可能也只有30%~40%(仅统计150 kb 的分子）

比对率

"alignments.tar.gz", 里面包含的三个文件可以输入到Bionano提供的另一个工具Access中进行可视化，注意导入要选择"Anchor to Molecules"。

step1:创建输入

step2: 选择文件

step3: 上传文件

由于人类基因组足够的大，因此需要等待一段时间才能处理完成，之后就可以对比对结果有一个更加直观的了解。

上传成功后

可视化

那么合格后的数据应该如何组装呢？请等待后续教程！

最后编辑于：2019.02.25 09:38:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,406评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,976评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,302评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,366评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,372评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,457评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,872评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,521评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,717评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,523评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,590评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,299评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,859评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,883评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,127评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,760评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,290评论 2赞 342

「BioNano系列」下机原始数据过滤和评估

环境准备

数据过滤

推荐阅读更多精彩内容