「文献05」深度学习应用于基因组学的入门指导

日期：2019年2月2日——2019-Week5
分类：「综述+资源」
题目：A primer on deep learning in genomics
DOI: https://doi.org/10.1038/s41588-018-0295-5
杂志：Nature genetics，21 December 2018
关键词： Deep learning，genomics

深度学习是机器学习的一个变异，其使用神经网络从数据集中自动提取新的特征。目前成功应用于图像识别、机器人（如无人驾驶），在大数据研究中也发挥着重要的作用。随着测序技术的发展，生命组学的数据爆发式增加，将深度学习作为基因组学领域的工具是完全合适的，虽然目前仍然处于研究初期阶段，但是深度学习在癌症诊断和治疗、临床遗传学、作物改良、流行病学和公共卫生、人口遗传学、进化或系统发育分析以及功能基因组学等领域展现出巨大潜在应用价值。

这篇文章对深度学习在基因组学中的应用提供了一个入门指导，包括以下几方面内容：

深度学习的基本概念和方法
如何有效的使用深度学习
解读深度学习模型
深度学习在基因组中的应用
深度学习的工具资源
基于卷积神经网络预测DNA-binding motifs的交互教程

1. 深度学习的基本概念和方法

监督学习和无监督学习
机器学习的任务可以归结为两类：监督（supervised）和无监督（unsupervised）。监督学习的目标是通过一个带标签的训练集预测每个数据点的标签（分类）或者响应（回归）；无监督学习，像聚类和PCA，是学习数据本身的内在模式和特点。大多数机器学习的最终目标是优化模型，使其不仅适用于训练集，也适用于其他数据集，提高模型的普适性。
训练集、验证集和测试集
基于以上目标，数据通常分为三种类型：训练集、验证集和测试集。训练集用于调整模型参数，验证集用于选取最优模型，测试集用于评估模型的普适性效果。机器学习在模型灵活性和训练集数据量之间必须达到一个平衡。
深度学习
大型神经网络—深度学习的一种主要形式是机器学习算法的一类，可以用于预测和降维。用于基因组学中的深度学习和标准的机器学习方法的不同在于：深度学习模型有更高的能力和更多的灵活性。
神经网络
神经网络的起点是一个人工神经元，它以一个实数向量作为输入，然后计算这些值的加权平均值，然后进行非线性变换，可以得到一个简单的阈值。权重是训练期间学习的模型参数。神经网络的力量源于高度模块化和可组合单个神经元，一个神经元的输出可以直接作为另一个神经元的输入，神经元组合起来就形成一个神经网络。
神经网络的三个主要架构：前馈、卷积和递归
有三个常见的架构家族用于连接神经元网络化：前馈、卷积和递归（feed-forward, convolutional and recurrent）。
前馈是最简单的架构，第i层的每一个神经元只与第i+1层的神经元相连，并且所有的连接边缘都可以有不同的权重。前馈结构适用于输入数据特征之间没有特殊关系时的预测问题。
卷积神经网络（CNN，convolutional neural network）在输入矩阵中扫描一个神经元，在输入的每个位置，CNN计算局部加权和并产生一个输出值。这个过程类似于从DNA序列中获取motif时使用的位置权重矩阵。CNN适用于输入数据中某些空间不变的模式。
递归神经网络（RNN，Recurrent neural networks ) 适用于顺序或时间序列的数据。在序列中的每一点，可应用一个前馈或卷积的神经网络来产生一个内部信号，该信号也被送入RNN的下一步。RNN的隐藏层可以被视为内存状态，它保留以前观察到的序列中的信息，并在每个时间步骤中更新。
有一些用于无监督学习的神经网络结构，最常见的是执行非线性降维的自动编码器。

深度学习的工作流

相关术语：

2. 如何有效的使用深度学习

首先设计一个合适的训练数据集并选择合适的评价指标
需要领域的专业知识

深度学习的主要元素和指导：

大的训练集（通常数千个样本），去除混杂或污染
主要架构：feed-forward, convolutional and recurrent
大多数基因组数据不需要很深的网络
必须对数据的高精度保持警惕如由于不平衡或偏差使分类过于简单的
与简单的机器学习比较在同一数据集上的模型
深度学习可以实现高精度，但是解释的时候比标准的统计模型困难

3. 解读深度学习模型

在基因组学中的应用，研究者更关心的是预测模型揭示的生物机制。
如对于CNN来说，还可以可视化每个卷积过滤器作为热图或位置权重矩阵图像，这些可视化有助于了解网络正在学习的特征。

4.深度学习在基因组中的应用

染色质可及性和转录调控

Khodabandelou, G., Mozziconacci, J. & Routhier, E. Genome functional
annotation using deep convolutional neural network. Preprint at https://www.
biorxiv.org/content/early/2018/05/25/330308 (2018).

Kelley, D. R., Snoek, J. & Rinn, J. L. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks. Genome Res. 26, 990–999 (2016).

Quang, D. & Xie, X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res. 44, e107 (2016).

Li, Y., Shi, W. & Wasserman, W. W. Genome-wide prediction of cis-regulatory regions using supervised deep learning methods. BMC Bioinformatics 19,202 (2018).

从基因型数据预测基因表达的模型

Xie, R., Wen, J., Quitadamo, A., Cheng, J. & Shi, X. A deep auto-encoder
model for gene expression prediction. BMC Genomics 18 (Suppl. 9),
845 (2017)

研究剪切模式模型

Jha, A., Gazzara, M. R. & Barash, Y. Integrative deep models for alternative
splicing. Bioinformatics 33, i274–i282 (2017).

鉴定lncRNA

Tripathi, R., Patel, S., Kumari, V., Chakraborty, P. & Varadwaj, P. K.
DeepLNC, a long non-coding RNA prediction tool using deep neural
network. Netw. Model. Anal. Health Inform. Bioinform. 5, 21 (2016).

Yu, N., Yu, Z. & Pan, Y. A deep learning method for lincRNA detection using auto-encoder algorithm. BMC Bioinformatics 18 (Suppl. 15), 511 (2017).

Hill, S. T. et al. A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential. Nucleic Acids Res. 46, 8105–8113 (2018).

研究单细胞中调控机制，如甲基化，亚型分析

Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).

Angermueller, C., Lee, H. J., Reik, W. & Stegle, O. DeepCpG: accurate
prediction of single-cell DNA methylation states using deep learning. Genome
Biol. 18, 67 (2017).

Shaham, U. et al. Removal of batch effects using distribution-matching
residual networks. Bioinformatics 33, 2539–2546 (2017).

Lin, C., Jain, S., Kim, H. & Bar-Joseph, Z. Using neural networks for reducing the dimensions of single-cell RNA-Seq data. Nucleic Acids Res. 45, e156 (2017).

基因组高级结构

Wang, Y. et al. Predicting DNA methylation state of CpG dinucleotide using
genome topological features and deep networks. Sci. Rep. 6, 19598 (2016).

Schreiber, J., Libbrecht, M., Bilmes, J. & Noble, W. Nucleotide sequence and DNaseI sensitivity are predictive of 3D chromatin architecture. Preprint at
https://www.biorxiv.org/content/early/2017/01/30/103614 (2017).

基因组变异
如：DeepVariant，从短读长序列中利用CNN找变异

Poplin, R. et al. Creating a universal SNP and small indel variant caller with
deep neural networks. Preprint at https://www.biorxiv.org/content/
early/2018/03/20/092890 (2017).

还有基于长读长的数据利用深度学习进行base calling的技术，如：

Boža, V., Brejová, B. & Vinař, T. DeepNano: deep recurrent neural networks for base calling in MinION nanopore reads. PLoS One 12, e0178751 (2017).

Teng, H., Hall, M.B., Duarte, T., Cao, M.D. & Coin, L. Chiron: translating

nanopore raw signal directly into nucleotide sequence using deep learning.
Preprint at https://www.biorxiv.org/content/early/2017/08/23/179531 (2017).

预测非编码元件变异的功能结果
DeepSEA除了可以预测非编码元件变异的功能结果，还可以用于自闭症谱系障碍的调节变异的研究。
ExPecto可以从200多种组织和细胞类型中预测基因表达水平和序列的变异效应

Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).

Zhou, J. et al. Whole-genome deep learning analysis reveals causal role of
noncoding mutations in autism. Preprint at https://www.biorxiv.org/content/
early/2018/05/11/319681 (2018).

Zhou, J. et al. Deep learning sequence-based ab initio prediction of variant
effects on expression and disease risk. Nat. Genet. 50, 1171–1179 (2018).

5. 深度学习的工具资源

6. 基于卷积神经网络预测DNA-binding motifs的交互教程

https://colab.research.google.com/drive/17E4h5aAOioh5DiTo7MZg4hpL6Z_0FyWr

最后编辑于：2019.01.20 17:13:12

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,802评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,109评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,683评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,458评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,452评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,505评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,901评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,550评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,763评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,556评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,629评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,330评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,898评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,897评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,140评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,807评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,339评论 2赞 342