作者:snail
审稿:童蒙
编辑:amethyst
What's Motif?
模体(Motif)是指序列中局部的保守区域,或者是一组序列中共有的一小段序列模式;与转录因子、组蛋白等结合。在蛋白质、DNA、RNA序列中都存在,同源序列中不同位点的保守程度不同,一般对于功能影响较大的序列,通常比较保守。通俗来讲Motif就是反复出现的模式,并且假设其具有生物学功能。转录因子通常通过识别motif,与基因的调控区域结合,发挥转录调控作用。
Why's Motif?
Chip-seq分析的核心其实就是找到可靠的motif,即转录因子结合位点结合的序列特征,明确了转录因子的结合位点,有助于揭示这些转录因子的生物学功能和机制,帮助理解基因调控网络。染色质开放区域暗示该位置有蛋白结合,基于ATAC-seq,对某个基因上游进行motif分析,可准确找到基因上游结合的转录因子,也就知道了谁调控了该基因;亦或通过查看差异开放染色质区域富集了哪些转录因子的motif,即可锚定关键转录因子。
MEME Suite 大礼包
礼包领取地址:Introduction - MEME Suite (https://meme-suite.org/meme/index.html)
该网页主要可以实现五个功能:
Motif Discovery
Motif Enrichment
Motif Scanning
Motif Comparison
GeneRegulation
Motif Discovery用于预测输入序列上的motif信息的5个工具,它们支持DNA、RNA或蛋白序列的分析,以MEME为例:
点击参数右侧的问号,可以详细了解各参数的含义,或是在右侧主菜单Manual中查看。
以网站Sample Output中MEME example为例:第一部分是输出的Motif结果,包含Logo,E-value、Sites、Width、More和Submit/Download六列。Sequence Logo展示的是Motif的一致性序列,字母的高度表示该碱基在Site Count各序列中出现的频率,结果中彩色的logo表示显著,不显著的为灰色。第一个motif的Sites为14,即我们输入的序列中,该Motif出现了14次。Width表示该Motif的长度。
点击“More”下的蓝色下拉箭头,可以看到该motif的详细信息。下图结果第一行表示输入的第六条名称为recn的序列,处于该序列的正链上,Motif位点起始于序列的71bp处,后两列为P值以及预测到的Motif序列及其上下游10bp序列信息。
Submit/Download可以选择将该Motif序列结果提交给MEME其他组件,其他功能后续再介绍。也可以以各种文本格式下载这个motif,或下载序列Logo。
下载格式中一种格式为Probability Matrix,即Position Probability Matrix (PPM),是Motif的一种展示格式,包含的信息主要是每个位置四种核苷酸出现的次数/频率,现有一些R包例如SeqLogo、ggseqlogo等均可基于该文件格式进行Motif可视化。
结果还包括Motif在序列上的位置信息。每一行为输入的序列序号以及名称,每个Block表示一个Motif,以颜色进行区分,Block的高度表示其重要性,高度越高P值越小,即越显著。上方Block表示该Motif位于正链,下方则位于负链。将光标置于Block上方时可展示该Motif的详细信息。
最下方为预测使用的序列信息统计,以及分析时使用的参数设置。
参考资料
Overview - MEME Suite (https://meme-suite.org/meme/doc/overview.html?man_type=web)