零基础教程 | 我有一堆基因,如何预测TF-Gene调控网络?

写在前面

早晨起来,想起来很久很久以前,有一个用户提出的优化想法,觉得确实也合理,就更新了一下。顺便也把相关插件使用详细捋捋,方便大伙搞清楚这些插件都拿来干啥。
早前,顺手写了两个插件:

  1. Plant TF Motifs Shift:用于将拟南芥的 TF Binding Pattern 转移到目标物种蛋白上
  2. Fimo Search: 基于输入的 Motifs 对目标区域进行扫描

那么可以做什么?简单来说,如果我得到一堆差异表达基因,我想知道其中哪些 TF 可能结合到另外一些基因的启动子区域;或者我有一个WGCNA分析得到的基因共表达网络,在这种情况下,如果有转录因子成员结合到另外成员的启动子区域,那么我们就有更大的把握他们存在调控和被调控关系的可能性不会太低。剩下的当然就是实验验证。为了完成这个分析,我们需要的步骤是:

  1. 拿到目标基因列表,这个大伙自然都有,甚至GWAS出来的一堆基因,当然差异表达基因集合或者共表达基因模块更常见;
  2. 拿到目标区域,一般是基因集合内成员的启动子区域,大概是ATG上游1000~2000bp,可以自定义
  3. 使用 Plant TF Motifs Shift 插件,以拟南芥为参考,获得可能得转录因子成员的Binding Motifs
  4. 使用 Fimo Search 插件,以得到的 Binding Motifs 对目标区域(如启动子区间)进行扫描,即可得到结果(事实上你要对整个基因组扫描,也不是不行)

下述逐步演示操作。为了完成这些操作,我们给出一个实例:

  1. 目标基因列表,一个苹果的基因共表达网络模块
  2. 苹果的基因组序列,注意是基因组,不是基因(为了提取启动子区域)
  3. 苹果的基因结构注释信息文件,GFF3/GTF格式(为了提取启动子区域)
  4. 苹果的蛋白序列全集(这个其实也可以基于 2 和 3 来准备)
  5. TBtools

TBtools安装

Emmm.... 这个自己想办法。

插件安装

两个功能都是 TBtools 的插件,可以直接从插件商店安装。



具体就是打开 TBtools,打开插件商店,然后选中插件,Install 就可以了

Binding Motifs 获取

打开 Plant TF Binding Motif Shift 插件,设置苹果的蛋白序列全集,设置输出文件路径前缀,点击 Start 即可



等待即可(由于是几万个蛋白序列比对到几万个蛋白序列,如果是一般笔记本,BLAST的话,可能需要跑一整个晚上,但这个是值得的,因为一个物种一般就跑一次就好了。BLAST到底还是会比DIAMOND这类准确一些,在小细节上;当然后面确实有时间时,我会考虑支持 DIAMOND 对BLAST的替换)
完成后即可看到一系列数据,但其实只有两个是比较有用的。



输出中的两个文件,不带greedy的是非常可靠的 binding motifs,带 greedy 的是尽可能匹配的。
在不带greedy的 motifs 文件中,我们可以看到下述

代表映射质量分级,如果是 Excellent 那么结果都还是可以的。其他的有 Good Average Fine Poor 等。这些分级取决于物种蛋白和拟南芥蛋白序列库的互惠BLAST效果。如果正好苹果对应的 Excellent 的拟南芥蛋白没有 binding motifs 信息,那么就没有显示出来菠萝映射出来的 binding motifs。这个会比较奇怪,因为可能下一层级可以映射出来有 binding motifs。
于是参考用户的要求,我做了一点优化,输出 greedy.motifs 信息,尽可能对苹果每一个蛋白都加上一个映射的ID,确保他可以映射到有motifs的。文件效果如下



如此,我们就得到所有苹果的 TF binding motifs。
随后,我们可以直接得到目标基因集合的 TF binding motifs

使用 TBtools 的 Text Block Extract 功能就可以了。

获得目标基因集合的启动子区域序列

具体完全可以参考前述我写过的 GFF3 序列提取教程,在B站我也有放了一个专门的视频教程。大体如下,先提取所有转录本的启动子序列,然后再提取目标基因集合的启动子区域序列。



随后,提取目标基因集合的启动子区域序列


使用 Fimo 构建基因调控网络

使用上述文件,一切搞定



运行后很快就可以看到结果




可以看到 Alt ID 对应的似乎 TF,Sequence Name 对应的是启动子上有对应 TF binding motifs 的基因。

如此,我们就得到了大规模的基因调控关系文本预测结果。事实上,如果你再结合共表达,结果真的没话说。
PS:如果你用的是 greedy.motifs 文件,操作完全相同。

可视化你的网络

当然,可视化的话,可以直接用 cytoscape 就可以了。
先在 Excel 之类的程序做一下格式化,去掉或者增加一个 Flag,是的 Alt ID 的格式 和 Suquence Name 的格式一致,方便分析相互调控关系



我用 Excel 打开 fimo.tsv 并格式化为如下:



随后打开 cytoscpe 可视化

风格化,NetworkAnalysis,简单优化,Outdegree得到如下

可以看到,虽然我们有很多几百个基因的模块,但从 TF Binding Motifs 分析来看,只有少数可能是非常关键的 hub genes。
我们可以过滤一下质量。


写在最后

到底,数据就数据,做做处理,或许就是有用的信息。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,812评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,626评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,144评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,052评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,925评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,035评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,461评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,150评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,413评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,501评论 2 307
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,277评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,159评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,528评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,868评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,143评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,407评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,615评论 2 335

推荐阅读更多精彩内容