一、前言
好久没更新过文章啦,今天我们来聊一聊怎么找hubgene。
二、常见的寻找hubgene方法
我们如果要研究一个疾病,通常会做一个疾病的正常和非常基因差异表达分析,而得到的这些差异基因,怎么往下缩小范围往往是一个比较头疼的问题。如果你经常阅读文献或者对生信分析了解过一段时间,就会知道我们一般会从两个方向去看
①GO和KEGG富集寻找感兴趣的通路
②利用Cytocape及STRING数据库进行PPI蛋白互作,寻找Degree最高的TOP10,或者根据插件ClusterONE等分模块研究、基于cytohubba的各种算法进行关键基因提取。但是万变不离其中:从蛋白质的功能信息出发,查找与其功能相似或相关的蛋白质,并对这些蛋白质间的关联程度进比较、量化。
第一种的问题在于通路中包含的基因太多了,这时候我可能无法进行展开研究。而且纯人工挑选感兴趣的通路,让我感到生理上的不适。
这个是我研究的某个疾病,利用差异基因(P<0.05,logFC>2)绘制的PPI,我们感觉到基因像是富集了两个模块,但利用clusterONE分出来的只有画红圈的这一部分,下方不聚类或不全聚类。这就比较麻烦了,其实每个人对一个疾病进行研究,基本上都有一些研究思路,比如说我标颜色的这些基因才是我想研究的关键基因,如果根据Degree(其他数学模型算法都一样,Degree比重是最高的)也不会挑出我想要的基因。问题来了,怎么解决?
三、GOSemSim包
出自https://www.sciencedirect.com/science/article/pii/S1874391912007567
怎么判断哪些是hubgene?
第1个线索是基因的差异改变的程度比较大,但差异改变程度大并不一定代表重要。
第2个线索就是该基因的产物与通路上的其它基因产物都有互作的话。简而言之,该基因编码蛋白的“朋友”比较多的话,那么该基因就可能比较重要。
简单的说,如果两个基因产物的功能相似,那么他们在GO中注释的术语(term),在GOtree中所处的位置就比较相近,反映在语义相似度上,就是他们的语义相似度比较。所以这是一个利用GO分析进行通路间关系强度打分的包,最后做成了这个样子。这是我挑选的前十个基因,做成云雨图。至于GOSemSim怎么使用,大家可以自由探索了解。