生物医学研究中总免不了对单基因或是某基因家族的分析,这样“优秀”的基因需要在疾病表达、临床病理特征、以及其他生物层面具有显著的意义,如免疫相关、浸润差异、突变差异等等,同时具备这些条件的基因又不能被太多人研究,否则会大面积重复以致不能发表。大量阅读文献或许能够找到,但会耗费大量的时间,尤其是对于短期内毕业的研究生或是奔波于病人中的临床医生而言,那么如何快速找到值得研究的基因而不耗费大量时间呢?这里介绍一种本人在筛基因时所用到的基本方法,具有普适性,供大家参考。
第一步:找寻差异表达基因
如果我们对某种疾病感兴趣,首先需要找到差异表达的基因,通常是找正常vs.疾病,但是也有文献另辟蹊径,找早期vs.晚期的差异基因,这里由大家自行决定,不过按照前者的标准筛选到的基因相对较多,而后者的差异基因也许具有更加独特的性质但得到的结果也许较少,这需要在工作中自行调整。以正常vs.疾病为例,通常以TCGA和GEO的数据为基础,建议大家最开始以GEO为标准,找到多个符合条件的数据集,分别在每个数据集中找差异基因然后取交集。之所以这样做一是因为多个数据集取交集的说服力更强,二是因为TCGA只有单个数据集,很容易得到与别人重复的结果。本文以胃癌为例,找到GEO中具有正常和肿瘤组织的4个数据集,并绘制火山图,得到上调基因和下调基因。第一步就完成啦,下面我们进行进一步筛选
第二步:通过构建PPI网络找寻hub基因
这一步非常简单,我们只需要将得到的DEGs导入到STRING数据库(现在数据库有更新哦!),将构建好的PPI网络导入到Cytoscape,利用cytohubba插件来筛选hub基因,注意里面的算法有很多种,大家需要不断尝试。具体操作大家在网上都可以搜到,这里只展示分析结果。第一幅图中绿色的为上调基因,红色的为下调基因。第三步:对hub基因进行临床相关性分析
这里的分析层面有很多,比如对每一个hub基因做单因素回归、KM分析、或是临床病理特征的差异表达分析找到自己感兴趣的hub基因,进行进一步的深入探讨。这里只展示KM分析的结果,可以看到8个hub基因中有7个都有统计学显著性,并且都是胶原蛋白链类基因。后续我们可以对感兴趣的hub基因或是整个胶原蛋白链类基因家族进行机制分析、构建ceRNA网络,也可以结合热点比如m6A甲基化、肿瘤微环境、铁死亡、细胞焦亡等进行深入探讨和实验分析。
以上就是不读文献而快速找到值得研究的基因的比较通用的方法,但值得注意的是,这种方法得到的基因通常已经被研究过了,这就需要大家结合研究热点和其他实验思路来进行分析啦!