写在前面:
非常感谢CJ开发出如此强大的TBtools工具,作者详细讲解了基因家族的分析过程和意义,课程购买地址,讲的很棒,可以试听。
一共分为4个部分
TBtools基因家族分析详细教程(1)
TBtools基因家族分析详细教程(2)基因家族成员的基本分析
TBtools基因家族分析详细教程(3)基因家族成员的进化分析1
TBtools基因家族分析详细教程(3)基因家族成员的进化分析2
Introduciton:什么是|为什么做(意义)|
辅助基因注释或矫正基因注释
为后续物种gene功能研究做铺垫
确定家族中可用的目标gene分支(包括挖掘新分支)
基础的生物信息学数据分析锻炼
充实论文内容或作为论文的主要内容
method:怎么做(涉及内容,已发表文献和自己理解),涉及序列保守,结构域定义,序列比对,进化树构建
内容见下面
结果:完成基因家族分析文章中的内容,甚至超过他们。
加深理解分子生物学和生物信息学
掌握部分TBtools工具的使用,加速生信下游数据分析
绘制漂亮的图片
Introduction
基因是染色体上一段可以发生转录的区域(内含子外显子启动子)
转录本才是基因的研究实体
基因家族来源于同一个祖先,由同一个gene通过基因重复而产生两个或更多的拷贝而构成的一组gene,其在结构和功能上就有明显的相似性,编码相似的蛋白质产物,同意家族gene可以紧密排列在一起,形成一个基因簇,但多数时候,他们分散在同一染色体的不同位置,或存在于不同的染色体上,各自有不同的表达调控模式
序列高度相似的序列,互为同源gene,归属于一个基因家族(拷贝数目多于1)
结构域的 角度来说,具有保守结构域(某个或多个)的序列,即为某个基因家族的序列(可能同时要不具有另外的某个结构域)
目录
1 基因家族成员的鉴定
- 确定研究的基因家族
- 家族成员的基本特征确定(参考已有物种)
- 参考序列集合的准备
- 目标物种序列和注释信息的下载或准备
- 双向Blast比对获取可能的成员
- 基于保守结构域进行进一步筛选
2 基因家族成员的基本分析
- 成员的序列特征分析(分子量等电点等)
- 基于motif分析成员序列保守特征与可视化(蛋白与核酸,可用于挖掘未知,尤其是核酸水平-非编码水平的保守)
- 基于domain分析成员结构域的保守型与可视化(往往已知)
- 基因结构分析(包括内含子模式)
- 基因染色体分布情况可视化
3 基因家族成员的进化分析
- 多序列比对与可视化
- 进化树构建与可视化
- 从进化水平分析motif模式
- 从进化水平分析domain
- 从进化水平分析基因结构变化
- 合并分析以上三方面
- 基因-共线性的定义与常见算法原理
- 物种内的共线性分析
- 基因家族成员的来源分析
- 不同物种之间的共线性分析
- 共线性分析结果可视化
内容
A 基因家族成员的鉴定
1目标物种序列和注释信息的下载或准备(genome的fasta格式和gff3或gtf)
基因组序列信息:fasta格式文件
基因组基因结构注释信息:制表符分隔,存储基因的外显子内含子,CDS等坐标信息的.gff3或.gtf文件(区分基因结构注释与基因功能注释)
1.1蛋白序列结合的整理与提取(TBtools)
1.1.1使用Gtf/Gff3 sequence extractor,基于基因结构注释信息,从基因组中提取出所有基因的CDS序列
1.1.2使用CDS to protein Translator将所有CDS翻译为蛋白序列
fasta文件每个名称后面有+号,简化
2 确定研究的基因家族
- 课题相关,MYB,bHLH,WD40,花青素
- 研究热点甲基化 甲基化酶 去甲基化酶
- 新家族 某蛋白很关键 有没有家族
3 家族成员的基本特征确定(参考已有物种)
研究相对透彻的基因家族,可参考收录了基因家族特征的网站如TAIR,PlantTFdb(针对转录因子)
查阅文献(gras gene family为例),归纳总结
注意:保守的结构域(在哪段),几个分支,保守的aa位点,长度波动
4 参考序列集合的准备
5 双向Blast比对获取可能的成员
比对得到的结果,去重复得到uniq ID。就是query序列匹配到上一步由CDS得到的protein序列(target)的结果。
下面再extract上述42个ID的protein sequence的fasta数据
接下来去NCBI blastp
用TBtools把xml格式转化为table格式
按Query_def删除重复项,保留的都是第一个hit,也就是最匹配的hit。为了判断是不是全部都家族成员,可以对可疑的基因进行文献搜索
通过初步筛选,上述42个基本都是基因家族成员,为了进一步确定,进行下一步基于保守结构域进一步筛选
6 基于保守结构域进行进一步筛选
ncib web cd search
或pfam
可视化
pineapple的(这个图有问题,可以直接在修改short name列名就可以,注意空格等,这里我就不再改了,后面改过来了)
直接删除,若严谨,重新截取此基因组序列的前后序列,具体
打开genePose文件,查找刚才可疑的某个gene比如Aco005453.1
复制上述序列到softberry FGENESH-M工具
结果说明该基因本来该两个结构域,现在却一个。基因组注释需要更加完善。可以替换信息进去。其余三个类似。