TBtools基因家族分析详细教程(1)

写在前面:
非常感谢CJ开发出如此强大的TBtools工具,作者详细讲解了基因家族的分析过程和意义,课程购买地址,讲的很棒,可以试听。

一共分为4个部分
TBtools基因家族分析详细教程(1)
TBtools基因家族分析详细教程(2)基因家族成员的基本分析
TBtools基因家族分析详细教程(3)基因家族成员的进化分析1
TBtools基因家族分析详细教程(3)基因家族成员的进化分析2


Introduciton:什么是|为什么做(意义)|
辅助基因注释或矫正基因注释
为后续物种gene功能研究做铺垫
确定家族中可用的目标gene分支(包括挖掘新分支)
基础的生物信息学数据分析锻炼
充实论文内容或作为论文的主要内容
method:怎么做(涉及内容,已发表文献和自己理解),涉及序列保守,结构域定义,序列比对,进化树构建
内容见下面
结果:完成基因家族分析文章中的内容,甚至超过他们。
加深理解分子生物学和生物信息学
掌握部分TBtools工具的使用,加速生信下游数据分析
绘制漂亮的图片

Introduction
基因是染色体上一段可以发生转录的区域(内含子外显子启动子)
转录本才是基因的研究实体
基因家族来源于同一个祖先,由同一个gene通过基因重复而产生两个或更多的拷贝而构成的一组gene,其在结构和功能上就有明显的相似性,编码相似的蛋白质产物,同意家族gene可以紧密排列在一起,形成一个基因簇,但多数时候,他们分散在同一染色体的不同位置,或存在于不同的染色体上,各自有不同的表达调控模式
序列高度相似的序列,互为同源gene,归属于一个基因家族(拷贝数目多于1)
结构域的 角度来说,具有保守结构域(某个或多个)的序列,即为某个基因家族的序列(可能同时要不具有另外的某个结构域)

目录

1 基因家族成员的鉴定

  • 确定研究的基因家族
  • 家族成员的基本特征确定(参考已有物种)
  • 参考序列集合的准备
  • 目标物种序列和注释信息的下载或准备
  • 双向Blast比对获取可能的成员
  • 基于保守结构域进行进一步筛选

2 基因家族成员的基本分析

  • 成员的序列特征分析(分子量等电点等)
  • 基于motif分析成员序列保守特征与可视化(蛋白与核酸,可用于挖掘未知,尤其是核酸水平-非编码水平的保守)
  • 基于domain分析成员结构域的保守型与可视化(往往已知)
  • 基因结构分析(包括内含子模式)
  • 基因染色体分布情况可视化

3 基因家族成员的进化分析

  • 多序列比对与可视化
  • 进化树构建与可视化
  • 从进化水平分析motif模式
  • 从进化水平分析domain
  • 从进化水平分析基因结构变化
  • 合并分析以上三方面
  • 基因-共线性的定义与常见算法原理
  • 物种内的共线性分析
  • 基因家族成员的来源分析
  • 不同物种之间的共线性分析
  • 共线性分析结果可视化

内容

A 基因家族成员的鉴定

1目标物种序列和注释信息的下载或准备(genome的fasta格式和gff3或gtf)

基因组序列信息:fasta格式文件
基因组基因结构注释信息:制表符分隔,存储基因的外显子内含子,CDS等坐标信息的.gff3或.gtf文件(区分基因结构注释与基因功能注释)

  • 获取途径
    基因组文章中对应的链接
    常见的数据库Ensemble植物,动物,Phytozome
    NCBI
    其他途径

1.1蛋白序列结合的整理与提取(TBtools)

1.1.1使用Gtf/Gff3 sequence extractor,基于基因结构注释信息,从基因组中提取出所有基因的CDS序列
image1.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
1.1.2使用CDS to protein Translator将所有CDS翻译为蛋白序列
image.png

fasta文件每个名称后面有+号,简化


2 确定研究的基因家族

  • 课题相关,MYB,bHLH,WD40,花青素
  • 研究热点甲基化 甲基化酶 去甲基化酶
  • 新家族 某蛋白很关键 有没有家族

3 家族成员的基本特征确定(参考已有物种)

  • 研究相对透彻的基因家族,可参考收录了基因家族特征的网站如TAIR,PlantTFdb(针对转录因子

  • 查阅文献(gras gene family为例),归纳总结
    注意:保守的结构域(在哪段),几个分支,保守的aa位点,长度波动

4 参考序列集合的准备

  • 从已经收录的网站下载tari
  • UniProt动植物都有
  • 自行整理(基于文献或自行鉴定的新家族)

5 双向Blast比对获取可能的成员

image.png
image.png
image.png

比对得到的结果,去重复得到uniq ID。就是query序列匹配到上一步由CDS得到的protein序列(target)的结果。
下面再extract上述42个ID的protein sequence的fasta数据

接下来去NCBI blastp

image.png

用TBtools把xml格式转化为table格式


image.png

按Query_def删除重复项,保留的都是第一个hit,也就是最匹配的hit。为了判断是不是全部都家族成员,可以对可疑的基因进行文献搜索
通过初步筛选,上述42个基本都是基因家族成员,为了进一步确定,进行下一步基于保守结构域进一步筛选

6 基于保守结构域进行进一步筛选

ncib web cd search
或pfam

image.png

可视化

image.png
image.png
image.png

pineapple的(这个图有问题,可以直接在修改short name列名就可以,注意空格等,这里我就不再改了,后面改过来了)


直接删除,若严谨,重新截取此基因组序列的前后序列,具体

image.png

打开genePose文件,查找刚才可疑的某个gene比如Aco005453.1


image.png

image.png

复制上述序列到softberry FGENESH-M工具

image.png
image.png

image.png

结果说明该基因本来该两个结构域,现在却一个。基因组注释需要更加完善。可以替换信息进去。其余三个类似。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容

  • 基因组组装完成后,或者是完成了草图,就不可避免遇到一个问题,需要对基因组序列进行注释。注释之前首先得构建基因模型,...
    xuzhougeng阅读 50,290评论 11 184
  • 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sang...
    oddxix阅读 7,185评论 0 44
  • 刘小泽写于18.9.25今天接触到一个新名词——基因家族分析,不搜不知道,一搜吓一跳。2018年关于基因家族分析的...
    刘小泽阅读 8,660评论 0 66
  • 门对面是不完整的略显残酷的世界,即使这样的世界,她也竭尽全力试图去喜欢,我非常非常喜欢这样的她 在柔软的雨幕下,我...
    欢迎儿阅读 310评论 4 1
  • 你是真的渴望优秀? 还是,你觉得优秀了, 别人更看得起你?羡慕你? 你的父亲会对你更满意? 我一开始的答案是:我渴...
    尘若婵阅读 236评论 0 0