数据获取及处理

基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课

数据下载

  • 工具1:sratoolkit
    注:必须用SRR号,即必须为SRR、DRR等开头
    prefetch SRR062637
  • 工具2:ascp
    注:需要翻墙,通过sra_explorer的网站查找对应序列的URL地址,通过该URL下载(目前最快)

批量重命名文件名

  • rename
$ ll
-rw-r--r-- 1 lyao CLChen  1.3G Jun 20 09:40 SRR2176358_RNA-seq_of_Kidds-D_8_fruit_skin_with_flesh_at_stage_I_Rep._II.fastq.gz
-rw-r--r-- 1 lyao CLChen  1.3G Jun 20 09:41 SRR2176359_RNA-seq_of_Kidds-D_8_fruit_skin_with_flesh_at_stage_I_Rep._III.fastq.gz

$ rename 's/SRR.*_RNA-seq_of_//' *.gz
# ".*"为正则表达式,通配符,将前面一长串改为空

PS 为什么我们的服务器rename就不行呢??????

数据质控、过滤

fastp -i -o -h -j -w
-h 生成网页版报告储存位置
-j 生成json格式报告储存位置
-w
fastp官网说明文档
默认两个线程
nohup ****** & —— 程序后台执行

参考基因组下载、处理

访问ftp地址一定不能翻墙

  • 苹果基因组在github,github上下载方式

    复制克隆链接
    git clone

git clone 克隆链接
苹果参考基因组下载
git clone https://github.com/moold/Genome-data-of-Hanfu-apple.git

基因组注释文件有.gtf文件则选择.gtf文件,因为是最新注释文件,.gff/gff3文件较原始

  • 参考基因组处理
    需要的文件包括
    基因组序列(genome.fasta)
    基因组注释文件(genes.gtf)
    蛋白序列文件(proteins.fasta)
    • 基因组序列合并
      cat *.fa > genome.fasta
    • 大文件用less,单行太长时,不换行显示
      less -S genes.gtf
    • gff格式注释文件转为gtf格式文件(内容比较规范的gff格式文件可以转换为gtf文件)
      gffread -T -o output_filename.gtf input_filename.gff
      -T指定输出格式为gtf,gffread可用conda安装
    • 注意
      基因注释文件必须的为exon & CDS,基因项在注释中gene ID项
      gtf文件中第三列没有gene和mRNA项

    gff文件中第三列mRNA代表可变剪接,许多物种没有研究到可变剪接,所以gene与mRNA数量相等;在人、鼠等研究较透彻的基因组中,mRNA > gene (可以通过比较此两项是否相等 判断该基因组注释中是否包含可变剪接数据)
    实现:

    awk '$3 == "gene" ' xxx.gff | wc
    awk '$3 == "mRNA" ' xxx.gff | wc
    

    比较输出结果

    • 参考基因组蛋白功能注释
      • 蛋白序列pep下载
      • 蛋白序列ID修改,ID应该修改为对应基因的ID
        E.X. 苹果基因组中蛋白ID为mRNA的ID,含有“-RA”后缀,可以通过awk -F更改分隔符为“-”去除后缀
        awk -F '-' '{print $1}' xxx.pep.fa

样本信息表

  • sample.txt
  • 内容(分隔符为‘\t’):
    • 单末端数据:第一列-分组名称,第二列-样本名称,第三列-序列绝对路径
    • PE数据:除前三列外,加第四列,为PE第二条序列的绝对路径
  • 可以通过序列名,利用awk实现

问题

  • DNA测序duplication控制在8%以下;RNA测序分析不管duplication,30%以下为正常
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341