作业要求
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面!
来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost
实验过程
1.文献下载
一般我都会去Google镜像搜索:https://xueshu.glgoo.net/.此外还会在SCI-HUB下载,不过前段时间被起诉了,还罚款,不知道这个牛逼的网站能够撑到什么时候。在实验方法的部分GSE81916存放了测序数据。
2.数据下载
进入NCBI的GEO数据库https://www.ncbi.nlm.nih.gov/geo/,搜索GSE81916。
看到页面中的overall design:
所以我们只需要下载样本9-15数据。
数据储存的链接:
通过ftp的方式下载数据,其中还介绍了测序平台。
点击进入ftp,看到储存的所有测序文件:
下面我们只要执行一个循环,可以自动下载SRR3589956-SRR3589962一共七个数据,命令如下:
# 我是将数据放在disk2/sra目录下
$ cd ~/disk2 && mkdir sra
$ for ((i=56;i<=62;i++));do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899$i/SRR35899$i.sra ;done
# 只需等待,我当时就是花了一个晚上的时间,当然这里可以使用sratoolkit自带的‘prefetch accession’的形式来下载数据,并且默认下载到~/ncbi/public/sra 。
3.文章使用的软件工具
read 计数:HTSeq
差异基因表达分析:DESeq
差异外显子表达分析:DEXSeq
统计分析:R
基因富集分析:DAVID