参考:https://www.jianshu.com/p/cf0a7b937413
NCBI 子数据库SRA是存储高通量原始测序数据的数据库,发测序类文章,审稿人都会要求你在NCBI提交原始测序数据,有助于后续有人继续分析,因为基因注释是不断更新的,也就是说不断有新的基因被发现,特别是非模式物种。
一、检索
1.1 SRA数据库
Sequence Read Archive
https://www.ncbi.nlm.nih.gov/sra/?term=
点击* Advanced
如果有很多测序数据情况下,高级检索可以更快速找到所需要的测序数据,
1.1.1 高级检索
Layout:单端或双端测序
Organism:物种名称(拉丁文)
Platform:"abi solid"或"bgiseq","illumina"(二代),"oxford nanopore","pacbio smrt"
Source:"transcriptomic","metatranscriptomic"(宏转录组)"genomic"(宏基因组)
Strategy:"amplicon"扩增子,"rna seq","mirna seq"
Show index list
1.1.2 结果
这些数据可以直接下载,但如果是双端测序数据,这种下载方式得到的后缀名为gz的文件其实是两个文件。数据量小可以去https://usegalaxy.org/拆分,数据量大使用fastp拆分。
1.2 ENA数据库
European Nucleotide Archivehttps://www.ebi.ac.uk/ena
点击Advanced
1.2.1 高级检索
1.2.2 结果
二、下载
2.1 ftp下载
记录上面得到的登录号:
ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/
输入登录号的前六位,找到对应文件夹的sra文件,点击下载。
ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/
2.2 wget命令
记录上面ftp下载方法中的ftp地址
wget ftp地址
2.2 prefetch命令
需要先安装sratoolkit软件
sudo apt-get update#更新软件源
sudo apt install sra-toolkit#安装
下载
prefetch 登录号
登录号不含有后缀名,例如:
prefetch SRR8884976
附:
ENA数据库:https://www.ebi.ac.uk/ena/data/view/SRR8884976
下载:
ftp://ftp.sra.ebi.ac.uk/vol1/srr/SRR888/006/SRR8884976
ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR888/006/SRR8884976/SRR8884976_1.fastq.gzSRR888/006/SRR8884976/SRR8884976_1.fastq.gz
ftp://ftp.sra.ebi.ac.uk/vol1/