在进行上游分析之前,我们需要进行原始数据的获取,其中就包括去各大数据库下载原始数据
1. 原始数据的下载
- wget
# 根据数据链接直接下载
wget https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR19187641/SRR19187641
# 可以根据链接进行批量下载
wget -i sra.txt
- prefetch
# 更高效、更快捷地下载
prefetch SRR19187641
prefetch --option-file sra.txt -O output_directory
prefetch命令下载SRA文件
SRA Toolkit - prefetch 快速下载NCBI SRA数据
sratoolkits软件的安装 cdb-config:command not found 解决方法 - 美洲豹2018 - 博客园
- Aspera
下载ENA数据库当中的原始数据,强烈推荐Aspera这个软件
使用ebi数据库直接下载fastq测序数据的改进脚本 | 生信菜鸟团
Aspera下载安装使用
从NCBI-SRA和EBI-ENA数据库下载数据
2021-02-14 ascp下载ENA数据库文件
How to Download Data Files — ENA Training Modules 1 documentation (ena-docs.readthedocs.io)
2. 格式转换(sra转为fastq)
fastq-dump正在被淘汰,推荐使用fasterq-dump,如果多线程处理推荐使用pfastq-dump,但是都需要先配置好sratoolkit
sra转fastq笔记(fastq-dump、fasterq-dump和parallel-fastq-dump)
HowTo: fasterq dump · ncbi/sra-tools Wiki · GitHub
[工具] pfastq-dump 并行版的fastq-dump
# 批量处理方法一
for i in $(ls rawdata/SRR*)
do
fastq-dump --split-files --gzip ${i##*/} -O rawdata/
done
# 批量处理方法二
cd rawdata/
for base in SRR*
do
echo $base
fastq-dump --split-files ${base}
done
cd ../
linux shell获取文件名和路径,basename/dirname/${}运用_ksj367043706的博客-CSDN博客_shell 文件名称