数据上传 | SRA数据上传操作指南

在上一篇数据上传指南中,我们为大家介绍了GEO上传操作指南,今天小编就来介绍另一种重要的NCBI数据库SRA,它可用于存储测序的原始数据,实现资源共享。小编将SRA数据库的提交过程做一个简单概述,希望能为大家提供一点帮助。

一 SRA数据上传操作方法

1 NCBI 账号注册

数据上传前需要注册一个NCBI(https://www.ncbi.nlm.nih.gov/)账号,创建需要邮件激活。如果已经有账号,可以直接点击登录。在NCBI的首页点Submit,选择Sequence Read Archive (SRA),点击GO,点击New submission。

2 Bioproject 创建

用于描述对样本进行测序的研究目的


点击

填写submitter详细信息:带“*”号为必填(姓名、邮箱、单位、地址、邮政编码),点击continue。


项目类型基因组/转录组,外泌体,宏基因组等

研究物种信息

信息释放时间节点,项目的主要概况,研究目的等

如果已经创建Biosample,则填写BioSample编号,否则创建BioSample

添加完Biosample 后进入Publication 界面,如果已经有发表的文章则填写文章的Pubmed ID/DOI 号

3 Biosample 创建

用于描述测序样本的具体信息


该页面详细介绍了BioSample的用途,注意事项以及视频教程

已经有该项目的bioproject 直接点击submit


填写基本信息

←点击新建

选择信息何时向公众公开

添加物种信息

选择物种类型

填写或下载填写样本相关表格

将填写好的样本上传

如果样本不多,推荐直接在网页填写表格

网页版表格:必填字段标有*星号。标有**,††或‡‡的字段至少填写其中一个。表格填写:不同的生物样品类型所需填写的表格内容不同。绿色字段为必填项,如缺少相关信息,如任何必填项没有资料,可以填写'not collected', 'not applicable' 或 'missing';以人类样品为例,至少需要填写绿色单元格里的以下几项样品信息:(1) 样品名称(sample name):无特定格式要求。(2) 物种(organism):实验物种的拉丁名。(3) 个体(isolate):为该实验样品个体取一个名字,无特定格式要求。(4) 年龄(age):格式为【数字】+【时间单位】。(5) 单位(biomaterial_provider):实验室或PI的名称和地址等信息,无特定格式要求。(6) 性别(Sex):请从下拉菜单中选取符合条件的选项,而不要手动填写。(7) 组织(tissue):样品来源的组织类型,无特定格式要求。蓝色字段为至少一个必填项,可参考绿色字段填写方法;黄色字段则为非必填项。注意,除样本名外,需要可以有信息将每个样本区分开,可以通过添加description信息,或者另外增加replication的信息来进行区分(注意,这里信息如果填写不符合规范,上传后会报错,只需根据提示的信息对表格内容进行相应修改后重新上传即可)

若多个样品填写为相同的信息(生物学重复),需要在最后一列添加“replicate”(replicate=replicate biological X(1、2、3))

预览Biosample 信息

BioSample号

4 数据上传导航

点击

填写Bioproject和BioSample号即可,如果没有填写no即可, 在数据上传的后面步骤中 会让您补充Bioproject和BioSample信息。

项目基本描述信息

选择添加metadata 的方式,是在线填写或者下载表格填写后上传

我们建议您勾选“Upload a file using Excel or text format (tab-delimited)”并点击下图红框内的“Download Excel spreadsheet”超链接下载模板表格文件,以便在本地电脑上慢慢填写表格。

下载的“表格文件”内含三个工作表:Contact info and instructions、SRA_data、Library and Platform Terms。其中**个和第三个工作表是说明文档,实际填写 SRA 元数据的位置再第二个工作表“SRA_data”。完成填写后,回到网页点击“Choose file”按钮上传文件。SRA 官方建议您将第二个工作表另为 txt 格式再上传,然而实际使用中 Excel 格式的文件基本也能被成功读取识别。

表格中需要填写以下各纵列内容:

(1) 样品名称(sample name):无特定格式要求,但需与第五步中上传表格使用过的样品名称保持一致。

(2) 文库ID(library ID):无特定格式要求。

(3) 标题(title):建议采用 {methodology} of {organism}: {sample info} 这样的格式,例如“RNA-Seq of mus musculus: adult female spleen”。

(4) 文库方法(library_stratagy):请从下拉菜单中选取。点击标题超链接,您可以查看到各个选项的说明。对于转录组的测序类项目,请选择 RNA-seq。

(5) 文库来源(library_source): 请从下拉菜单中选取。点击标题超链接,您可以查看到各个选项的说明。对于转录组的测序类项目,请选择 TRANSCRIPTOMIC。

(6) 文库筛选(library_selection):请从下拉菜单中选取。点击标题超链接,您可以查看到各个选项的说明。

(7)文库端数(library_layout):请从下拉菜单选取单端测序(single)或双端测序(paired)。

(8)测序平台(platform):请从下拉菜单中选取。点击标题超链接,您可以查看到各个选项的说明。诺禾致源绝大多数的测序项目,都请选择 ILLUMINA。

(9)测序仪器(instrument_model):请从下拉菜单中选取。点击标题超链接,您可以查看到各个选项的说明。例如 Illumina NovaSeq 6000。

(10)方法描述(design_description):无特定格式要求。

(11)文件类型(filetype):请从下拉菜单中选取。绝大多数的测序项目是提供 fastq 格式文件。(11)文件名(filename):此行所描述的文件的名称(含文件后缀名)。如果存在多个文件,例如对于双端测序而言,请您将R1测序文件的文件名填写在“filename”一列(例如“Sample A1_1.fastq.gz”),然后再将R2测序文件的文件名填写在“filename2一列(例如“Sample A1_2fastq.gz”)。(12)参考基因组(assenbly 或 fasta_file):此行上传的数据是 bam 格式等与基因组比对后生成的文件,请提供参考基因组的信息。如果是 NCBI 上的公开基因组,请在 assembly 一列填写基因组版本名称;如果使用的是自定义的本地基因组文件,请在 fasta_file 一列填写基因组文件的名称。如果此行数据描述的文件不涉及基因组比对(alignment)操作,这两列都可以留空。

选择原始数据上传的方式,数据较少就选网页上传,如果较多可以选择第二个,这里推荐Aspera方法上传数据

注:网页上传选择第一个选项webbroser uplode; 点击选择文件直接上传即可;样本较少可选择网页上传,注意:双端序列,需要将R1,R2两端序列均上传。

样本较多选择aspera软件上传,点击Aspera browser plugin upload,下载并安装windows版本的Aspera软件以及Key file(需要下载“key file”这个在后面写脚本的时候需要用到,如下图所示);注意asper command linexiafang jiaoben xinx ,后面命令运行需要用到。下载安装见链接:Aspera:https://www.ibm.com/aspera/connect/,安装完成后,找到IBM Aspera Connect的图标,点击属性,打开文件所在位置:

把这些软件下载安装到windows下后,运行dos命令窗口(在键盘上同时点击“windows+R”,输入“cmd”点击确认),输入软件所在绝对路径。

指令运行:首先进入到Aspera安装路径(即首先“cd”软件所在的绝对路径);运行命令行:需要根据NCBI提供的脚本进行改写自己的脚本:ascp -i 第二步下载的key文件(注意带上文件的目录) -QT -l100m(上传最大速度,这里设置的为100M,如果觉得太快或太慢,可适当调整) -k1 -d 数据存放目录(目录一“”结尾) subasp@upload.ncbi.nlm.nih.gov:uploads/lily@outlook.com_jZdRWIub(邮箱_生成的随机码)注意:第二步中Aspera Command-Line upload有具体的命令行指令,以及需要上传的路径,只需要修改key文件路径和数据目录即可运行上传数据

数据上传完成后需要耐心等待一段时间,上传完所有的数据之后等上10-15min,刷新软件后可以出现下面的选项(注意最好选择网线上传,不要用无线)。

二 SRA数据上传常见问题

1 表格填写问题导致无法进行下一步

Biosample 创建中Attributes表格填写,需要注意除样本名外,需要可以有信息将每个样本区分开,可以通过添加description信息,或者另外增加replication的信息来进行区分。有生物学重复的需要在最后一列添加“replicate”(replicate=replicate biological X(1、2、3))

2 运行命令错误

输入代码后没反应(不弹出上传的命令行)可以降低网速重新尝试,或者检查上传文件路径是否有空格,以及文件命名是否有空格,检查后更改路径重新上传。

3 输入代码后

(error:key passphrase)

退出软件,重新启动或重新下载

4 传输中断

(error: 0bit/s session stop)重新输入代码,并建议适当调低网速

5 Session Stop

(Error: Failed to open TCP connection for SSH)

重新下载软件重新登录再尝试

总结:目前最常见的问题是表格上传问题可以重点检查上传表格中填写是否完全一致,无法区分样本。及输入代码后不弹出上传的命令问题可以检查网速,检查上传文件路径是否有空格,以及文件命名是否有空格,检查后更改路径重新上传。

以上就是本次数据上传指南的主要内容,希望本次的分享可以给大家带来帮助。如果大家有什么问题,也可以在评论区留言。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,784评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,745评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,702评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,229评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,245评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,376评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,798评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,471评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,655评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,485评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,535评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,235评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,793评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,863评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,096评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,654评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,233评论 2 341

推荐阅读更多精彩内容