一般来说,在一个生信有关的项目快接近尾声的时候,我们需要及时地将项目中所涉及到的分析数据进行上传,以得到一个可公开的、可查询的、用于发表的项目编号,这一般对于大多数期刊来说都是需要的。
目前,可供研究人员上传数据的网站也有不少,如大家常见的NCBI就是其中之一,而国内出名的如国家基因组科学数据中心在近些年也得到了广泛的关注和使用。值得注意的是,针对不同类型的分析数据类型(原始测序数据、基因组组装数据、变异数据、代码等等),大家可以选择的网站是不同的,本系列将和大家主要介绍一下当前几个可以进行数据上传/分享的网站或数据库以及如何上传数据的具体方法。
首先要介绍的是来自美国的NCBI,全名为National Center for Biotechnology Information,是生物医学领域最常见的数据库之一
网站框架
整个网站可分为6个模块:
数据提交(Submit),选择提交自己的数据到该网站下的两个主要数据库:GenBank 和 SRA。其中的GenBank是国际核苷酸序列数据库合作组织的一部分,该组织由日本的DNA DataBank of Japan (DDBJ)、欧洲的European Nucleotide Archive(ENA)和NCBI的GenBank组成。这三大数据库之间每天都会相互交换数据。
数据下载(Download),提供了FTP、Aspera以及SRA Toolkit等工具帮助下载数据到本地
帮助文档(Learn),提供了各种文档说明和使用教程
应用开发(Develop),帮助开发人员接入网站提供的API进行二次开发
功能分析(Analyze),常见的诸如序列比对工具BLAST、引物设计工具Primer-Blast等
研究探索(Research),对NCBI计算生物学分支(NCBI Computational Biology Branch, CBB)相关的研究介绍
网站资源
所提供的数据资源如下:
化学和生物试验
数据下载和软件
DNA/RNA
保守结构域和3D结构
基因表达
遗传学和医学
基因组
同源蛋白
文献
蛋白质
序列分析
物种分类
教程
遗传变异
数据上传
数据上传方法:
- 第一步,打开NCBI (https://www.ncbi.nlm.nih.gov/)。点击
Submit
,然后会被导航到新的页面 (https://submit.ncbi.nlm.nih.gov/)
- 第二步,选择提交的数据库。往下滑动的过程中,选择一个合适的数据库进行数据提交,这里以SRA为例,点击
Submit
即可
- 第三步,登录。在点击
Submit
之后,会继续导航到新的页面,并可能看到如下提示,这是在提示你需要先登录NCBI然后再进行数据提交,目前NCBI支持微软账号直接登入。
在完成登录后,我们可以看到如下页面,里面有几条关于数据提交要求的描述,如压缩文件需要使用gzip
或bzip2
格式,而不能使用zip
格式;文件名要是唯一的,且不能包含敏感词汇;每个需要提交的文件都必须填写在表里;大于10GB或300个文件的时候,选择使用preload
选项;所有需要提交的文件都需要在单个文件夹里,并只能和单次提交关联
-
第四步,创建新的提交。点击右上角的
New submission
,按照提示,完成以下几个步骤提交者信息填写,完成之后点击
continue
通用信息填写,包括3个部分:是否已创建
BioProject
、是否已创建BioSample
以及数据释放日期,如果BioProject
和BioSample
事先都没有创建的话,NCBI会在之后自动创建,所以不必返回重新创建,完成之后点击continue
项目信息填写,包括项目标题、描述、资助来源,完成之后点击
continue
样品信息简单描述,包括物种名、物种分类等等,完成之后点击
continue
-
样品列表上传,此时我们只需要按照NCBI提供的文件模板填写完上传即可,其中绿色标注的字段是必填项,蓝色标注的字段是至少填一项,黄色标注的字段是可选项,完成之后点击
continue
,NCBI会自动对文件进行校验,没有错误则通过,否则需要修改后重新提交需要注意的是,除了样品名(sample name)、样品标题(sample title)、项目号(bioproject accession)以及项目描述(description)之外,其他字段信息的组合必须能够用于区分每个样品,解决方法就是多添加几个字段属性,并描述一些每个样品独有的特征,如分组、编号、来源、生物重复信息等等
SRA
元数据填写,即样品上传文件详细信息描述,完成之后点击continue
-
选择文件上传方法,一般会提供以下3种方法:
选择第2种方法,并点击下方的
Request preload folder
按钮,会出现以下选择选择
Aspera command line instruction
,会出现Aspera
的使用教程,主要包括三步:下载安装
Aspera
软件点击
key file
下载密钥文件aspera.openssh
使用
Aspera
软件中的ascp
命令上传单个文件夹内的所有文件
值得注意的是,在文件上传完后(至少10分钟后才能看到自己上传的文件),需要返回该页面,然后点击
Select preload folder
选择一个文件夹,最后点击continue
。此外,在该步骤的末尾处,NCBI也提供了自动提交的选项,大家可以按需选择 检查之后提交
第五步,等待邮箱,获取编号
未完待续
作者 :LXD
转载:生信数据上传指南之NCBI
来源:微信公众号
著作权归作者所有,任何形式的转载都请联系作者。