生信数据上传指南之NCBI

一般来说,在一个生信有关的项目快接近尾声的时候,我们需要及时地将项目中所涉及到的分析数据进行上传,以得到一个可公开的、可查询的、用于发表的项目编号,这一般对于大多数期刊来说都是需要的。

目前,可供研究人员上传数据的网站也有不少,如大家常见的NCBI就是其中之一,而国内出名的如国家基因组科学数据中心在近些年也得到了广泛的关注和使用。值得注意的是,针对不同类型的分析数据类型(原始测序数据、基因组组装数据、变异数据、代码等等),大家可以选择的网站是不同的,本系列将和大家主要介绍一下当前几个可以进行数据上传/分享的网站或数据库以及如何上传数据的具体方法。

首先要介绍的是来自美国的NCBI,全名为National Center for Biotechnology Information,是生物医学领域最常见的数据库之一

网站框架

整个网站可分为6个模块:

  • 数据提交(Submit),选择提交自己的数据到该网站下的两个主要数据库:GenBankSRA。其中的GenBank是国际核苷酸序列数据库合作组织的一部分,该组织由日本的DNA DataBank of Japan (DDBJ)、欧洲的European Nucleotide Archive(ENA)和NCBI的GenBank组成。这三大数据库之间每天都会相互交换数据。

  • 数据下载(Download),提供了FTP、Aspera以及SRA Toolkit等工具帮助下载数据到本地

  • 帮助文档(Learn),提供了各种文档说明和使用教程

  • 应用开发(Develop),帮助开发人员接入网站提供的API进行二次开发

  • 功能分析(Analyze),常见的诸如序列比对工具BLAST、引物设计工具Primer-Blast等

  • 研究探索(Research),对NCBI计算生物学分支(NCBI Computational Biology Branch, CBB)相关的研究介绍

网站资源

所提供的数据资源如下:

  • 化学和生物试验

  • 数据下载和软件

  • DNA/RNA

  • 保守结构域和3D结构

  • 基因表达

  • 遗传学和医学

  • 基因组

  • 同源蛋白

  • 文献

  • 蛋白质

  • 序列分析

  • 物种分类

  • 教程

  • 遗传变异

数据上传

数据上传方法:

  • 第二步,选择提交的数据库。往下滑动的过程中,选择一个合适的数据库进行数据提交,这里以SRA为例,点击Submit即可
  • 第三步,登录。在点击Submit之后,会继续导航到新的页面,并可能看到如下提示,这是在提示你需要先登录NCBI然后再进行数据提交,目前NCBI支持微软账号直接登入。

在完成登录后,我们可以看到如下页面,里面有几条关于数据提交要求的描述,如压缩文件需要使用gzipbzip2格式,而不能使用zip格式;文件名要是唯一的,且不能包含敏感词汇;每个需要提交的文件都必须填写在表里;大于10GB或300个文件的时候,选择使用preload选项;所有需要提交的文件都需要在单个文件夹里,并只能和单次提交关联

  • 第四步,创建新的提交。点击右上角的New submission,按照提示,完成以下几个步骤

    1. 提交者信息填写,完成之后点击continue

    2. 通用信息填写,包括3个部分:是否已创建BioProject、是否已创建BioSample以及数据释放日期,如果BioProjectBioSample事先都没有创建的话,NCBI会在之后自动创建,所以不必返回重新创建,完成之后点击continue

    3. 项目信息填写,包括项目标题、描述、资助来源,完成之后点击continue

    4. 样品信息简单描述,包括物种名、物种分类等等,完成之后点击continue

    5. 样品列表上传,此时我们只需要按照NCBI提供的文件模板填写完上传即可,其中绿色标注的字段是必填项,蓝色标注的字段是至少填一项,黄色标注的字段是可选项,完成之后点击continue,NCBI会自动对文件进行校验,没有错误则通过,否则需要修改后重新提交

      需要注意的是,除了样品名(sample name)、样品标题(sample title)、项目号(bioproject accession)以及项目描述(description)之外,其他字段信息的组合必须能够用于区分每个样品,解决方法就是多添加几个字段属性,并描述一些每个样品独有的特征,如分组、编号、来源、生物重复信息等等


    6. SRA元数据填写,即样品上传文件详细信息描述,完成之后点击continue

    7. 选择文件上传方法,一般会提供以下3种方法:

      选择第2种方法,并点击下方的Request preload folder按钮,会出现以下选择

      选择Aspera command line instruction,会出现Aspera的使用教程,主要包括三步:

      1. 下载安装Aspera软件

      2. 点击key file下载密钥文件aspera.openssh

      3. 使用Aspera软件中的ascp命令上传单个文件夹内的所有文件

      值得注意的是,在文件上传完后(至少10分钟后才能看到自己上传的文件),需要返回该页面,然后点击Select preload folder选择一个文件夹,最后点击continue。此外,在该步骤的末尾处,NCBI也提供了自动提交的选项,大家可以按需选择

    8. 检查之后提交

  • 第五步,等待邮箱,获取编号

未完待续

作者 :LXD
转载:生信数据上传指南之NCBI
来源:微信公众号
著作权归作者所有,任何形式的转载都请联系作者。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,681评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,710评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,623评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,202评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,232评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,368评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,795评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,461评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,647评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,476评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,525评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,226评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,785评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,857评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,090评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,647评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,215评论 2 341

推荐阅读更多精彩内容