awk 命令使用记录 例1, 修改fasta序列ID 若后续只需要用到序列,不需要ID的信息,就可以把ID信息完全修改掉 例2:简化fasta序列名字 ID 修改前后对比 ...
在对拼装或者数据库下载的序列文件进行下一步分析时,我们通常会对序列进行去冗余操作,其中经常需要提取同一个‘gene’的最长转录本,所以动手用python写一个脚本。 一、基本...
组装策略 适用于设计多样本多物种的组装。例如100个样本,10个物种。这里如果想直接完成10个de nove组装,需要将所有样本数据放到一起后,通过样本信息表声明每个样本的物...
对于蛋白的fa文件,由于是每个转录本对应一个蛋白序列。由于后期注释需要以基因为单位,因此需要对fa文件进行处理,计算每一个转录本的蛋白序列长度,然后提取最长的蛋白序列,该序列...
前言:在对miRNA进行靶标预测分析时,需要特定物种的转录本作为靶向的数据库。通常对miRNA预测以3'UTR区域为主,这就需要对转录本数据库进行UTR区域的提取。我在之前写...
TBtools 是一个集合了超多生信处理的小工具,非常方便,而且是无命令行的操作,入门门槛极低。开发者是华南农业大学陈程杰博士,TBtools文章地址:https://www...
一、BLAST+(NCBI发布于2009年) 下载地址:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATES...
bedtools批量提取基因组指定位置序列 之前已经介绍过很多提取序列的方法,有脚本的也有软件的,这里再介绍一种方法。 用到软件是bedtools,具体方法如下: Optio...
如何从海量高通量测序数据中筛选出目标数据?这是困扰大多数老师的一个难题! 小编以一个excel的简单函数为例,演示一下如何从表格中快速筛选感兴趣的基因等信息。 函数的名称是V...