被REPuter在线版折磨的不行,网速太慢。
一些基础知识
重复序列可占整个植物基因组的10-85%,是重要的遗传标记。重复序列一般可分为散在重复和串联重复。散在重复序列鉴定可以使用REPuter在线软件分析;串联重复序列鉴定可以使用TendemRepeatFinder (TRF)软件分析。串联重复里面有一种特殊的形式是简单串联重复也称之为简单重复序列(SSR)。cpSSR是叶绿体基因组重复序列分析的重点内容。简单重复序列鉴定可以使用在线MISA分析。MISA使用过,非常方便,REPuter正在使用,龟速前行,TRF还没开始用。
从头计算方法是不依赖参考的重复序列数据库,可发现新的重复序列,包括序列自身比对方法和短序列重复出现搜索法。REPuter使用的是后者。
REPuter使用
参数设置,找了好几篇文献,上传fasta格式的序列,Match Direction一般是4个都勾选:Forward,Reverse,Complement,Ralindromic(分别是正向重复、反向重复、互补重复和回文重复)。Edit distance空着,Hamming Distance:3,Maximum Computed Repeats:90,Minimal Repeat Size:30(表示最小重复单元的长度要大于30bp)。然后结果出来之后要对结果去除重叠重复和嵌入重复,没搞懂,继续学习。
参考文献:
[1]李晓宇,徐文魁,Pat heslop harrison,等. 植物基因组重复序列研究进展[J]. 扬州大学学报(农业与生命科学版), 2019, 40(5): 9-19.