感谢关注:oddxix
得到下机数据后,我们先要进行数据质控,看一下数据质量
质量检测
数据质量主要从两方面去分析:碱基含量分布和碱基质量分布
碱基含量分布
测序的GC含量应该与物种的GC含量相同
纵坐标是碱基分布比,横坐标是reads从第一位到最后一位,单端reads是90bp。
机器读不出来或者分辨不出来的就是N碱基。N碱基越少越好
碱基含量分布异常
注:样品为混合样品或者测序一次样品不能够饱和等原因造成的波动是可以忽视的
碱基质量分布
评价标准
错误率和质量值的对应关系
碱基质量分布图
纵坐标是质量,横坐标是reads
数据质控
在测序过程中会加入额外的序列:adapter接头、测序引物、barcode、index等
-
去除N碱基过多的reads
-
去duplication
理想的随机打断
RNAseq中的duplication不是打断不随机造成的,而是由于基因的表达差异。去除duplication会造成丰度信息的丢失,于是在RNAseq定量分析中不能去duplication.但在没有参考基因组的情况下需要对序列进行拼接,此时又需要去duplication。
不要求100%精确,原则是不影响后续分析,可以根据最终结果,重新过滤数据