exomePeak2于2021年1月3日发布,其主要用于MeRIP-Seq的call peak和差异peak分析,下面是自己的一些经验分享给大家。有不对的地方,请大家指正。
1、exomePeak2安装
建议大家从bioconductor下载安装文件,本地安装,由于网速问题,BiocManager::install("exomePeak2") 命令行安装有时安装不完全,会出现报错。Windows系统下安装容易出现下载不完整和权限受限,但是MAC下却可以完整下载
2、call peak使用
exomePeak2用户手册call peak示例命令如下:
libraray(exomePeak2)
GENE_ANNO_GTF = system.file("extdata", "example.gtf", package="exomePeak2")
f1 = system.file("extdata", "IP1.bam", package="exomePeak2")
f2 = system.file("extdata", "IP2.bam", package="exomePeak2")
f3 = system.file("extdata", "IP3.bam", package="exomePeak2")
f4 = system.file("extdata", "IP4.bam", package="exomePeak2")
IP_BAM = c(f1,f2,f3,f4)
f1 = system.file("extdata", "Input1.bam", package="exomePeak2")
f2 = system.file("extdata", "Input2.bam", package="exomePeak2")
f3 = system.file("extdata", "Input3.bam", package="exomePeak2")
INPUT_BAM = c(f1,f2,f3)
# Peak Calling
sep <- exomePeak2(bam_ip = IP_BAM,
bam_input = INPUT_BAM,
gff_dir = GENE_ANNO_GTF,
genome = "hg19",
paired_end = FALSE)
sep
system.file命令主要用于提取exomePeak2包中的自带数据,本地数据命令如下:
#首先要设置好工作路径,文件都要在工作路径下。
GENE_ANNO_GTF = "example.gtf" # 本地gtf文件,尽量使用UCSC下载的hg38或hg19
f1 = "IP1.bam"
f2 = "IP2.bam"
f3 = "IP3.bam"
f4 = "IP4.bam"
IP_BAM = c(f1,f2,f3,f4) #这一步需要有,IP_BAM是一个字符串向量
f1 = "Input1.bam" #与IP1.bam对应,以此类推
f2 = "Input2.bam"
f3 = "Input3.bam"
INPUT_BAM = c(f1,f2,f3)
# Peak Calling
sep <- exomePeak2(bam_ip = IP_BAM,
bam_input = INPUT_BAM,
gff_dir = GENE_ANNO_GTF,
genome = "hg19", #使用hg19还是hg38,取决于参考基因组序列
paired_end = FALSE)
sep
#IP1.bam IP2.bam IP3.bam和IP4.bam并不是代表4个不同样本的bam数据,是代表一个样本测序时4个lane的数据,在使用MAC2 callpeak时,需要将4个lane的数据合并为一个再进行call peak。exomePeak2可以不合并直接比对,当然也可以将比对后文件合并作为一个bam使用exomePeak2 call peak。自己的理解,不对的地方请大家指正。
# genome = "hg19", 这一行是注明使用hg19还是hg38.使用hg19需要下载BSgenome.Hsapiens.UCSC.hg19包,尽量手动下载,本地安装,这个包600多M,bioconductor直接安装,并不好用。使用hg38需要下载BSgenome.Hsapiens.UCSC.hg38,尽量下载后本地安装。
#exomePeak2包比对过程中,会出现如下报错(图1):
#可能是由于比对软件使用的参考基因组序列是GRch38作为index,但exomePeak2主要依据的是从UCSC下载的hg38.fa和hg38.gtf,虽然GRch38和hg38是同一版本,但是两者仍然有差别,所以call peak过程中需要seqlevels进行基因名的统一,也就是说在使用exomePeak2 进行call peak,比对软件使用的参考基因组序列与exomePeak2使用的基因注释文件尽量统一,否则会出现上述报错。不统一的问题,我也仍未解决。
3 结果
call peak结束后会直接创造一个文件夹,bed文件就在文件夹内。