R包开发的一些细节(1)

最近在忙着开发COVID19的分析Shiny和R包，参考了很多R包和网页开发的教程。这里先简单介绍一些我的踩坑经验：

正式发布R包后，我会介绍每个函数的参数设计和功能设计，以及详细的开发过程

为了方便测试，我们可以采用downsampled data，或者自己制作simulated data，比如bioconductor上就有可以制作simulated single cell data object来衡量分析软件的performance。
比如下面我选择部分病毒样本进行分析，节约时间：

seqkit sample --proportion 0.1 Gisaid_RMD.fasta > Gisaid_RMD_10.fasta
[INFO] sample by proportion
[INFO] 4521 sequences outputted

Check

可以直接check()，或者check_rub()，前者只是初步检查，后者要求更加严格，后者的check结果基本上就是上传到CRAN后自动审核的结果。所以如果你的包能通过check_rub()的检查，那么恭喜你，至少你的包已经满足了通过CRAN初筛的要求了。

R包开发出现比较多的问题是：no visible global function definition。一般是note的形式

这种情况，一般是在函数内部有的对象没有进行声明造成的(只需要在函数内部额外添加声明即可，因为R会以为这个对象莫名其妙的存在会导致和外部变量冲突)，或者有的函数没有进行import，如果没有import，在example运行的时候也会报error(只需要在roxygen2模板里插入@importfrom + 包名 + 函数即可)

文件不宜过大，特别是data，可以尝试save函数加上compress参数，R包要求build之后小于5MB
注意一点，CRAN的check有时不兼容bioconductor的包，尤其是比较老的包，比如Biostring。所以如果要用类似translate这样的函数，可以用seqinr包里的的代替，或者自己手写函数代替它。否则Check会报错：dependency error

 Note: significantly better compression could be obtained
           by using R CMD build --resave-data
                     old_size new_size compress
     covid_annot.rda    759Kb    480Kb       xz
     nucmer.rda         1.3Mb    397Kb       xz
     nucmerr.rda        1.6Mb    530Kb       xz
     refseq.rda          14Kb      8Kb    bzip2

如果报错和xlim，ylim有关，很可能你的数据有缺省值或者0(比如对0取log)，有时说明是抽样数据的问题。我当时用的数据是downsampled data，一方面减少存储，一方面运行更快，而且产出结果基本不受影响。

最好不要在check examples时点击stop，可能导致接下来的测试无法正常读取数据，需要全部退出R.studio

Bioconductor check

需要用devel版本进行测试，安装R4.0(我装的是4.0.2)。在bioconductor上正式发表包，开发者必须使用最新的R。
记住：每更新一次R版本都要重新安装Rtools! 否则关键软件会安装失败，比如devtools等需要编译的包。而且Rtools要安装在win-library目录下，记得添加环境变量。
如果你的包通过了CRAN的要求，想尝试bioconductor，注意以下几个方面，bioconductor会更注重一些细节问题
补充文档：https://r-pkgs.org/vignettes.html
http://cran.fhcrc.org/doc/manuals/R-exts.html#Writing-package-vignettes
vignettes非常重要！draft vignettes时，需要预先devtools::install()，否则会报错：找不到R包。因为vignettes和readme不一样，readme用Rmarkdown生成时只需要load()就可以，但是vignettes因为在正常R包开发中(CRAN)是非必需的，而且形式比较自由，所以非必需的目录下的R文件运行之前请保证运行过devtools::install()
vignettes的风格可以自定，这里我推荐：

output:
  BiocStyle::html_document:
    toc_float: true
    fig_caption: true
    number_sections: true
bibliography: [bibliography.bib, packages.bib]

这是bioconductor标准的文档风格，bib选项可以自定义引用。可以引用paper也可以引用R包，很方便。

参考包1：http://www.bioconductor.org/packages/release/workflows/html/methylationArrayAnalysis.html

参考包2：https://github.com/MSQ-123/esATAC

git clone https://github.com/MSQ-123/esATAC.git

指导文档：http://www.bioconductor.org/developers/package-guidelines/#intro
Unit Test: https://r-pkgs.org/tests.html
- 可以通过检测文件是否存在进行测试，比如这样：
  对于有outdir的函数，这是很合适的unit test。在check的时候系统会自动运行unit test。比较方便，这样可以避免你自己一个一个去手动检查

td<-tempdir()
  #setTmpDir(td)

  Total <- 11000
  data("nucmerr")
  data("assays")
  AssayMutRatio(nucmerr = nucmerr,
                assays = assays,
                totalsample = Total,
                plotType = "logtrans",
                outdir = td)
#file.exists()检查文件是否存在
  expect_true(file.exists(file.path(td,"Charite-E",".png")))
  expect_true(file.exists(file.path(td,"Charite-RdRP",".png")))
  expect_true(file.exists(file.path(td,"ChinaCDC-N",".png")))

添加数据的引用，完善数据说明也很重要。不管是data目录还是extdata目录，data都要有完整的说明文档
关于函数的output设置：无outdir则直接输出到屏幕，适合vignettes的制作。
关于DESCRIPTION文件：biocViews变成必选，至少有两个terms才可以。
关于inst文件夹：inst是R包里面形式最自由的，任何你想放的东西都可以放，比如extdata。bioconductor会注重extdata，尤其是workflow类型的包，因为往往涉及raw data的处理，比如fasta文件。这时bioconductor会要求你把raw data放到extdata目录下，而且配置一个详细的说明文档来说明raw data的来源。比如我们开发的包要用到nucmer.snps文件，那么这个data是怎么从downloaded fasta用shell脚本得到的，shell脚本也要放上，方便其他用户重复你的结果。
文档的format很重要：每一行的char不要太多
关于Github：bioconductor要求作者使用Github进行版本控制，并开放issue。感兴趣的还可以通过github.io做一个自己的博客介绍自己的包。