R代码书写系列:
变量名:表示变量的名字;
波浪号(~):用来连接公式中的响应变量(波浪号左边)和自变量(波浪号右边);
加号(+):用来表示变量之间的线性关系;
0:当公式中加入0,意味着模型中没有截距;
如:y~u+w+v+0竖线(|):用来指定条件变量(常用在lattice绘图公式中);
变量保护函数(I( )):放在 I 内的表达式按照算术意义进行解释;
a+b 表示变量a和变量b都包含在公式中
I(a+b)表示 a+b 这个和应该包含在公式中星号(*):表示变量之间的交互效应;
如:y~(u+v)*w 等价于 y~u+v+w+I(u*w)+I(v*w)插入符(^):表示幂;
如:y~(u+w)^ 2 等价于 y~(u+w)*(u+w)变量的函数:意味着指定变量的函数应当作为自变量包含在公式中;
如:y~log(u)+sin(v)+w公式中可能包含的一些其他项目也具有特殊左右,例如,可传递给gam(广义可加模型)的公式中表示平滑样条的s( )函数等。
点号(.):
R中的 . 符号只是个普通字符,可以在符号名称中出现,下面几种情况中 . 具有特殊含义:
1) 一个 environment 中以 . 开头的变量默认被当作隐藏变量,用 ls.str() 不会被列出来,除非 ls.str(all.names = TRUE) .
2) 一些函数中 . 具有特殊的意义,比如线性模型函数 lm() 的 formula 参数中的 . 符号会被特殊解读,比如 lm(mpg ~ ., data = mtcars) 中 mpg ~ . 这个formula会被lm()解读成在mtcars数据表中以mpg为被解释变量,其他列为解释变量做线性回归模型,在变量很多的情况下可以简化代码,但风险是数据列变化时回归方程也跟着变,有些类似于SQL中使用 select * 的风险。
3) 不同的函数可能让 . 拥有不同的含义,比如dplyr::do()函数中的 . 就是指每个数据行,而magrittr::%>%右侧函数参数中出现的 . 是指符号左边的对象,pipeR::%>>%右侧表达式中的 . 是指符号左边的对象,rlist::list.map() 函数 expr 参数中的 . 被解读成 implicit lambda expression,表示需要映射的list中的每个元素本身。
4) 此外,符号被专门用来实现R中一个比较简单的面向对象系统S3的method dispatch,即可以用UseMethod()定义一个方法xyz,那么xyz.class这指xyz方法对于class类型的实现。这种S3[面向对象系统比较简单,也容易发生混淆,比如head.data.frame实际上是head对于data.frame类型的实现,但也可以定义head.data方法,然后定义一种frame类型,这样在代码中就会发生混淆。