R拥有一般现代编程语言中都有的标准控制结构。在学习控制流之前,应该理解以下概念:
语句(statement)是一条单独的R语句或一组复合语句(包含在花括号{ } 中的一组R语句,使用分号分隔);
条件(cond)是一条最终被解析为真(TRUE)或假(FALSE)的表达式;
表达式(expr)是一条数值或字符串的求值语句;
序列(seq)是一个数值或字符串序列。
1. 重复与循环
1.1 for结构
for循环重复地执行一个语句,直到某个变量的值不再包含在序列seq中为止。
for (var in seq) statement
若要将“Hello”打印10次:
> for (i in 1:10)
+ print("Hello!")
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
1.2 while结构
while循环重复地执行一个语句,直到条件不为真为止。
while (cond) statement
同样,我们再来重复输出10次“Hello!”
> i <- 10
> while (i > 0) {
+ print("Hello!");
+ i <- i - 1}
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
[1] "Hello!"
需要注意的是,在处理大数据集中的行和列时,R中的循环可能比较低效费时。只要可能,最好联用R中的内建数值/字符处理函数和apply
族函数。这与其他的大量使用循环的语言是有区别的。
2. 条件执行
在条件执行结构中, 一条或一组语句仅在满足一个指定条件时执行。 条件执行结构包括 if-else
、ifelse
和switch
。
2.1 if-else
结构
控制结构if-else在某个给定条件为真时执行语句。也可以同时在条件为假时执行另外的语句:
if (cond) statement
if (cond) statement1 else statement2
> a=5
> b=6
> if (a < b) {a <- -1
+ } else if (a == b) {a <- 0
+ } else {a <- 1}
> print(a)
[1] -1
2.2 ifelse
结构
ifelse
结构是if-else
结构比较紧凑的向量化版本,其语法为:
ifelse(cond,statement1,statement2)
若cond
为TRUE
,则执行第一个语句;若cond
为FALSE
,则执行第二个语句。
> x <- factor(sample(letters[1:5], 10, replace = TRUE))
> x
[1] a a c d a b d b d d
> ifelse(x %in% c("a", "b", "c"), x, factor(NA))
[1] 1 1 3 NA 1 2 NA 2 NA NA
2.3 switch
结构
switch(expr,...)
switch
根据一个表达式的值选择语句执行。其中的...表示与expr
的各种可能输出值绑定的语句。
> feelings <- c("sad","afraid")
> for (i in feelings)
+ print(switch(i,
+ happy = "I am happy today",
+ afraid = "There is nothing to fear",
+ sad = "cheer up",
+ angry = "calm down now"))
[1] "cheer up"
[1] "There is nothing to fear"
#当表达式(exp)匹配后续的参数名(即变量名)时,返回参数的值
> t = "r"
> switch(t,r='re',g='gr',b='bl',"error")
[1] "re"
#如果不匹配任何参数名,switch函数不返回任何值,可以添加一个匿名的参数,
#当表达式(exp)匹配不上任意一个命名参数时,switch函数将返回匿名参数的值:
> t = "xs"
> switch(t,r='re',g='gr',b='bl',"error")
[1] "error"
3. 用户自编函数
R的最大优点之一就是用户可以自行添加函数。
myfunc <- function(arg1,arg2,....)
{
statements
return(object)
}
#example1
> avg <- function(a,b){
+ c <- mean(c(a,b));
+ return(c)
+ }
> avg(3,4)
[1] 3.5
#example2
#练习一个每次学循环都要做的矩阵的乘法
matrixf <- function(a,b){
row1 <- dim(a)[1]
col1 <- dim(a)[2]
row2 <- dim(b)[1]
col2 <- dim(b)[2]
if (col1 == row2) {
result <- matrix(0,nrow = row1,ncol = col2)
for (i in 1:row1)
for (j in 1:col2)
result[i,j] <- sum(a[i,]*b[,j])
return(result)
}
else {
print("error")
return(0)
}
}
> a <- matrix(10,2)
> a
[,1]
[1,] 10
[2,] 10
> a <- (c(1:4,2))
> a
[1] 1 2 3 4 2
> a <- matrix(1:4,2)
> a
[,1] [,2]
[1,] 1 3
[2,] 2 4
> b <- matrix(1:4,2)
> b
[,1] [,2]
[1,] 1 3
[2,] 2 4
> matrixf(a,b)
[,1] [,2]
[1,] 7 15
[2,] 10 22
4. 整合与重构
R中提供了许多用来整合(aggregate)和重塑(reshape)数据的强大方法。
4.1 转置
转置即反转列和行,适用于矩阵和数据框,使用函数t()
即可完成。
> head_cars <- head(mtcars,6)
> head_cars
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21 6 160 110 3.9 2.6 16 0 1 4 4
Mazda RX4 Wag 21 6 160 110 3.9 2.9 17 0 1 4 4
Datsun 710 23 4 108 93 3.9 2.3 19 1 1 4 1
Hornet 4 Drive 21 6 258 110 3.1 3.2 19 1 0 3 1
Hornet Sportabout 19 8 360 175 3.1 3.4 17 0 0 3 2
Valiant 18 6 225 105 2.8 3.5 20 1 0 3 1
> t(head_cars)
Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive Hornet Sportabout Valiant
mpg 21.0 21.0 22.8 21.4 18.7 18.1
cyl 6.0 6.0 4.0 6.0 8.0 6.0
disp 160.0 160.0 108.0 258.0 360.0 225.0
hp 110.0 110.0 93.0 110.0 175.0 105.0
drat 3.9 3.9 3.9 3.1 3.1 2.8
wt 2.6 2.9 2.3 3.2 3.4 3.5
qsec 16.5 17.0 18.6 19.4 17.0 20.2
vs 0.0 0.0 1.0 1.0 0.0 1.0
am 1.0 1.0 1.0 0.0 0.0 0.0
gear 4.0 4.0 4.0 3.0 3.0 3.0
carb 4.0 4.0 1.0 1.0 2.0 1.0
4.2 整合数据
在R中使用一个或多个by变量和一个预先定义好的函数来折叠(collapse)数据是比较容易的:
aggregate(x,by,FUN)
x是待折叠的数据对象
by是一个变量名组成的列表,这些变量将被去掉以形成新的观测
FUN则是用来计算描述性统计量的标量函数,它将被用来计算新观测中的值。
> detach(mtcars)
> options(digits = 3)
> attach(mtcars)
> aggdate <- aggregate(mtcars,by = list(cyl,gear),FUN=mean,na.rm = TRUE)
> print(aggdate)
Group.1 Group.2 mpg cyl disp hp drat wt qsec vs am gear carb
1 4 3 21.5 4 120 97 3.70 2.46 20.0 1.0 0.00 3 1.00
2 6 3 19.8 6 242 108 2.92 3.34 19.8 1.0 0.00 3 1.00
3 8 3 15.1 8 358 194 3.12 4.10 17.1 0.0 0.00 3 3.08
4 4 4 26.9 4 103 76 4.11 2.38 19.6 1.0 0.75 4 1.50
5 6 4 19.8 6 164 116 3.91 3.09 17.7 0.5 0.50 4 4.00
6 4 5 28.2 4 108 102 4.10 1.83 16.8 0.5 1.00 5 2.00
7 6 5 19.7 6 145 175 3.62 2.77 15.5 0.0 1.00 5 6.00
8 8 5 15.4 8 326 300 3.88 3.37 14.6 0.0 1.00 5 6.00
> detach(mtcars)
简单解释一下数据,Group1
即cyl
,Group2
即gear
,则第一行的数据表示cyl为4、gear为3的所有车的其它变量disp
,hp
等的平均值。
这是非常可怕的功能,可以自由的折叠,提取数据子集。
需要注意的一点是,在使用aggregate()
函数的时候,by
中的变量必须在一个列表中(即使只有一个变量)。
4.3 reshape2
reshape2包是一套重构和整合数据集的绝妙的万能工具。我们将在下节专题介绍。