1.字符串
1.连接字符串 - paste()函数
- 语法说明
paste(var-1,var-2..., sep = " ", collapse = NULL)
- 参数解释
var-1,var-2..., 表示要组合的任意数量的自变量
sep, 表示参数之间的任何分隔符。它是可选的
collapse, 用于消除两个字符串之间的空格。 但不是一个字符串的两个字内的空间
2.格式化数字和字符串 - format()函数
- 语法说明
format(x, digits, nsmall, scientific, width, justify = c("left", "right", "centre", "none"))
- 参数解释
x是向量输入
digits是显示的总位数
nsmall是小数点右边的最小位数
scientific,设置为TRUE以显示科学记数法
width指示通过在开始处填充空白来显示的最小宽度
justify是字符串向左,右或中心的显示。
3.提取字符串的一部分 - substring()函数
- 语法说明
substring(x,first,last)
- 参数解释
x,是字符向量输入
first,是要提取的第一个字符的位置
last,是要提取的最后一个字符的位置
2.向量
1.单元素向量
R语言中所有变量都以向量的方式储存,所以单个输入即为单元素向量
2.多元素向量
- 实现方式一:使用冒号
v <- 5:13
print(v)
[1] 5 6 7 8 9 10 11 12 13
- 实现方式二:使用Seq()函数
print(seq(5, 9, by = 0.4))
[1] 5.0 5.4 5.8 6.2 6.6 7.0 7.4 7.8 8.2 8.6 9.0
- 实现方式三:使用C()函数
s <- c('apple','red',5,TRUE)
print(s)
[1] "apple" "red" "5" "TRUE"
3.访问向量元素
- 访问向量元素时,用[]建立索引,索引从"1"开始
代码示例:
t = c(1,2,3,4,5,6,7,8,9)
a = t[2]
b = t[c(1,3)]
代码输出
[1] 2
[2] 1,3
- 索引中负值对应元素会被丢弃
#代码示例
c = t[-1,-5]
#代码输出
[1] 2,3,4,6,7,8,9
- 使用TRUE,FALSE,0,1亦可建立索引
d = t[0,0,0,0,0,0,0,1]
[1] 9
4.向量操作
- 向量运算:两向量可以进行加减乘除运算,直接使用运算符号即可(长度不一样的两个向量运算时,较短的向量会被重复以达到相同长度)
t = c(1,2,3,4,5,6)
q = c(1, 2)
#运算时 q = (1,2,1,2,1,2)
- 向量元素排序:排序函数 sort()
sort(x, decreasing = FALSE)
3.列表
1.创建列表
创建列表使用 list()函数,列表可以包含字符串,数字,向量,布尔值等
list_data = list('red','green',1,2)
#输出结果
[[1]]
[1] "red"
[[2]]
[1] "green"
[[3]]
[1] 1
[[4]]
[1] 2
2.命名列表元素
R语言中的列表可以重命名以便访问,使用 names()函数,同时命名多个列表元素时,可以用 向量 传入参数
names(list_data) <- c("1st Quarter", "A_Matrix", "A Inner list")
3.访问列表元素
访问列表元素可以使用索引,对于已命名元素,也可以使用名称访问元素
#使用索引访问
list_data[1]
#使用名称访问
list_data$NAME
4.操作列表元素
- 删除元素:列表元素删除操作,即将该元素标记为 NULL
ld[5] = NULL
- 更新元素:更新元素可以直接使用索引替换
ld[2] = 1
5.合并列表
合并列表可以使用 c()函数 合并列表
list.merged = c(list_1,list_2)
#输出结果【list_1 = c(1,2,3,4) list_2 = c(4,5,6,7)】
[1] 1 2 3 4 4 5 6 7
6.将列表转换为向量
使用 unlist()函数 可以将列表转换为向量
4.矩阵
1.创建矩阵
创建矩阵使用 matrix()函数 ,函数参数为:
matrix(data, nrow, ncol, byrow, dimnames)
函数的参数说明:
- data 是成为矩阵的数据元素的输入向量。
- nrow 是要创建的行数。
- ncol 是要创建的列数。
- byrow 是一个逻辑线索。 如果为TRUE,则输入向量元素按行排列。
- dimname 是分配给行和列的名称,行列的名称用向量传入,c(rowname_list,colname_list)
2.访问矩阵元素
访问矩阵元素,可以使用矩阵索引
- 访问具体元素:M[row_n,col_n]
- 访问某行元素:M[row_n,]
- 访问某列元素:M[,col_n]
3.矩阵计算
矩阵计算使用运算符合和函数,要求矩阵行列相等
5.数组
数组常用于储存多维数据,数组仅接受数值输入
1.创建数组
创建数组使用 array()函数
array(data = NA, dim = length(data), dimnames = NULL)
- data,表示输入数据,一般使用多维向量输入,如 c(vector_1,vector_2)
- dim,表示数组的维度,输入为向量,如 c(row_n,col_n,dim_n)
- dimnames,表示数组的维度名称,输入同样为向量
2.访问数组元素
访问数组元素主要使用索引
- 访问具体元素:A[row_n,col_n,dim_n]
- 访问某行元素:A[row_n,,dim_n]
- 访问某列元素:A[,col_n,dim_n]
- 访问某维元素:A[,,dim_n]
3.跨数组元素的计算
apply()函数可用于操作跨数组元素进行计算,其语法为:
apply(x, data, function)
- x,表示操作的矩阵
- data,表示用于操作的矩阵的维度,"1"表示对行进行操作;"2"表示对列进行操作
- function,表示用于操作的函数
示例
a<-matrix(1:12,nrow=3)
apply(a,2,mean)
#输出结果
[1] 2 5 8 11
6.因子
因子是R语言中比较特别的数据类型,主要用于储存"类别"数据.R把表示分类的数据称为因子
- 因子是一个向量,通常情况下,每个元素都是字符类型,也有其他类型数据
- 因子具有因子水平,用于限制因子的取值范围
1.创建因子
通常情况下,R隐式把数据类型为字符的列创建为因子,因为R会把文本类型自动识别为类别数据,并自动转化为因子,但同时也可以通过 factor()函数 显式创建,语法如下:
factor(x = character(), levels, labels = levels,
exclude = NA, ordered = is.ordered(x), nmax = NA)
- x,表示用于创建因子的字符
- levels,是水平的标签,字符类型,用于对水平添加标签,相当于对因子水平重命名
- ordered,逻辑值,用于指定水平是否有序
- nmax,水平的上限数量
2.因子水平
- 查看因子水平:使用 levels(factor) 查看
- 因子水平的标签:使用 factor()函数 创建因子时,可以通过 lables 参数为 因子水平 添加标签
sex=factor(c('f','m','f','f','m'),levels=c('f','m'),labels=c('female','male'),ordered=TRUE)
7.数据帧
数据帧是表或二维矩阵列状结构,每一列包含一个变量的值,并且每一行包含来自每一列的一组值
- 列名称应为非空
- 行名称应该是唯一的
- 存储在数据帧中的数据可以是数字,因子或字符类型
- 每个列应包含相同数量的数据项
1.创建数据帧
创建数据帧需要使用 data.frame()函数 ,其语法如下
data.frame(data, row.names = NULL, check.rows = FALSE,
check.names = TRUE, fix.empty.names = TRUE,
stringsAsFactors = default.stringsAsFactors())
参数解释为:
- data,表示输入数据
- row.names,NULL或单个整数或字符串,指定某列用作行名,或者一个字符或整型向量用作数据帧的行名
- check.rows:,如果是TRUE,那么就检查行长度和名称是否一致性
2.从数据帧中提取数据
- 使用列名称提取数据,使用示例:
data_cut <- data.frame(emp.data$name_1,emp.data$name_2)
- 使用切片方式提取数据,使用示例:
#提取行数据
data_cut <- emp.data[1:2,]
#提取列数据
data_cut <- emp.data[,2:3]
3.扩展数据帧
- 添加列:直接使用 列名称 即可添加数据,示例如下:
emp.data$new_col = c('向量')
- 添加行:一般需要使用 rbind()函数
创建同样的dataframe并使用该函数合并两者