本文转自微信公众号: 一遇之见 的 大作 R中字符串处理:函数实现 。原文太长了,分三次学习、消化。
本文主要介绍如何通过R语言的基础函数和stringr
包中的函数实现字符串的常见处理。特别注意的的是R中的基础函数和stringr
包函数有两个很大的不同。
- 书写方式不同。大多数基础函数处理规则多作为第一参数,而被处理对象放在第二位置;
stringr
包中的函数被处理对象为第一参数,而处理规则作为第二参数。
grep(pattern, x, ...)
str_detect(string, pattern, ...)
- 执行的原理不一致。有很多基础函数的处理规则往往是针对单元素的,即使强制用多元素能成功执行,但结果也往往只执行第一个元素;而
stringr
包中的函数通常可对多元素执行操作,执行操作时将短的字符串重复,长度一致后在相同位置执行。
字符串的常见的计算包括:字符串长度计算,大小写转化,排序,空格去除,复制,拼接,分割,提取,替换,匹配查询(这里只介绍函数的实现效果,而不介绍正则表达式原则)。
字符串长度计算
- 字符向量长度计算函数:
length
其返回字符向量的长度,而非字符串中字符的长度。
name = c("Li Bai","Du Fu", "Shakespeare")
length(name)
##[1] 3
- 字符串长度计算函数:
nchar
,str_length
和str_count
均可计算字符串的长度。由于R通常是向量化操作,所以nchar
,str_length
和str_count
对于字符向量可以返回字符向量中每个元素的长度。
library(stringr)
nchar(name)
## [1] 2 2 11
str_length(name)
## [1] 2 2 11
str_count(name)
## [1] 2 2 11
尽管函数str_count可以现实字符向量中字符串长度的计算,但是更多的时候用来计算特定字符串出现的次数,其计算的原理前面已经提到过:串短的字符串重复,长度一致后在相同位置特定字符串个数的统计。
fruit <- c("apple", "banana", "pear", "pineapple")
str_count(fruit) # 字符向量中字符长度计算
## [1] 5 6 4 9
str_count(fruit, "a") # "a"重复四次,与fruit在相同位置,查询"a"出现的次数
## [1] 1 3 1 1
str_count(fruit, "p")
## [1] 2 0 1 3
str_count(fruit, "e")
## [1] 1 0 1 2
str_count(fruit, c("a", "b", "p", "p")) # 按位置一一对应查询
## [1] 1 1 1 3
## ----------------------------------------------------------------
str_count(c("a.", "...", ".a.a"), "\\.") # 字符"."次数查询
## [1] 1 3 2
str_count(c("a.", "...", ".a.a"), fixed(".")) # 字符"."次数查询
## [1] 1 3 2
字符大小写转化
- 函数
tolower
,将向量中的元素转化为小写字母 - 函数
toupper
,将向量中的元素转化为大写字母 - 函数
casefold
,将向量中的元素转化为小或大写字母(upper = F,转化为小写;upper = T,转化为大写) - 函数
chartr
,按指定的规则进行转换
x <- c("Hellow", "World", "!")
tolower(x)
## [1] "hellow" "world" "!"
toupper(x)
## [1] "HELLOW" "WORLD" "!"
casefold(x) # 默认upper = F
## [1] "hellow" "world" "!"
casefold(x, upper = T)
## [1] "HELLOW" "WORLD" "!"
chartr('ol', 'pm', x) # o转化为p,l转化为m
## [1] "Hemmpw" "Wprmd" "!"
DNA <- "AtGCtttACC" # DNA为长度为1的字符向量
tolower(DNA)
## [1] "atgctttacc"
toupper(DNA)
## [1] "ATGCTTTACC"
chartr("Tt", "Uu", DNA) # T转化为U,t转化为u
## [1] "AuGCuuuACC"
chartr("Tt", "UU", DNA)
## [1] "AUGCUUUACC"
字符串排序函数:sort
, str_sort
和order
,str_order
-
order
和str_order
按一定条件有序返回字符串在向量中位置的索引值; -
sort
和str_sort
直接按一定条件有序返回字符串。
这里,R的基础函数order,sort与函数str_sort,str_order默认的排序规则是略有差异的。
name = c("li bai", "du fu","Shakespeare")
order(name)
## [1] 2 1 3
str_order(name) # 俩函数的区别在哪里?
## [1] 2 1 3
sort(name)
## [1] "du fu" "li bai" "Shakespeare"
str_sort(name) #?
## [1] "du fu" "li bai" "Shakespeare"
此外,还需要强调一下str_order
和str_sort
函数可以对字符串中的数字按数字顺序处理。
x = c("R1", "R3", "R11", "R4")
str_order(x) # 返回位置索引值,且以首个数字排序
## [1] 1 3 2 4
str_order(x, numeric = T) # 按真正的“数值”排序
## [1] 1 2 4 3
str_sort(x)
## [1] "R1" "R11" "R3" "R4"
str_sort(x, numeric = T)
## [1] "R1" "R3" "R4" "R11"
字符串中空格去除函数:str_trim
函数str_trim
可以去除字符串中的空格,通过参数side
设置去除字符串开头、结尾、结尾和开头中的空格,但不能去除字符串中间的空格。
fruit = c(" apple", "pear ", "ban ana")
str_trim(fruit)
## [1] "apple" "pear" "ban ana"
str_trim(fruit, side = "left")
## [1] "apple" "pear " "ban ana"
str_trim(fruit, side = "right")
## [1] " apple" "pear" "ban ana"
字符串复制函数:rep
和str_dup
函数rep
和str_dup
均可对字符串进行复制。函数rep
会使向量中元素个数重复,向量长度会增加;函数str_dup
使向量中每个元素值重复,向量的长度不增加。
rep(c("mn", "xy", "abc", "ef"), 1:4) #1:4对应前面每个元素
## [1] "mn" "xy" "xy" "abc" "abc" "abc" "ef" "ef" "ef" "ef"
str_dup(c("mn", "xy", "abc", "ef"), 1:4)
## [1] "mn" "xyxy" "abcabcabc" "efefefef"
字符串拼接函数:paste
和str_c
R中基础函数paste
和str_c
都可以实现字符串的拼接,函数paste
拼接时默认使用空格,函数str_c
拼接时默认没有空格。参数sep
可以设置拼接使用的拼接符。
paste("A", 1:4)
## [1] "A 1" "A 2" "A 3" "A 4"
str_c("A", 1:4)
## [1] "A1" "A2" "A3" "A4"
paste("A", 1:4, sep = "-")
## [1] "A-1" "A-2" "A-3" "A-4"
paste("A", 1:4, sep = "-", collapse = "+")
## [1] "A-1+A-2+A-3+A-4"
paste(c("A","B", NA, "C"), 1:4) # NA 参与拼接
## [1] "A 1" "B 2" "NA 3" "C 4"
str_c(c("A","B", NA, "C"), 1:4) # NA 不参与拼接
## [1] "A1" "B2" NA "C4"
paste
函数还有一个用法,设置collapse
参数,连成一个字符串。
x = c("R1", "R3", "R11", "R4")
y = c("Zhang", "Lee", "Wang", "Zhao")
paste(x, y, sep = "-", collapse = "; ")
## [1] "R1-Zhang; R3-Lee; R11-Wang; R4-Zhao"
paste(x, collapse = "; ")
## [1] "R1; R3; R11; R4"