R语言中字符串的处理(1/3)-长度计算,大小写转化,排序,空格去除,复制,拼接

本文转自微信公众号: 一遇之见 的 大作 R中字符串处理:函数实现 。原文太长了,分三次学习、消化。

本文主要介绍如何通过R语言的基础函数和stringr包中的函数实现字符串的常见处理。特别注意的的是R中的基础函数和stringr包函数有两个很大的不同。

  • 书写方式不同。大多数基础函数处理规则多作为第一参数,而被处理对象放在第二位置;stringr包中的函数被处理对象为第一参数,而处理规则作为第二参数。

grep(pattern, x, ...)
str_detect(string, pattern, ...)

  • 执行的原理不一致。有很多基础函数的处理规则往往是针对单元素的,即使强制用多元素能成功执行,但结果也往往只执行第一个元素;而stringr包中的函数通常可对多元素执行操作,执行操作时将短的字符串重复,长度一致后在相同位置执行。

字符串的常见的计算包括:字符串长度计算,大小写转化,排序,空格去除,复制,拼接,分割,提取,替换,匹配查询(这里只介绍函数的实现效果,而不介绍正则表达式原则)。

字符串长度计算
  • 字符向量长度计算函数:length
    其返回字符向量的长度,而非字符串中字符的长度。
name = c("Li Bai","Du Fu", "Shakespeare")
length(name)
##[1] 3
  • 字符串长度计算函数:
    ncharstr_lengthstr_count均可计算字符串的长度。由于R通常是向量化操作,所以ncharstr_lengthstr_count对于字符向量可以返回字符向量中每个元素的长度。
library(stringr)
nchar(name)
## [1]  2  2 11
str_length(name)
## [1]  2  2 11
str_count(name)
## [1]  2  2 11

尽管函数str_count可以现实字符向量中字符串长度的计算,但是更多的时候用来计算特定字符串出现的次数,其计算的原理前面已经提到过:串短的字符串重复,长度一致后在相同位置特定字符串个数的统计。

fruit <- c("apple", "banana", "pear", "pineapple")
str_count(fruit) # 字符向量中字符长度计算
## [1] 5 6 4 9
str_count(fruit, "a") # "a"重复四次,与fruit在相同位置,查询"a"出现的次数
## [1] 1 3 1 1
str_count(fruit, "p")
## [1] 2 0 1 3
str_count(fruit, "e")
## [1] 1 0 1 2
str_count(fruit, c("a", "b", "p", "p"))  # 按位置一一对应查询
## [1] 1 1 1 3

## ----------------------------------------------------------------
str_count(c("a.", "...", ".a.a"), "\\.")   # 字符"."次数查询
## [1] 1 3 2
str_count(c("a.", "...", ".a.a"), fixed("."))  # 字符"."次数查询
## [1] 1 3 2
字符大小写转化
  • 函数tolower,将向量中的元素转化为小写字母
  • 函数toupper,将向量中的元素转化为大写字母
  • 函数casefold,将向量中的元素转化为小或大写字母(upper = F,转化为小写;upper = T,转化为大写)
  • 函数chartr,按指定的规则进行转换
x <- c("Hellow", "World", "!")
tolower(x)
## [1] "hellow" "world"  "!"
toupper(x)
## [1] "HELLOW" "WORLD"  "!"
casefold(x) # 默认upper = F
## [1] "hellow" "world"  "!"
casefold(x, upper = T)
## [1] "HELLOW" "WORLD"  "!"
chartr('ol', 'pm', x)  # o转化为p,l转化为m
## [1] "Hemmpw" "Wprmd"  "!"

DNA <- "AtGCtttACC"  # DNA为长度为1的字符向量
tolower(DNA)
## [1] "atgctttacc"
toupper(DNA)
## [1] "ATGCTTTACC"
chartr("Tt", "Uu", DNA)  # T转化为U,t转化为u
## [1] "AuGCuuuACC"
chartr("Tt", "UU", DNA)
## [1] "AUGCUUUACC"
字符串排序函数:sort, str_sortorder,str_order
  • orderstr_order按一定条件有序返回字符串在向量中位置的索引值;
  • sortstr_sort直接按一定条件有序返回字符串。
    这里,R的基础函数order,sort与函数str_sort,str_order默认的排序规则是略有差异的。
name = c("li bai", "du fu","Shakespeare")

order(name)
## [1] 2 1 3
str_order(name) # 俩函数的区别在哪里?
## [1] 2 1 3

sort(name)
## [1] "du fu"       "li bai"      "Shakespeare"
str_sort(name)  #?
## [1] "du fu"       "li bai"      "Shakespeare"

此外,还需要强调一下str_orderstr_sort函数可以对字符串中的数字按数字顺序处理。

x = c("R1", "R3", "R11", "R4")

str_order(x)  # 返回位置索引值,且以首个数字排序
## [1] 1 3 2 4
str_order(x, numeric = T) # 按真正的“数值”排序
## [1] 1 2 4 3

str_sort(x) 
## [1] "R1"  "R11" "R3"  "R4"
str_sort(x, numeric = T)
## [1] "R1"  "R3"  "R4"  "R11"
字符串中空格去除函数:str_trim

函数str_trim可以去除字符串中的空格,通过参数side设置去除字符串开头、结尾、结尾和开头中的空格,但不能去除字符串中间的空格。

fruit = c(" apple", "pear ", "ban ana")

str_trim(fruit)
## [1] "apple"   "pear"    "ban ana"
str_trim(fruit, side = "left")
## [1] "apple"   "pear "   "ban ana"
str_trim(fruit, side = "right")
## [1] " apple"  "pear"    "ban ana"
字符串复制函数:repstr_dup

函数repstr_dup均可对字符串进行复制。函数rep会使向量中元素个数重复,向量长度会增加;函数str_dup使向量中每个元素值重复,向量的长度不增加。

rep(c("mn", "xy", "abc", "ef"), 1:4)  #1:4对应前面每个元素
##  [1] "mn"  "xy"  "xy"  "abc" "abc" "abc" "ef"  "ef"  "ef"  "ef"
str_dup(c("mn", "xy", "abc", "ef"), 1:4)
## [1] "mn"        "xyxy"      "abcabcabc" "efefefef"
字符串拼接函数:pastestr_c

R中基础函数pastestr_c都可以实现字符串的拼接,函数paste拼接时默认使用空格,函数str_c拼接时默认没有空格。参数sep可以设置拼接使用的拼接符。

paste("A", 1:4)
## [1] "A 1" "A 2" "A 3" "A 4"
str_c("A", 1:4)
## [1] "A1" "A2" "A3" "A4"

paste("A", 1:4, sep = "-")
## [1] "A-1" "A-2" "A-3" "A-4"
paste("A", 1:4, sep = "-", collapse = "+")
## [1] "A-1+A-2+A-3+A-4"

paste(c("A","B", NA, "C"), 1:4)    # NA 参与拼接
## [1] "A 1"  "B 2"  "NA 3" "C 4"
str_c(c("A","B", NA, "C"), 1:4)   # NA 不参与拼接
## [1] "A1" "B2" NA   "C4"

paste函数还有一个用法,设置collapse参数,连成一个字符串。

x = c("R1", "R3", "R11", "R4")
y = c("Zhang", "Lee", "Wang", "Zhao")

paste(x, y, sep = "-", collapse = "; ")
## [1] "R1-Zhang; R3-Lee; R11-Wang; R4-Zhao"
paste(x, collapse = "; ")
## [1] "R1; R3; R11; R4"
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容