R语言中字符串的处理(1/3)-长度计算，大小写转化，排序，空格去除，复制，拼接

本文转自微信公众号: 一遇之见的大作 R中字符串处理：函数实现。原文太长了，分三次学习、消化。

本文主要介绍如何通过R语言的基础函数和stringr包中的函数实现字符串的常见处理。特别注意的的是R中的基础函数和stringr包函数有两个很大的不同。

书写方式不同。大多数基础函数处理规则多作为第一参数，而被处理对象放在第二位置；stringr包中的函数被处理对象为第一参数，而处理规则作为第二参数。

grep(pattern, x, ...)
str_detect(string, pattern, ...)

执行的原理不一致。有很多基础函数的处理规则往往是针对单元素的，即使强制用多元素能成功执行，但结果也往往只执行第一个元素；而stringr包中的函数通常可对多元素执行操作，执行操作时将短的字符串重复，长度一致后在相同位置执行。

字符串的常见的计算包括：字符串长度计算，大小写转化，排序，空格去除，复制，拼接，分割，提取，替换，匹配查询（这里只介绍函数的实现效果，而不介绍正则表达式原则）。

字符串长度计算

字符向量长度计算函数：length
其返回字符向量的长度，而非字符串中字符的长度。

name = c("Li Bai","Du Fu", "Shakespeare")
length(name)
##[1] 3

字符串长度计算函数：
nchar，str_length和str_count均可计算字符串的长度。由于R通常是向量化操作，所以nchar，str_length和str_count对于字符向量可以返回字符向量中每个元素的长度。

library(stringr)
nchar(name)
## [1]  2  2 11
str_length(name)
## [1]  2  2 11
str_count(name)
## [1]  2  2 11

尽管函数str_count可以现实字符向量中字符串长度的计算，但是更多的时候用来计算特定字符串出现的次数，其计算的原理前面已经提到过：串短的字符串重复，长度一致后在相同位置特定字符串个数的统计。

fruit <- c("apple", "banana", "pear", "pineapple")
str_count(fruit) # 字符向量中字符长度计算
## [1] 5 6 4 9
str_count(fruit, "a") # "a"重复四次，与fruit在相同位置，查询"a"出现的次数
## [1] 1 3 1 1
str_count(fruit, "p")
## [1] 2 0 1 3
str_count(fruit, "e")
## [1] 1 0 1 2
str_count(fruit, c("a", "b", "p", "p"))  # 按位置一一对应查询
## [1] 1 1 1 3

## ----------------------------------------------------------------
str_count(c("a.", "...", ".a.a"), "\\.")   # 字符"."次数查询
## [1] 1 3 2
str_count(c("a.", "...", ".a.a"), fixed("."))  # 字符"."次数查询
## [1] 1 3 2

字符大小写转化

函数tolower，将向量中的元素转化为小写字母
函数toupper，将向量中的元素转化为大写字母
函数casefold，将向量中的元素转化为小或大写字母（upper = F，转化为小写；upper = T，转化为大写）
函数chartr，按指定的规则进行转换

x <- c("Hellow", "World", "!")
tolower(x)
## [1] "hellow" "world"  "!"
toupper(x)
## [1] "HELLOW" "WORLD"  "!"
casefold(x) # 默认upper = F
## [1] "hellow" "world"  "!"
casefold(x, upper = T)
## [1] "HELLOW" "WORLD"  "!"
chartr('ol', 'pm', x)  # o转化为p，l转化为m
## [1] "Hemmpw" "Wprmd"  "!"

DNA <- "AtGCtttACC"  # DNA为长度为1的字符向量
tolower(DNA)
## [1] "atgctttacc"
toupper(DNA)
## [1] "ATGCTTTACC"
chartr("Tt", "Uu", DNA)  # T转化为U，t转化为u
## [1] "AuGCuuuACC"
chartr("Tt", "UU", DNA)
## [1] "AUGCUUUACC"

字符串排序函数：`sort`, `str_sort`和`order`,`str_order`

order和str_order按一定条件有序返回字符串在向量中位置的索引值;
sort和str_sort直接按一定条件有序返回字符串。
这里，R的基础函数order，sort与函数str_sort，str_order默认的排序规则是略有差异的。

name = c("li bai", "du fu","Shakespeare")

order(name)
## [1] 2 1 3
str_order(name) # 俩函数的区别在哪里?
## [1] 2 1 3

sort(name)
## [1] "du fu"       "li bai"      "Shakespeare"
str_sort(name)  #？
## [1] "du fu"       "li bai"      "Shakespeare"

此外，还需要强调一下str_order和str_sort函数可以对字符串中的数字按数字顺序处理。

x = c("R1", "R3", "R11", "R4")

str_order(x)  # 返回位置索引值，且以首个数字排序
## [1] 1 3 2 4
str_order(x, numeric = T) # 按真正的“数值”排序
## [1] 1 2 4 3

str_sort(x) 
## [1] "R1"  "R11" "R3"  "R4"
str_sort(x, numeric = T)
## [1] "R1"  "R3"  "R4"  "R11"

字符串中空格去除函数：`str_trim`

函数str_trim可以去除字符串中的空格，通过参数side设置去除字符串开头、结尾、结尾和开头中的空格，但不能去除字符串中间的空格。

fruit = c(" apple", "pear ", "ban ana")

str_trim(fruit)
## [1] "apple"   "pear"    "ban ana"
str_trim(fruit, side = "left")
## [1] "apple"   "pear "   "ban ana"
str_trim(fruit, side = "right")
## [1] " apple"  "pear"    "ban ana"

字符串复制函数：`rep`和`str_dup`

函数rep和str_dup均可对字符串进行复制。函数rep会使向量中元素个数重复，向量长度会增加；函数str_dup使向量中每个元素值重复，向量的长度不增加。

rep(c("mn", "xy", "abc", "ef"), 1:4)  #1:4对应前面每个元素
##  [1] "mn"  "xy"  "xy"  "abc" "abc" "abc" "ef"  "ef"  "ef"  "ef"
str_dup(c("mn", "xy", "abc", "ef"), 1:4)
## [1] "mn"        "xyxy"      "abcabcabc" "efefefef"

字符串拼接函数：`paste`和`str_c`

R中基础函数paste和str_c都可以实现字符串的拼接，函数paste拼接时默认使用空格，函数str_c拼接时默认没有空格。参数sep可以设置拼接使用的拼接符。

paste("A", 1:4)
## [1] "A 1" "A 2" "A 3" "A 4"
str_c("A", 1:4)
## [1] "A1" "A2" "A3" "A4"

paste("A", 1:4, sep = "-")
## [1] "A-1" "A-2" "A-3" "A-4"
paste("A", 1:4, sep = "-", collapse = "+")
## [1] "A-1+A-2+A-3+A-4"

paste(c("A","B", NA, "C"), 1:4)    # NA 参与拼接
## [1] "A 1"  "B 2"  "NA 3" "C 4"
str_c(c("A","B", NA, "C"), 1:4)   # NA 不参与拼接
## [1] "A1" "B2" NA   "C4"

paste函数还有一个用法，设置collapse参数，连成一个字符串。

x = c("R1", "R3", "R11", "R4")
y = c("Zhang", "Lee", "Wang", "Zhao")

paste(x, y, sep = "-", collapse = "; ")
## [1] "R1-Zhang; R3-Lee; R11-Wang; R4-Zhao"
paste(x, collapse = "; ")
## [1] "R1; R3; R11; R4"

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

R语言中字符串的处理(1/3)-长度计算，大小写转化，排序，空格去除，复制，拼接

字符串长度计算

字符大小写转化

字符串排序函数：sort, str_sort和order,str_order

字符串中空格去除函数：str_trim

字符串复制函数：rep和str_dup

字符串拼接函数：paste和str_c

推荐阅读更多精彩内容

字符串排序函数：`sort`, `str_sort`和`order`,`str_order`

字符串中空格去除函数：`str_trim`

字符串复制函数：`rep`和`str_dup`

字符串拼接函数：`paste`和`str_c`