R packges
下载环境
- 初级
软件设置 - 中级
执行命令:
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") - 高级
利用.RProfile文件,为软件启动时自检默认载入程序,无需每次添加命令;在脚本编辑器添加上述命令,运行,保存,重新启动即可
安装
install.packages(“dplyr”)
名称指代,加引号
加载
library(dplyr)或require(dplyr)
程序/变量/…特指,无需引号
基础函数
- 定义变量
test <- iris[c(1:2,51:52,101:102),] - mutate:插入列
mutate(test, new = Sepal.Length * Sepal.Width)
在test数据框最后一列之后添加new列,值为Sepal.Length * Sepal.Width值 - select:列筛选
select(test,1)
筛选test第1列值
select(test,c(1,5))
筛选test第1、5列值
select(test,Sepal.Length)
筛选test Sepal.Length列值
select(test, Petal.Length, Petal.Width)
在test中筛选Petal.Length、Petal.Width列的值
vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars))
=select(test, Petal.Length, Petal.Width) - filter:行筛选
filter(test, Species == "setosa")
筛选test中Species列为setosa值的行
filter(test, Species == "setosa"&Sepal.Length > 5 )
筛选test中Species列为setosa值且Sepal.Lengt列值大于5的行
filter(test, Species %in% c("setosa","versicolor"))
筛选test中列值为setosa和versicolor的并集的行 - arrange:排序
arrange(test, Sepal.Length)
对test中Sepal.Length列值升序排列行,默认
arrange(test, desc(Sepal.Length))
对test中Sepal.Length列值降序排列行 - summarise:汇总,&group_by
summarise(test, mean(Sepal.Length), sd(Sepal.Length))
对test中Sepal.Length列值汇总(计算)平均值和标准差
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
对以Species列值分组(group_by)的test中Sepal.Length列值汇总(计算)平均值和标准差
实用技能
- 管道操作 %>%
test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
全等于
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length)) - count 统计某列的unique值
count(test,Species)
计算Species列中不同值对应的个数(行数)
dplyr处理关系数据
见下方思维导图