R语言如何多线程
相对于python或者perl来说,R给我的感觉是速度不是太快,有时候部分程序是可以用多线程进行并行运算的。
这里介绍一个包parallel
。
方法1: parallel
包
-
parallel
包的常见函数
函数 | 作用 |
---|---|
detectCores() | 检查当前的可用核数 |
clusterExport() | 配置当前环境 |
makeCluster() | 分配核数 |
stopCluster() | 关闭集群 |
parLapply() | lapply()函数的并行版本 |
这里说一下parLapply()
这个函数,这个函数相当于R
内置的lapply()
函数,这个函数据说速度快于for
循环
# 使用lapply()
square <- function(x){
x^2
}
# 结果会返回一个列表(因为列表能包纳各种数据结构)
lapply(c(1, 2, 3, 4, 5), square)
# 使用for
for(i in c(1, 2, 3, 4, 5)){
square(i)
}
parLapply()
函数与lapply()
函数一样的用法,只不过多了一个多核的参数,另外它也是返回的一个列表list()
。至于为什么返回的是列表,之前的我的文章中提到过R语言函数如何返回多个值
- 有关并行
在有时候的并行很简单,就是同一套操作流程,只是输入的文件或者数据不同
文件1 文件2 文件3
或 或 或
数据1 数据2 数据3
| | |
+----+ | +----+
| | |
v v v
+------------+
| 一套 |
| 处理 | function
| 方式 |
+------------+
| | |
+---+ | +----+
| | |
v v v
结果1 结果2 结果3
那这个时候就可以把这一套的功能写为一个函数。对于后一步需要前一步的结果在分析,那么这样进行多线程就不行了,那么就比较复杂。
有时候数据量大,用for
循环感觉亏了,一个人干活其他人围观这种,使用并行吧,哈哈~
开始使用
- 首先可以查看一下机器的核数
detectCores()
[1] 16
这里可以看到核数是16
- 之后设置使用多少个核
# 这里初始化8个核
cl <- makeCluster(8)
- 申明一个函数,这个函数被用于多线程的时候执行的步骤
注意:在执行的过程中,先前导入的外部的包是没有用的,也就是只有在执行的过程中导入才有用。也就是说需要在parLapply()执行的函数中导入那些需要的包才有用,另外最好不将数据以返回值返还,最好存为文件
test_funciton <- function(file){
# 导入某某包
library(packages)
# 读取
raw.data <- read.table(file)
data <- somefunction(raw.data)
# 存为文件
write.csv(data, "out.csv")
}
- 导入需要的包
除了上述在函数体中加载包之外,也可以在事先用parallel
的专门的函数进行加载
clusterExport(cl, library(packages))
- 开始多线程
parLapply(cl, c(file1, file2, file3), test_funciton)
- 归还核和内存给系统
运行完毕之后,需要释放,不然会一直占据资源
stopCluster(cl)
但是在有的时候可能因为数据量过大,虽然线程数合适,但是内存爆满错误,这个时候R中两种常用并行方法——1. parallel中提到了解决办法,下面的话引用自这篇博客
使用更少的线程进行并行
如果你的电脑内存非常小,有一个简单的方法确定你的最大使用线程:
max cores = memory.limit() / memory.size()
将大量的并行分小部分进行
在代码中多使用
rm()
删除没用的变量,使用gc()
回收内存空间另外也可以采用snowfall包
其他
如果你打开资源管理器查看,你会发现在多线程过程中其中R出现了多个
R --slave --no-restore -e parallel:::.slaveRSOCK() --args MASTER=localhiost PORT=11288 OUT=/dev/null
这个不就是之前看到的命令行吗,难道是将函数作为一个R脚本然后执行相应的数据?
方法2:使用bash
脚本结合R
语言命令行
实际上,在将上述的功能整合为一个function
,其实也可以将整个过程写为一个R
脚本,在之前的一篇文章中我介绍了R语言接受命令行参数的三种方式,参照这篇文章将输入的文件放在命令行上作为R
脚本的参数传输进去,当然了,这样的处理可能局限于文件,对于读取到内存中的数据就不能使用了。
比如写一个简单的R脚本吧test.r
,这个就是做一下列表的转置。
# 读入命令行参数
args <- commandArgs(trailingOnly = TRUE)
# 按照顺序第一个是文件
file_path <- args[1]
# 第二个是输出文件路径
out_path <- args[2]
data <- read.table(file_path)
data.T <- t(data)
write.table(out_path, data.T)
下面用bash
进行多线程
file_list=("file1" "file2" "file3")
parallel -j 3 "
Rscript test.r {1}
" ::: ${file_list[@]}