第一次写文章,最近在做自然语言处理方面的工作,在工作中遇到一些程序跑了很长时间,所以今天看一下python中的多进程,希望能在以后的工作中应用。废话不多说,开始:
多进程的思想:既然你看到这篇文章,一定是在学习和工作中需要多进程的帮助了,应该也知道一些多进程的原理了,在这里我就简单说一下:多进程是充分利用硬件来换取时间的一种手段,简单来讲就是让两件互不干扰的事情并行。举个生活的例子,你做饭的时候一遍炒菜一遍烧水用来煮饺子,烧水和炒菜就是两个互不影响的进程,两个进程共同使用你们家里的点,这也就要求你们家有足够好的电路可以允许炒菜和烧水一起,这也就是对电脑硬件的要求,否者进程太多只会带来麻烦。
在python中多进程使用的包是multiprocessing,不需要安装,直接import使用就可以了,我们先来举一个简单的例子来简单看一下多进程在python中时如何使用的。假设我们想写一个从0累加到1000000000的程序,使用单进程我们可以写成下面的样子:
from multiprocessingimport Pool
import datetime
def add_big(bigNumber):
result =0
for i in range(0, bigNumber+1):
result += i
return result
startTime = datetime.datetime.now()
print(add_big(1000000000))
print(datetime.datetime.now() - startTime) # 计算用的时间
返回的结果是:
500000000500000000
0:00:53.116295
那我们来设计一个双进程的程序,我们想将从0累加到1000000000的的过程分为两个进程:
①从0累加到500000000的;
②从500000001,到1000000000。两个进程的结果在最后相加得出的结果就是我们想要的最终结果,程序如下:
def add_part(part):
"""
计算一个列表的开始到末尾的累加
:parampart:长度为二的列表
:return: 返回累加的和
"""
result =0
for i in range(part[0], part[1] +1):
result += i
return result
if __name__ =='__main__':
startTime = datetime.datetime.now()
with Pool(2) as p:
result_list = p.map(add_part, [[0, 500000000], [500000001, 1000000000]])
print(sum(result_list))
print(datetime.datetime.now() - startTime)
返回的结果是:
500000000500000000
0:00:38.115395
我们看到计算结果是一样的,时间从53下降到38。在上面的程序中我们对进程p调用了它的类方法map(),这里先不用对map方法有很深入的了解,知道其可以向进程池提交目标请求,就是告诉进程池里的进程做什么。Pool(2)是指我们建立了一个池,这个词有多大呢?就是我们传进去的参数2,也就是说这个池中最多有两个并行运行的进程。结合我们的例子,我们在例子中开了两个进程,就是将累加分为了两部分,我们通过改变Pool的参数扩大池的容量,扩大为3,再次运行,结果如下:
500000000500000000
0:00:37.938921
可以看到时间几乎没有变化,说明当池的容量扩大到所有进程总数的时候,在扩大池并不会减少你的时间,就相当于你买了一个由很多孔的插排给烧水和炒菜的锅和电磁炉,并不会减少你炒菜和烧水一起并行的时间。当然,如果池的容量小于进程的数量,就会影响总体的运行时间,就像只有一个插孔,你烧水和炒菜就并行不了了,要在池外进行等候。
这是简单的介绍,python中多进程还有很多内容,比如:多进程的类Process、进程间的交互Queue、进程之间交互Pipe、进程池pool等,请看我在简书下面的文章。