协程是一种用户轻量级线程。协程拥有自己的寄存器上下文和栈,协程调度切换时寄存器上下文和栈保存到其它地方,在切回来的时候恢复先前保存的寄存器上下文和栈,因此协程能保留上一次调用时的状态,每次过程重入时进入上一次离开时所处逻辑流的位置。协程的好处:
1、无需线程上下文切换的开销
2、无需原子操作锁定及同步的开销
3、方便切换控制流,简化编程模型
4、高并发+高扩展+低成本:一个cpu支持上万的协程都不是问题,适合高并发处理
缺点:
1、无法利用多核资源,协程的本质是个单线程,它不能同时将单个cpu的多个核用上,协程需要和进程配合才能在多cpu上运行
2、进行阻塞(blocking)操作(如IO)时会阻塞掉整个程序
greenlet模块:
from greenlet import greenlet
def test1():
print('test1-1')
gr2.switch()
print('test1-2')
gr2.switch()
def test2():
print('test2-1')
gr1.switch()
print('test2-2')
gr1 = greenlet(test1) #启动一个协程
gr2 = greenlet(test2)
gr1.switch()
test1-1
test2-1
test1-2
test2-2
greenlet是手动切换线程上下文。greenlet(test1)启动一个协程后,gr1.switch()切换到test1执行,test1打印test1-1后切换到test2,test2打印test2-1后又切回test1,并记录到了上一次执行的位置,打印test1-2
gevent模块:gevent模块封装了greenlet,实现自动切换:
import gevent
def foo():
print('in foo')
gevent.sleep(2)#触发切换
print('in foo 2')
def bar():
print('in bar 1')
gevent.sleep(1)
print('in bar 2')
def func3():
print('in func3 1')
gevent.sleep(0)
print('in func3 2')
gevent.joinall(
[
gevent.spawn(foo), #启动一个协程
gevent.spawn(bar),
gevent.spawn(func3)
]
)
in foo
in bar 1
in func3 1
in func3 2
in foo 2
in bar 2
启动三个协程,打印in foo后执行gevent.sleep(2),此时会切换至打印in bar 1,此时又遇切换,执行打印in func3 1和in func3 2,之后回到foo函数gevent.sleep(2)还未到达2秒,到达1秒后打印in bar 2,到达2秒后再打印in foo 2,总耗时2秒
协程爬虫简单例子:
from urllib import request
import gevent
from gevent import monkey
import time
# monkey.patch_all()#gevent检测不到urllib的IO操作,所以不会进行切换。monkey.patch_all()是给当前程序所有IO操作单独做上标记
def fun(url):
res = request.urlopen(url)
data = res.read()
f = open('url.html','wb')
f.write(data)
f.close()
print("%d bytes recived from %s" % (len(data),url))
urls = [ 'https://github.com/',
'https://zz.253.com/v5.html#/yun/index'
]
sync_all_time = time.time()
for url in urls:
fun(url)
print('同步总耗时:',time.time()-sync_all_time)
async_start_time = time.time()
gevent.joinall(
[
gevent.spawn(fun,'https://github.com/'),
gevent.spawn(fun,'https://zz.253.com/v5.html#/yun/index'),
# gevent.spawn(fun,'https://www.jianshu.com/'),
]
)
print('异步总耗时:',time.time()-async_start_time)
59864 bytes recived from https://github.com/
1175 bytes recived from https://zz.253.com/v5.html#/yun/index
同步总耗时: 2.9010000228881836
59854 bytes recived from https://github.com/
1175 bytes recived from https://zz.253.com/v5.html#/yun/index
异步总耗时: 7.056999921798706
gevent检测不到urllib的IO操作,不会进行切换,所以为串行。monkey.patch_all()是给当前程序所有IO操作单独做上标记,如此才并行。