三者简要的关系
首先弄明白什么是迭代器协议?
1. 迭代器协议是指:对象必须提供一个__next__
方法,执行该方法要不返回迭代中的下一项,要不就引发一个StopIteration异常
2.可迭代对象,就是实现了迭代器协议的对象(一般是在内部定义一个__iter__()
方法)
3.协议是一种约定,任何可以迭代的对象都是实现了迭代器协议.
迭代器
当我们调用一个可迭代对象的iter()方法之后,就得到一个迭代器.
什么是迭代器呢?
迭代器必须遵循可迭代协议,必须拥有__iter__()
和__next__()
方法.
简单的来说,任何实现了__iter__()
和__next__()
方法的对象都可以叫做迭代器.迭代器是一个有状态的对象,在调用next(迭代器)的时候返回下一个值,如果容器中没有更多的元素了,则抛出StopIteration异常.
迭代器的优缺点:
1. 缺点: 迭代器只能前进,没办法后退
2. 优点: 迭代器不要求事先准备好所有的元素.迭代器只有在迭代到某个元素的时候才计算该元素.而之前的元素和之后的元素可以销毁或者不存在.因此迭代器适合遍历一些数据量庞大的无限的序列.
使用内建的工厂函数创建迭代器,其实本质上还是调用内部函数,只是这样看起来舒服一点.
# encoding:utf-8
__author__ = 'Fioman'
__time__ = '2019/3/7 18:10'
a = [1, 2, 3]
b = (1, 2, 3, 4)
s = 'mengmeng'
it_a = iter(a)
it_b = iter(b)
it_s = iter(s)
for it in [it_a, it_b, it_s]:
print(type(it))
自定义迭代器
Python中的迭代器本质上是每次调用它的__next__
方法都返回下一个元素或者抛出StopIteration异常
在Python中所有实现了__iter__()
和__next__()
方法的对象,都可以被称为是迭代器类
1.有__next__()方法:
返回容器的下一个元素或者抛出StopIteration异常
2.有__iter__()方法:
返回迭代器本身.
# encoding:utf-8
__author__ = 'Fioman'
__time__ = '2019/3/7 18:30'
class Fib(object):
def __init__(self):
self.prev = 0
self.curr = 1
def __iter__(self):
return self
def __next__(self):
value = self.curr
self.curr += self.prev
self.prev = value
return value
if __name__ == '__main__':
f = Fib()
for i in range(10):
print(next(f))
Fib既是一个可迭代对象(因为它实现了iter方法),又是一个迭代器(因为实现了next方法)。实例变量prev和curr用户维护迭代器内部的状态。每次调用next()方法的时候做两件事:
1.为下一次调用next()方法修改状态
2.为当前这次调用返回结果
迭代器就像一个懒加载的工厂,等到有人需要的时候才给它生成返回值,没调用的时候就处于休眠状态等待下一次调用
生成器
Python中的生成器本质上就是一个迭代器.生成器对延迟操作提供了支持,什么时候需要,什么时候产生结果,而不是马上产生结果.
创建生成器的两种方式
生成器函数:
和普通的函数一样,都是通过def定义,唯一的不同是生成器函数是通过yield返回,而不是return.yield每次返回一个结果,然后挂起函数的状态,方便下一次从它离开的地方继续执行.
生成器表达式:
类似于列表推导式,将一个列表推导式的中括号[]改成小括号()就可以了.但是它和列表推导式的区别就是它生成的是一个对象,而不是像列表推导式那样生成一个结果列表.如果是一个列表推导式,它会将整个列表的项加载到内存中,而生成器表达式不会,它会在需要的时候再加载到内存.
我们看一个例子,使用生成器返回自然数的平方
# encoding:utf-8
__author__ = 'Fioman'
__time__ = '2019/3/7 19:10'
def gen_squares(n):
for i in range(n):
yield i ** 2
for item in gen_squares(5):
print(item)
使用普通的函数
def list_squares(n):
ret = []
for i in range(n):
ret.append(i ** 2)
return ret
for item in list_squares(5):
print(item)
可以看到使用生成器比普通的函数代码量简洁了不少
生成器表达式
使用列表推导式,将会一次产生所有的结果
>>squares = [x**2 for x in range(5)]
>>squares
[0, 1, 4, 9, 16]
将列表推导式的[]换成圆括号()就变成了一个生成器表达式
生成器有三个特点:
1.语法上和普通的函数相似,生成器表达式和列表推导式相似
2.自动实现了迭代器协议
3.状态会自动挂起 生成器使用yield语句返回一个值,yield语句挂起该生成器函数的状态,保留足够的状态信息,以便之后从离开它的地方继续执行.
生成器的好处,看下面的代码:
sum([i for i in range(100000000)])
sum(i for i in range(100000000))
这两个表达式,第一个是列表推导式,会一下子将所有的项加载到内存.一般的主机都会被卡死.
而第二个是生成器表达式,一般来说基本上不占用什么内存.
所以生成器,对于处理比较大的数据来说,非常的有用,对于节省资源非常有利.
使用生成器yield的协程的方式实现生产者消费者模型
# encoding:utf-8
__author__ = 'Fioman'
__time__ = '2019/3/7 20:17'
def consumer():
r = '' # 存放消费者函数的返回值,也就是生成器的返回值
n = yield r # yield r 表示的程序挂起,如果调用了next或send的
# 时候将返回r,而这个表达式的值就是send()传递的参数.
if not n:
return
print('消费者: 消费了{}'.format(n))
r = '消费完毕,你可以继续生产了'
def producer(c):
c.send(None) # 这里相当于是启动了生成器,才可以调用send()方法
n = 0
while n < 5:
n = n + 1
print('生产者: 生产了{}'.format(n))
ret = c.send(n) # 通知消费者,同时得到返回值
print('生产者: 消费者返回:{}'.format(ret))
c.close() # 关闭生成器
c = consumer()
producer(c)
这段代码的说明:
1.函数首先是调用了c=consumer().c是一个生成器对象,并不会执行.
2.c被当成参数传给producer(),producer执行,c.send(None)
3.c.send(None)相当是执行了next(c),启动生成器,如果不启动,没办法使用send()方法传递参数.
4.而send(参数)的参数是可以被接收的,就是yield r的表达式的结果.所以第一次相当于是启动了生成器,这个时候n还没有值.如果yield表达式左边没有变量来接收的话,就相当于是next()来执行
5.consumer执行完yield r返回r,这个r是给它的调用者的.而左边的n的值,是生产者send过来的值,并不是r
consumer函数被挂起,这个时候producer函数继续执行,然后就是send(1),这个时候consumer函数被在上次被挂起的地方执行,会打印消费者,然后再返回r,这个时候r的值已经改变了.这里主要注意n的值是yield r这个表达式的值,而不是r的值.而yield r这个表达式值是跟send有关的,是send发送过来的参数的值.这里容易混淆