一、生成器定义:
- 为了缓解内存压力,Python使用生成器对延迟操作提供了支持。所谓延迟操作,是指在需要的时候才产生结果,而不是立即产生结果。这也是生成器的主要好处。
- 运用场景:大数据量的运算,不会因为内存的问题被进程杀死
- 生成器有二种方式进行获取数据:for循环和__next__
- 生成器中的元素只能获取一遍,如果读取全部数据还继续获取会提示报错
二、生成器表达式:
- 类似于列表推导,但是,生成器返回按需产生结果的一个对象,而不是一次构建一个结果列表
list01 = [random.randint(1, 5) for i in range(5)]
|| 中括号变成小括号
gen01 = (random.randint(1, 5) for i in range(5))
# 列表推导式
import random
list01 = [random.randint(1, 5) for i in range(5)]
print(list01) # [1, 3, 4, 1, 2]
# 生成器表达式
gen01 = (random.randint(1, 5) for i in range(5))
print(gen01) # <generator object <genexpr> at 0x7f18cc1c8830>
三、生成器调用方式:
- 方式一:gen.__next__()
# 生成器当中的元素只能获取一遍
# for 生成器.__next__()
print("data:", gen01.__next__()) # 第一个数据
print("data:", gen01.__next__()) # 第二个数据
- 方式二:for循环
for item in gen01:
print("for:", item)
# print("data:", gen01.__next__()) # 报错:StopIteration
三、生成器函数yield:
- 常规函数定义,但是,使用 yield 语句而不是 return 语句返回结果
- yield 语句一次返回一个结果,在每个结果中间,挂起函数的状态,相当于暂停,以便下次重它离开的地方继续执行
- 已执行过的代码,不会再进行执行,但会保留执行结果
- 函数内yield 语句全部执行完在进行调用会报错
执行流程:
- 在函数内部,有很多 yield 返回中间结果;
- 程序向函数取值时,当函数执行到第1个yield时,会暂停函数运行并返回中间结果;
当主程序再次调用函数时,函数会从上次暂停的位置继续运行,当遇到第2个yield,会再次暂停运行函数并返回数据; - 重复以上操作,一直到函数内部的yield全部执行完成为止
# 生成器函数
# return: 函数执行的终止
# yield: 表示函数执行的暂停
def func02():
a = 1
yield a
b = "hello"
yield b
c = [1, 2]
yield c
gen2 = func02()
print("gen2:", gen2)
# <generator object func02 at 0x7f94da357a98>
print(gen2.__next__()) # 1
print(gen2.__next__()) # hello
for item in gen2:
print("for:", item) # [1, 2]
# gen2.__next__() # 报错
四、案例
需求:
- 使用函数实现生成器 yield
- 函数接受一个文件对象作为参数(读文件)
- 生成器函数每次返回文件的 10 行数据
# 实现思路:
# 创建list容器接收读取的文件内容
# 读取文件内容,并将每一行存储到list中
# 判断list长度是否为10,是,yield返回,清空列表
# 读取完文件后,查看list是否大于0,是,yield返回
def get_lines(file_name):
li = []
with open(file_name, mode="r") as fr:
while True:
line = fr.readline()
# 没数据就退出循环
if line is "":
break
# 添加每一行的数据
li.append(line)
# 判断line长度
if len(li) == 10:
yield li
li.clear()
# 兜底判断,保证最后的数据完整性
if len(li) != 0:
yield li
if __name__ == '__main__':
gen = get_lines("/etc/hosts")
# 循环输出文件内容
for item in gen:
print("line:", item)