读:
-
r
/ w:读 / 写文本文件; -
rb
/wb
:读 / 写二进制文件,图片、视频等;
文本文件
with open('/path/to/file', 'r') as f:
print(f.read())
调用 read()
会一次性读取全部内容,如果有10G,内存就爆了。为保险起见,可以反复调用 read(size)
方法,每次最多读取 size
个字节的内容。另外,调用 readline()
可以每次读取一行内容,调用 readlines()
一次读取所有内容并按行返回 list
。
如果文件很小,read()
一次性读取最方便;如果不能确定文件大小,反复调用 read(size)
比较保险;如果是配置文件,调用 readlines()
最方便:
for line in f.readlines():
print(line.strip()) # 把末尾的'\n'删掉
二进制文件
前面讲的默认都是读取文本文件,并且是 UTF-8
编码的文本文件。要读取二进制文件,比如图片、视频等等,用 'rb'
模式打开文件即可:
>>> f = open('/Users/michael/test.jpg', 'rb')
>>> f.read()
b'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节
字符编码
要读取非 UTF-8
编码的文本文件,需要给 open()
函数传入 encoding
参数,例如,读取 GBK
编码的文件:
>>> f = open('/Users/michael/gbk.txt', 'r', encoding='gbk')
>>> f.read()
'测试'
遇到有些编码不规范的文件,你可能会遇到UnicodeDecodeError
,因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况,open()
函数还接收一个errors
参数,表示如果遇到编码错误后如何处理。最简单的方式是直接忽略:
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk', errors='ignore')
写文件
写文件和读文件是一样的,唯一区别是调用 open()
函数时,传入标识符 'w'
或者 'wb'
表示写文本文件或写二进制文件:
可以反复调用 write()
来写入文件;
with open('/Users/michael/test.txt', 'w') as f:
f.write('Hello, world!')
要写入特定编码的文本文件,给 open()
函数传入 encoding
参数,将字符串自动转换成指定编码。
以 'w'
模式写入文件时,如果文件已存在,会直接覆盖(相当于删掉后新写入一个文件)。如果我们希望追加到文件末尾怎么办?可以传入'a'
以追加(append
)模式写入。