背景:读取文件(文件很大,上亿行)时,常常会出现编码的问题,因为文件默认编码时utf-8,所以在读取文件时,用如下方法读取:
data =pd.read_table(filename, header=None,sep="\001", encoding="utf-8",error_bad_lines=False)
但是,常常在文件快读完时,报如下错误:经过苦苦查找资料,终于找到了如下解决办法
方法一、(推荐使用该方法):(https://stackoverflow.com/questions/18171739/unicodedecodeerror-when-reading-csv-file-in-pandas-with-python):
即:将encoding="utf-8"用 encoding= 'latin1' 或 encoding='ISO-8859-1'替换即可解决该问题。
方法二、在前面增加一个读取文件的操作即如下:
filename = open('文件名', encoding='utf-8')
data = pd.read_table(filename, header=None,sep="\001", encoding="utf-8",error_bad_lines=False)