近日在学习网页爬虫的时候发现对于某些用gbk编码的网页,post请求的参数在fiddler中显示是乱码,而用pycharm抓取用gbk编码的网页的时候也会出现乱码。现将解决办法记录一下。
一、fiddler中的post参数乱码
1、运行regedit打开注册表
2、找到HKEY_CURRENT_USER\Software\Microsoft\Fiddler2
3、右键新建,选字符串值加上HeaderEncoding然后值输入 GBK
4、重启软件即可
二、pycharm抓取网页乱码
最后的response加上decode即可,示例代码如下:
content = response.read().decode('gbk')