Python爬虫 - 专题 - 简书

投稿

Python爬虫

收录了4篇文章 · 2人关注

使用lxml解析html，etree.HTML中出现乱码的解决方法
使用lxml.etree做爬虫抓取网页，但如果网页是gbk/gb2312编码，则会出现乱码问题，困扰了好久 -_ -！后来发现html.tex...

捉虫__羊羊 1 1
爬取Jenkins Offline Slave Name列表储存到本地
1.在这样的页面下有一堆offline的机器，我们现在就把Offline Slave Name下的数据全部爬取到本地。 2.这个其实挺简单，F1...

捉虫__羊羊 0 0

爬虫入门：爬取百度页面保存到记事本
这个比较简单，就几行代码搞定： import requests import sys reload(sys) sys.setdefaultenc...

捉虫__羊羊 0 3
爬虫入门：爬取百度贴吧图片
#coding = utf-8importreimporturllibdef getHtml(url):page = urllib.urlope...

捉虫__羊羊 0 2