selenium webdriver初探chromedriver.exe

作为一名爬虫界的农名工,一直都是熟练使用scrapy,永久了之后觉得效率颇高,也爬过大大小小的几十个网站了。以前见过很多不同的反爬虫机制:

1)robot.txt禁止爬虫,这种是最好突破的了;

2) 需要添加header的, 才能得到争取的response的; 也算是常规网站都有的;

3) 需要使用cookie的, 这部分需要登录的网站中比较常用, 这部分算少一些了;

4) 登录的时候要求使用验证码的, 还需要调用ocr接口识别验证码信息的, 之前爬取amazon就需要如此;

5) 最后一个就是类似于boss直聘这种网站了,需要拖动滑块来获得验证,然后再登录,之前研究了一会,以失败告终,未做进一步研究;

就在这两天,我碰到一个网站lighting1.com,受搞外贸的朋友委托,帮忙爬取下客户信息。作为一名熟练的爬虫农民工,第一次登录lighting1.com的时候,觉得没什么难度。马上开搞,第一次请求完

返回503

淡定淡定,添加了user agent,再来

还是返回503

淡定淡定, 添加了header和cookie, 再来

仍然是503

what the fuck!!!

在心里奔腾过几万只草泥马之后,作为资深农民工的我还是冷静了下来,一定要心平气和,爬不了没关系,要文明。于是乎,我请求浏览器缓存,再一次打开了这个网站,看到了一个神奇的事情:

检查浏览器 

Checking your browser before accessing lighting1.com. This process is automatic. Your browser will redirect to your requested content shortly, please allow up to 5 seconds...意思是现在在检查浏览器,你的请求在5s之后才会返回,这也就解释了为什么刚才每一次都是503了,浏览器还没有返回正确的response, 而程序因为收到503就自动结束了。而且,打开详细的公司信息的时候,也是会有这样子的问题,都要有检查浏览器的过程。

思考的时候,脑海里浮现出印象中有一个叫做webdriver可以真正完美的模拟浏览器的运行, 于是, 我就上手了。

环境: win10 x64

python: 3.8.1

工具: pycharm

因为我习惯用的是Google Chrome, 所以下载安装chromedriver.exe

第一步, 当然是启动浏览器了:

启动浏览器

第二步, 获取与分析网页:

请求与分析网页

默认使用get方法, 不用像在scrapy里面, 需要添加各种header, cookies这些。需要添加time.sleep(5)是为了解决刚才浏览器进入网站是检查5s在返回数据的问题. 再返回数据之后, 我们需要提取当中每一个公司的详情页面的链接。作为一名长期使用scrapy的农民工,我习惯使用xpath, 于是就通过find_elements_by_xpath()来提取链接,并把链接保存到list里面.

翻页时候提示登录

当抓取到第3页的时候,就开始提示要登录了,要是以前使用scrapy必须先处理登录的请求,然后才能继续往下抓取。使用selenium发现浏览器自动的往下走,丝毫不管需不需要登录,都能正确获取链接,真香。

不需要登录,正常获取链接

第三步,请求公司详情页,并保存返回数据

获取公司详情页并保存返回数据

第四步, 保存数据,作为一名懒人,直接使用最简单的办法来保存:

保存数据

自此大功告成。

第一次使用selenium, 发现真是一个神器,除了效率低,其他方面真的是无可挑剔。特别是在应对服务端和客户端的一些验证上面,流氓得不要不要的。接下去的爱好就是挖掘selenium的其他潜力。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容