python爬虫-selenium 的基本使用和常用API

注意:
很多网站对selenium的webdriver做了反爬,所以推荐使用pyppeteer(更强大些)。
但是pyppeteer不如selenium稳定,bug少,语法清晰。

安装

pip3 install selenium
注意需要保持chrome和chromedriver 的版本一致

使用

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox')  # 这个配置很重要
chrome_options.add_argument('blink-settings=imagesEnabled=false')
chrome_options.add_argument('user-agent={}'.format(getRandomUserAgent()))
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chrome_options.add_argument("--test-type")

# 使用网页手机模式
mobileEmulation = {'deviceName': 'iPhone 6/7/8'}
chrome_options.add_experimental_option('mobileEmulation', mobileEmulation)

# 指定chromedriver路径
driver = webdriver.Chrome(chrome_options=chrome_options, executable_path='/usr/local/bin/chromedriver')

# 发起请求
driver.get(url=redictUrl)

解释

from selenium import webdriver
driver = webdriver.Chrome()

运行上面的脚本，它将启动浏览器并退出。因为没有调用quit()方法，所以浏览器会话仍会存在。但是代码里创建的driver对象已经不在了，理论上不能用脚本控制这个浏览器。它将变成一个僵尸浏览器，只能手动杀死它。

通过webdriver启动一个浏览器会话大概会有这样三个阶段:

启动的浏览器驱动代理(hromedriver，Firefox的驱动程序，等等)；
创建一个命令执行器。用来向代理发送操作命令；
使用代理建立一个新的浏览器会话，该代理将与浏览器进行通信。用sessionId来标识会话。

因此只要拿到阶段2中的执行器和阶段3中的sessionID就能恢复上次的会话。这两个有api可以直接获取:

from selenium import webdriver

driver = webdriver.Chrome()
executor_url = driver.command_executor._url
session_id = driver.session_id
print(session_id)
print(executor_url)
driver.get("http://www.spiderpy.cn/")

一切就绪，下面就开始实现复用之前会话的功能，

from selenium import webdriver

driver = webdriver.Chrome()
executor_url = driver.command_executor._url
session_id = driver.session_id
driver.get("http://www.spiderpy.cn/")

print(session_id)
print(executor_url)

driver2 = webdriver.Remote(command_executor=executor_url, desired_capabilities={})
driver2.session_id = session_id
print(driver2.current_url)

重新使用已打开的浏览器

# 保留URL和session_id
executor_url = driver.command_executor._url
session_id = driver.session_id
# 清除driver
del driver

# 移除之前driver
driver2 = ReuseChrome(command_executor=executor_url, session_id=session_id)

# 重新发起请求
driver2.get(redictUrl)

解释

可能是因为版本原因吧，反正在我环境中运行时，效果是实现了，能够重新连接到上一个会话，但是却打开了一个新的空白会话。看了下Remote类的源码，发现是因为每次实例化都会调用start_session这个方法新建一个会话。所以解决方法就是继承并重写这个类。自定义一个ReuseChrome这个类重写start_session方法使它不再新建session，使用传入的session_id：

from selenium.webdriver import Remote
from selenium.webdriver.chrome import options
from selenium.common.exceptions import InvalidArgumentException

class ReuseChrome(Remote):

    def __init__(self, command_executor, session_id):
        self.r_session_id = session_id
        Remote.__init__(self, command_executor=command_executor, desired_capabilities={})

    def start_session(self, capabilities, browser_profile=None):
        """
        重写start_session方法
        """
        if not isinstance(capabilities, dict):
            raise InvalidArgumentException("Capabilities must be a dictionary")
        if browser_profile:
            if "moz:firefoxOptions" in capabilities:
                capabilities["moz:firefoxOptions"]["profile"] = browser_profile.encoded
            else:
                capabilities.update({'firefox_profile': browser_profile.encoded})

        self.capabilities = options.Options().to_capabilities()
        self.session_id = self.r_session_id
        self.w3c = False

拖动元素移动

"""
    :param driver:driver
    :param source:要拖拽的html元素
    :param targetOffsetX: 拖拽目标x轴距离
    :return: None
"""
def simulateDragX(driver,source, targetOffsetX):
    action_chains = webdriver.ActionChains(driver)
    action_chains.click_and_hold(source)
    action_chains.move_by_offset(targetOffsetX-targetOffsetX/3, 0)
    action_chains.release()
    action_chains.perform()
    driver.quit()

selenium 基础-定位

Selenium提供了8种定位方式
- id
- name
- class name
- tag name
- link text
- partial link text
- xpath
- css selector

定位元素的使用

定位一个元素	定位多个元素	含义
find_element_by_id	find_elements_by_id	通过元素id定位
find_element_by_name	find_elements_by_name	通过元素name定位
find_element_by_class_name	find_elements_by_class_name	通过classname进行定位
find_element_by_tag_name	find_elements_by_tag_name	通过标签定位
find_element_by_link_text	find_elements_by_link_tex	通过完整超链接定位
find_element_by_partial_link_text	find_elements_by_partial_link_text	通过部分链接定位
find_elements_by_css_selector	find_elements_by_css_selector	通过css选择器进行定位
find_element_by_xpath	find_elements_by_xpath	通过xpath表达式定位

定位下拉标签元素

import Select
Select(driver.find_element_by_xpath("//select[@id='9560af43bfc949c4826d329c352e4eb6_class']")).select_by_index(4)   #定位公共互联网环境

在iframe框架之间切换

#切换到指定的iframe框架
driver.switch_to.frame("mainFrame")  #切换iframe框架
driver.switch_to.default_content()   #切换到主框架

selenium Webdriver模块的使用

方法	说明
set_window_size()	设置浏览器的大小
back()	控制浏览器后退
forward()	控制浏览器前进
refresh()	刷新当前页面
clear()	清除文本
send_keys (value)	模拟按键输入
click()	单击元素
submit()	用于提交表单
get_attribute(name)	获取元素属性值
is_displayed()	设置该元素是否用户可见
size	返回元素的尺寸
text	获取元素的文本

selenium 鼠标的使用

方法	说明
ActionChains(driver)	构造ActionChains对象
context_click()	执行鼠标悬停操作
move_to_element(above)	右击
double_click()	双击
drag_and_drop()	拖动
move_to_element(above)	执行鼠标悬停操作
context_click()	用于模拟鼠标右键操作，在调用时需要指定元素定位
perform()	执行所有 ActionChains 中存储的行为，可以理解成是对整个操作的提交动作

selenium 键盘的使用

模拟键盘按键	说明
send_keys(Keys.BACK_SPACE)	删除键（BackSpace
send_keys(Keys.SPACE)	空格键(Space)
send_keys(Keys.TAB)	制表键(Tab)
send_keys(Keys.ESCAPE)	回退键（Esc）
send_keys(Keys.ENTER)	回车键（Enter）

组合键的使用

模拟键盘按键	说明
send_keys(Keys.CONTROL,‘a’)	全选（Ctrl+A）类推x,c,v
send_keys(Keys.F1…Fn)	键盘 F1…Fn

selenium 断言信息

属性	说明
title	用于获得当前页面的标题
current_url	用户获得当前页面的URL
text	获取搜索条目的文本信息

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

python爬虫-selenium 的基本使用和常用API

python爬虫-selenium 的基本使用和常用API

安装

使用

解释

重新使用已打开的浏览器

解释

拖动元素移动

selenium 基础-定位

selenium Webdriver模块的使用

selenium 鼠标的使用

selenium 键盘的使用

组合键的使用

selenium 断言信息

推荐阅读更多精彩内容