python爬虫-selenium 的基本使用和常用API
注意:
很多网站对selenium的webdriver做了反爬,所以推荐使用pyppeteer(更强大些)。
但是pyppeteer不如selenium稳定,bug少,语法清晰。
安装
pip3 install selenium
注意需要保持chrome和chromedriver 的版本一致
使用
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--no-sandbox') # 这个配置很重要
chrome_options.add_argument('blink-settings=imagesEnabled=false')
chrome_options.add_argument('user-agent={}'.format(getRandomUserAgent()))
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chrome_options.add_argument("--test-type")
# 使用网页手机模式
mobileEmulation = {'deviceName': 'iPhone 6/7/8'}
chrome_options.add_experimental_option('mobileEmulation', mobileEmulation)
# 指定chromedriver路径
driver = webdriver.Chrome(chrome_options=chrome_options, executable_path='/usr/local/bin/chromedriver')
# 发起请求
driver.get(url=redictUrl)
解释
from selenium import webdriver
driver = webdriver.Chrome()
运行上面的脚本,它将启动浏览器并退出。因为没有调用quit()
方法,所以浏览器会话仍会存在。但是代码里创建的driver
对象已经不在了,理论上不能用脚本控制这个浏览器。它将变成一个僵尸浏览器,只能手动杀死它。
通过webdriver启动一个浏览器会话大概会有这样三个阶段:
- 启动的浏览器驱动代理(hromedriver,Firefox的驱动程序,等等);
- 创建一个命令执行器。用来向代理发送操作命令;
- 使用代理建立一个新的浏览器会话,该代理将与浏览器进行通信。用
sessionId
来标识会话。
因此只要拿到阶段2中的执行器和阶段3中的sessionID
就能恢复上次的会话。这两个有api可以直接获取:
from selenium import webdriver
driver = webdriver.Chrome()
executor_url = driver.command_executor._url
session_id = driver.session_id
print(session_id)
print(executor_url)
driver.get("http://www.spiderpy.cn/")
一切就绪,下面就开始实现复用之前会话的功能,
from selenium import webdriver
driver = webdriver.Chrome()
executor_url = driver.command_executor._url
session_id = driver.session_id
driver.get("http://www.spiderpy.cn/")
print(session_id)
print(executor_url)
driver2 = webdriver.Remote(command_executor=executor_url, desired_capabilities={})
driver2.session_id = session_id
print(driver2.current_url)
重新使用已打开的浏览器
# 保留URL和session_id
executor_url = driver.command_executor._url
session_id = driver.session_id
# 清除driver
del driver
# 移除之前driver
driver2 = ReuseChrome(command_executor=executor_url, session_id=session_id)
# 重新发起请求
driver2.get(redictUrl)
解释
可能是因为版本原因吧,反正在我环境中运行时,效果是实现了,能够重新连接到上一个会话,但是却打开了一个新的空白会话。看了下Remote
类的源码,发现是因为每次实例化都会调用start_session
这个方法新建一个会话。所以解决方法就是继承并重写这个类。自定义一个ReuseChrome
这个类重写start_session
方法使它不再新建session
,使用传入的session_id
:
from selenium.webdriver import Remote
from selenium.webdriver.chrome import options
from selenium.common.exceptions import InvalidArgumentException
class ReuseChrome(Remote):
def __init__(self, command_executor, session_id):
self.r_session_id = session_id
Remote.__init__(self, command_executor=command_executor, desired_capabilities={})
def start_session(self, capabilities, browser_profile=None):
"""
重写start_session方法
"""
if not isinstance(capabilities, dict):
raise InvalidArgumentException("Capabilities must be a dictionary")
if browser_profile:
if "moz:firefoxOptions" in capabilities:
capabilities["moz:firefoxOptions"]["profile"] = browser_profile.encoded
else:
capabilities.update({'firefox_profile': browser_profile.encoded})
self.capabilities = options.Options().to_capabilities()
self.session_id = self.r_session_id
self.w3c = False
拖动元素移动
"""
:param driver:driver
:param source:要拖拽的html元素
:param targetOffsetX: 拖拽目标x轴距离
:return: None
"""
def simulateDragX(driver,source, targetOffsetX):
action_chains = webdriver.ActionChains(driver)
action_chains.click_and_hold(source)
action_chains.move_by_offset(targetOffsetX-targetOffsetX/3, 0)
action_chains.release()
action_chains.perform()
driver.quit()
selenium 基础-定位
-
Selenium提供了8种定位方式
- id
- name
- class name
- tag name
- link text
- partial link text
- xpath
- css selector
-
定位元素的使用
定位一个元素 定位多个元素 含义 find_element_by_id find_elements_by_id 通过元素id定位 find_element_by_name find_elements_by_name 通过元素name定位 find_element_by_class_name find_elements_by_class_name 通过classname进行定位 find_element_by_tag_name find_elements_by_tag_name 通过标签定位 find_element_by_link_text find_elements_by_link_tex 通过完整超链接定位 find_element_by_partial_link_text find_elements_by_partial_link_text 通过部分链接定位 find_elements_by_css_selector find_elements_by_css_selector 通过css选择器进行定位 find_element_by_xpath find_elements_by_xpath 通过xpath表达式定位 -
定位下拉标签元素
import Select Select(driver.find_element_by_xpath("//select[@id='9560af43bfc949c4826d329c352e4eb6_class']")).select_by_index(4) #定位公共互联网环境
-
在iframe框架之间切换
#切换到指定的iframe框架 driver.switch_to.frame("mainFrame") #切换iframe框架 driver.switch_to.default_content() #切换到主框架
selenium Webdriver模块的使用
方法 | 说明 |
---|---|
set_window_size() | 设置浏览器的大小 |
back() | 控制浏览器后退 |
forward() | 控制浏览器前进 |
refresh() | 刷新当前页面 |
clear() | 清除文本 |
send_keys (value) | 模拟按键输入 |
click() | 单击元素 |
submit() | 用于提交表单 |
get_attribute(name) | 获取元素属性值 |
is_displayed() | 设置该元素是否用户可见 |
size | 返回元素的尺寸 |
text | 获取元素的文本 |
selenium 鼠标的使用
方法 | 说明 |
---|---|
ActionChains(driver) | 构造ActionChains对象 |
context_click() | 执行鼠标悬停操作 |
move_to_element(above) | 右击 |
double_click() | 双击 |
drag_and_drop() | 拖动 |
move_to_element(above) | 执行鼠标悬停操作 |
context_click() | 用于模拟鼠标右键操作, 在调用时需要指定元素定位 |
perform() | 执行所有 ActionChains 中存储的行为,可以理解成是对整个操作的提交动作 |
selenium 键盘的使用
模拟键盘按键 | 说明 |
---|---|
send_keys(Keys.BACK_SPACE) | 删除键(BackSpace |
send_keys(Keys.SPACE) | 空格键(Space) |
send_keys(Keys.TAB) | 制表键(Tab) |
send_keys(Keys.ESCAPE) | 回退键(Esc) |
send_keys(Keys.ENTER) | 回车键(Enter) |
组合键的使用
模拟键盘按键 | 说明 |
---|---|
send_keys(Keys.CONTROL,‘a’) | 全选(Ctrl+A)类推x,c,v |
send_keys(Keys.F1…Fn) | 键盘 F1…Fn |
selenium 断言信息
属性 | 说明 |
---|---|
title | 用于获得当前页面的标题 |
current_url | 用户获得当前页面的URL |
text | 获取搜索条目的文本信息 |