selenium是浏览器自动化测试框架。现在的很多网页当你获取到源码的时候,发现都是js文件,因此必须模拟人使用浏览器的操作,等js文件加载完后才能爬取到数据。selenium就是python的一个库,就是用来模拟人操作浏览器的。这里推荐用谷歌Chrome浏览器,PhantomJS已经不维护了,被弃用了。
详情请参考官网:https://selenium-python.readthedocs.io/
首先安装selenium
pip install selenium
然后下载ChromeDriver,谷歌浏览器的驱动。浏览器型号和驱动必须匹配,要不然会出错的。
谷歌浏览器驱动下载:https://npm.taobao.org/mirrors/chromedriver/
下载完你浏览器对应的驱动后,将ChromeDriver放到你python的Scripts目录下,在此目录下,当初始化的时候不需要传入路径。或者你在初始化的时候可以传入路径
注意:一般进行一个操作需要让浏览器sleep 1~5秒,等待js加载。程序员何苦彼此为难。
初始化:
#导入库
from selenium import webdriver
import time
#初始化,驱动在python的Scripts目录下,不需要传入路径
browser = webdriver.Chrome()
也可以传入路径初始化
path = ' 你自己驱动的路径'
browser = webdriver.Chrome(executable_path = path)
谷歌特提供了无头浏览器模式,就是类似于PhantomJS的
#创建对象
chrome_options = ChromeOptions()
#headless就是谷歌的无头模式
chrome_options.add_argument('--headless')
#这里是禁用了GPU,谷歌浏览器GPU加速在虚拟机上可能导致黑屏
chrome_options.add_argument('--disable-gpu')
#如果需要使用代理
proxy =' 你的代理IP'
chrome_options.add_argument('--proxy-server = http://' + proxy)
#传入最终的参数就行了
browser = webdriver.Chrome(options = chrome_options )
#虽然无头,但是你可以抓拍到图片,看是否启动成功
#进入后将当前网页拍照保存
browser.save_screenshot('tupian.png')
#或者
# 截取当前窗口,并指定截图图片的保存位置
driver.get_screenshot_as_file("D:\\tupian.jpg")
当前页面URL
# 打印当前页面URL
now_url = driver.current_url
print(now_url)
访问网页
url = 'http://www.baidu.com'
browser.get(url)
time.sleep(2)
得到网页源码
print(browser.page_source)
下面的方法都可以用来获取指定的节点进行操作
注意:有的是element 有的是elements
#一、十八种定位方法
1.id定位:find_element_by_id(id_)
2.name定位:find_element_by_name(name)
3.class定位:find_element_by_class_name( name)
4.tag定位:find_element_by_tag_name(name)
5.link定位:find_element_by_link_text(link_text)
6.partial_link定位find_element_by_partial_link_text(link_text)
7.xpath定位:find_element_by_xpath( xpath)
8.css定位:find_element_by_css_selector( css_selector)
#这八种是复数形式,返回的列表形式
9.id复数定位find_elements_by_id(id_)
10.name复数定位find_elements_by_name(name)
11.class复数定位find_elements_by_class_name( name)
12.tag复数定位find_elements_by_tag_name(self, name)
13.link复数定位find_elements_by_link_text(text)
14.partial_link复数定位find_elements_by_partial_link_text(link_text)
15.xpath复数定位find_elements_by_xpath(xpath)
16.css复数定位find_elements_by_css_selector(css_selector
这两种就是快失传了的
find_element( by='id', value=None)
find_elements(by='id', value=None)
使用示例:
my_input = find_element_by_id('kw')
my_input = find_elements_by_css_seletor('#qq')
my_input =find_elements_by_xpath('//div[@class = "q"]/input')
操作输入框和按钮:
send_keys():给输入框输入文字
clear():清空
click():点击按钮
submit()方法用于提交表单。 例如, 在搜索框输入关键字之后的“回车” 操作, 就可以通过该方法模拟。
使用示例:
#初始化在前边,这里不再写
#这里模拟百度输入框搜索中国
url = 'http://www.baidu.com'
browser.get(url)
time.sleep(2)
first_input = browser.find_element_by_id('kw')
#先清空,再输入
first_input.clear()
first_input.semd_keys('中国')
#取第一个
button = browser.find_elements_by_class_name('s_tbn')[0]
#点击搜索
button.click()
time.sleep(2)
#退出,close是关闭单个窗口
browser.quit()
执行JS:
browser.execute_script('alert(" 真香")')
#滑动滚动条
js=' document.body.scrollTop = 10000'
browser.execute_script(js)
获取节点的一切
top = browser.find_element_by_id('top')
#获取top节点的class
top.get_attribute('class')
#获取top节点的文本
top.text
#获取节点id
top.id
#获取节点位置
top.location
#获取节点标签名
top.tag_name
#获取节点大小
top.size
切换Frame
#切换到子franme
browser.switch_to.frame('iframeResult')
#切换回父级
browser.switch_to.parent_frame()
延时等待
#隐式等待
browser.implicitly_wait(10)
implicitly_wait() 默认参数的单位为秒,它并不影响脚本的执行速度。
其次,它并不针对页面上的某一元素进行等待。
当脚本执行到某个元素定位时,如果元素可以定位,则继续执行;
如果元素定位不到,则它将以轮询的方式不断地判断元素是否被定位到。
假设在第6秒定位到了元素则继续执行,若直到超出设置时长(10秒)还没有定位到元素,则抛出异常。
#显示等待
#需要导入文件
from selenium.webdriver.commom.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
#这里是设置最长等待时间,如果超过这个时间抛出异常
wait = WebDriverWait(browser,10)
#设置等待,一直等到id = 'p'元素加载出来,这里的参数是元组
input = wait.until(EC.presence_of_element_located((By.ID,'q')))
#除了By.ID 还可以选择一下参数:
#CLASS_NAME
#ID
#CSS_SELECTOR
#LINK_TEXT
#NAME
#PARTIAL_LINK_TEXT
#TAG_NAME
#XPATH
#一直等待CSS选择器选中按钮成为可点击的出来
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'.btn-search')))
前进和后退
browser.get(url_1)
browser.get(url_2)
browser.get(url_3)
#后退到第二个网页
browser.back()
#前进到第三个网页
browser.forward()
对于cookie的操作
#添加cookie
browser.add_cookie({'name':'mgh','value':'haha'})
#得到cookie
browser.get_cookies()
# 删除特定(部分)的cookie
delete_cookie(name)
#删除cookies
browser.delete_all_cookies()
对于选项卡的操作
current_window_handle 获得当前窗口
window_handles 获得所有窗口
browser.get(url_1)
#打开一个选项卡
broswer.execute_script('window.open()')
#将句柄转到打开选项卡
browser.switch_to_window(browser.window_handles[1])
#请求
browser.get(url_2)
time.sleep(1)
#又转回第一个选项卡
browser.switch_to_window(browser.window_handles[0])
#请求
browser.get(url_3)
查找当前元素的兄弟级元素
#..代表当前元素的父节点
driver.find_element_by_xpath("//div[@id='id']/../div[1]").text
异常处理
try:
pass
except TimeoutException:
pass
except NoSuchElementException:
pass
finally:
pass
刷新
browser.refresh()
浏览器窗口
browser.maximize_window() #将浏览器最大化显示
browser.set_window_size(480, 800)#设置浏览器窗口宽480,高800
模拟键盘操作
from selenium.webdriver.common.keys import Keys
#键盘tab键
driver.find_element_by_id("user_name").send_keys(Keys.TAB)
#键盘enter键
driver.find_element_by_id("user_pwd").send_keys(Keys.ENTER)
#键盘Ctrl +A 全选
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a')
#键盘Ctrl +X 剪切
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')
# ctrl+v 粘贴内容到输入框
driver.find_element_by_id("kw").send_keys(Keys.CONTROL, 'v')
模拟鼠标操作
ActionChains 类
perform(): 执行所有 ActionChains 中存储的行为;
context_click() 右击
double_click() 双击
drag_and_drop() 拖动
move_to_element(): 鼠标悬停。
#示例:
from selenium.webdriver.common.action_chains import ActionChains
chain = ActionChains(driver)
implement =driver.find_element_by_xpath("/html/body/div/")
chain.context_click(implement).perform()
#定位到要双击的元素
qqq =driver.find_element_by_xpath("xxx")
#对定位到的元素执行鼠标双击操作
ActionChains(driver).double_click(qqq).perform()
#定位元素的原位置
element = driver.find_element_by_name("source")
#定位元素要移动到的目标位置
target = driver.find_element_by_name("target")
#执行元素的移动操作
ActionChains(driver).drag_and_drop(element, target).perform()
#在父亲元件下找到link 为Action 的子元素
menu = dr.find_element_by_id('dropdown1').find_element_by_link_text('Action')
#鼠标定位到子元素上
webdriver.ActionChains(dr).move_to_element(menu).perform()
上传文件
#就是把send-keys()的参数换成文件路径
#定位上传按钮,添加本地文件
path = r'D:\\selenium_use_case\upload_file.txt'
driver.find_element_by_name("file").send_keys(path)
下拉框
需要两次定位,首先定位下拉框,然后定位选中的元素
WebDriver提供了Select类来处理下拉框。 如百度搜索设置的下拉框
from selenium.webdriver.support.select import Select
driver.get('http://www.baidu.com')
# 鼠标悬停至“设置”链接
driver.find_element_by_link_text('设置').click()
sleep(1)
# 打开搜索设置
driver.find_element_by_link_text("搜索设置").click()
sleep(2)
# 搜索结果显示条数
sel = driver.find_element_by_xpath("//select[@id='nr']")
Select(sel).select_by_value('50') # 显示50条
弹窗
#接受警告信息
alert = driver.switch_to_alert()
alert.accept()
#得到文本信息打印
alert = driver.switch_to_alert()
print alert.text()
#取消对话框(如果有的话)
alert = driver.switch_to_alert()
alert.dismiss()
#输入值
alert = driver.switch_to_alert()
alert.send_keys(“xxx”)
出现的一些问题记录:
selenium 获取不了标签文本的解决方法:
首先查看标签是否被隐藏:
browser.find_element_by_xx('//div[@class= "mm"]').is_displayed()
如果输出为false,则说明标签的元素被隐藏了,需要采用另外 一种方法获取到文本标签:
# 用innerHTML 会返回元素的内部 HTML, 包含所有的HTML标签。就是找到的元素包含的所有内容。
driver.find_element_by_xpath().get_attribute('innerHTML ')
#用textContent 只会得到文本内容,而不会包含 HTML 标签。
driver.find_element_by_xpath().get_attribute('textContent ')
显示元素是不可点击的错误,即你的click()函数不起作用
使用WebDriver点击界面上Button元素时,如果当前Button元素被界面上其他元素遮住了,
或没出现在界面中(比如Button在页面底部,但是屏幕只能显示页面上半部分),
使用默认的WebElement.Click()可能会触发不了Click事件。
需加上browser.execute_script(‘arguments[0].click()’, webElement);
element = browser.find_element_by_xpath('//div[@class="gcxxfy"]//div[@class="mmggxlh"]/a[last()]')
browser.execute_script("arguments[0].click();", element)