- 啊哈,又见面了,我把学校的项目做完了,然后趁自己还没生爬虫,就做了这个
- 老样子,还是看的知乎大神
- 然后这个做的是运用pexels网站,pexels是一个免费搜索图片的网站,然后就是运用它搜索后的url爬图片,好像中文不太好用,我搜的bikini →_→
- 好了,话不多说上代码
'''
根据知乎大神的分享
自动下载图片
代码作者:高佳乐
网站:https://www.pexels.com/
'''
##导入库
import requests ##导入requests库,发送请求用的
from lxml import etree ##导入lxml库以便xpath解析
import re ##导入re,正则表达式
import os ##导入os创建目录
import time ##爬虫就要有礼貌
import random ##导入随机库,伪装,减少被反
##定义类
class images():
def __init__(self): ##定义结构函数,把原网址放入
self.url='https://www.pexels.com/search/'
##获取html
def gethtml(self,url): ##定义一个获取html响应,发送请求的方法
html = requests.get(url) ##html是发送请求后返回的响应
html_text = html.content ##html_text是发送后返回的内容,如果直接text下边的xpath就会出错,直接在这content和解析utf-8
html_text = html_text.decode('utf-8') ##然后把返回的内容用utf8解析
return html_text ##返回用utf-8解析后的代码
##拼接url后获取
def geturl(self,key): ##这个方法是用于把你输入的关键字拼接成url然后返回
url = self.url+key+'/' ##把key 到网址后边拼接
return url ##返回拼接后的搜索网页
##用xpath获取image并保存
def image(self,url): ##此方法是保存图片了
html = self.gethtml(url) ##html是使它获取形参的html
html_text= etree.HTML(html) ##用xpath解析以上获得的url
image=html_text.xpath(".//a[@class='js-photo-link']/img[@class='photo-item__img']/@src")##然后就是获取自己想要的了,对就是图片的url,这个xpath的意思是,在当前页面所有class是js-photo-link的a标签里的class是photo-item_img的img标签里的src属性
i=0 ##就是低端代码用的计数器=_=
for img in image: ##在上边获取到的src中遍历
img_url = re.compile('(.*?)\?auto=.*?',re.S) ##然后制定一个正则表达式,因为上边获取的是缩略图的url要想获取原图就要用正则在里边抓取,这个就是抓取前边到?前的url
img_url = re.search(img_url, img) ##然后找到使用上边定义的正则在img的url里抓取原图url,search是只获取到第一个然后返回索引啥的
url = img_url.group(1) ##然后url里边存上边正则时候的第一个匹配到的字符
img_name = re.compile('.*?://images.*?/photos/.*?/(.*?)\?.*?',re.S)##然后每个图片有jpg或者jpeg格式,然后自己获取他的最后的名字就是在jpg和JPEG的名字字符
img_name = re.search(img_name, img) ##然后用上边的正则在img获取 到他的名字。
name = img_name.group(1) ##然后name存上边获取到的第一个
panduan = os.path.exists(name) ##然后设置一个判断重复的,这里的os是指判断当前文件夹里有没有这个文件,也就是图片,有就返回true没有就返回false
if panduan: ##如果真就是存在
print('老板,这个图片已经存在了已存在了,还要他干啥,有空间啊?')
else: ##反之就是假就存图片,字啊变的这个user_agents是有十个header以便减小被反
user_agents = [
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/602.2.14 (KHTML, like Gecko) Version/10.0.1 Safari/602.2.14',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36',
'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'
]
index = random.randint(0,9) ##运用随机数随机获取上边列表里的索引
user_agent = user_agents[index] ##然后get是后的header是在上边列表里的各个元素随机选
headers = {'User_agent':user_agent} ##然后header是一个字典,因为getheader是字典
html_img = requests.get(url,headers)##然后html_img就是获取到url,(url是上边获取到的图片的原图地址),并且请求头是上边的集合里边的
fil = open(name,'wb') ##然后在当前文件夹里创建一个文件名字是上边获取到的jpg或者jpeg格式,然后打开形式是wb
fil.write(html_img.content) ##然后写入是以二进制写入
fil.close() ##然后随手关闭文件,随手关文件才是好孩子
print('报告老板,第%d个图片保存完毕'%i)##然后报告完成
i+=1 ##计数器+1不然就没意义=_=
print('老板我这页爬了%d个图片,我太厉害了。'%i)##然后循环保存图片结束后,报告一页的全部图片
##创建目录
def dir(self,name): ##这个方法是创建目录
dir = '第'+name+'个文件夹' ##dir是提前弄好目录名字,这个name是实参传入时的参数
panduan = os.path.exists(dir) ##然后判断当前文件夹里有没有上边的文件夹
if panduan: ##如果有就是真,就报告有了
print('老板,这个文件夹已经存在了已存在了,直接在里边写了')
else: ##反之就是没有
os.makedirs(dir) ##就创建这个文件夹
print('报告老板,创建成功') ##报告创建成功
return dir ##返回创建好的文件夹
##输入页数的方法
def all(self,key,star,end): ##这个方法是分页处理,输入关键字,开始和结束页数
if star == 1: ##如果用户输入的开始页是1,
chil = os.getcwd() ##chil是当前的路径,
os.chdir(chil + '\pexels') ##我这是手动创建了一个pexels的目录,你也可以自己创建,然后这行代码是切入到pexels目录里边
key = self.geturl(key) ##然后把上边的关键字参数用上边的拼接url方法拼接搜获关键字后的url
dir = self.dir(str(star)) ##然后dir是在当前目录创建文件夹,名字是输入时的页数
os.chdir(dir) ##然后上边创建后进入刚刚创建的文件夹里
self.image(key) ##然后用self.image获取上边拼接好的关键字的url,image就是上边的保存图片的方法
os.chdir('..') ##然后返回上一层也就是我手动创建的pexels以便分页创建文件夹
star+=1 ##上边的是第一页的图片,然后改第二页了,所以让第一页+1
for i in range(star,end+1): ##然后循环,从第二页和尾页之间
key =key+'?page='+str(star) ##然后这里的关键字就是航变的关键字+?page=页数,页数就是第几页就是i,star也行因为我star+1了
dir = self.dir(str(star)) ##然后dir是创建文件夹,名字就是页数
os.chdir(dir) ##然后切入刚创建的目录
time.sleep(3) ##爬虫要有礼貌,就要这样等待三秒,好吧我怕被反
self.image(key) ##然后就获取并保存上边的拼接关键字url
os.chdir('..') ##然后返回上一级的文件夹就是pexels,以便下一个文件夹,
star+=1 ##然后star+1 就是页数要一页一页的+,也可以取消这个上边直接用i
if star == end+1: ##然后如果+1的页数=结尾的页数+1就停止函数
return
else: ##反之,就是开始不是输入的是第一页比如输入了,2,4就是从第二页开始了
chil = os.getcwd() ##也是获取当前路径
os.chdir(chil + '\pexels') ##然后在进入当前路路径的pexels,我是手动,你也可以自动创建,就是判断当前有没有这个文件夹,有就跳过,没有就创建
for i in range(star,end+1): ##然后就从输入的第几页开始
key = self.geturl(key)+'?page='+str(star) ##这就直接拼接搜索后的url的详情页数
dir = self.dir(str(star)) ##然后创建当前页数的目录
os.chdir(dir) ##然后切入新建目录
time.sleep(3) ##咳咳咳,爬虫要有礼貌
self.image(key) ##然后就开始爬图片了,爬的url是上边拼接好的key
os.chdir('..') ##在当前也就是新的目录里存完图片后就退出当前目录,返回pexels以便下一个文件夹
star+=1 ##然后star+1就是页数+1
if star == end+1: ##如果输入的页数慢慢的长到了尾页数就停止函数
return
zhangsan = images()
zhangsan.all(key=input('老板,你要搜索那个图片'),star=int(input('老板,你要从第几页搜')),end=int(input('老板,给个尾页不然很累的,还被反')))
- 以上的就是运用我所学的,菜菜的自动下载图片的小爬虫
- 好了,上几张我爬到的图片
- 好了图片我也上传了= =
- 希望这些可以帮助你们。砸门下次见
Good bye