做个简陋的图片下载器

今天,用Python来开发一个图片搜索下载器。

之所以简陋,是因为获取不到最高清的原图,本篇仅仅提供思路。

由于网站使用JavaScript和ajax动态加载技术,还有验证码机制,对小白来说想要获得原图实在太难啦。
所以只能能获取缩略图,主要提供基本思路。

选择的是pixabay,挺有名的高品质图片网站,免费的, 相信许多人对此并不陌生。


pixabay.png

一、目标:

1、实现输入关键词,自动搜索到图片
2、获取图片链接
3、批量下载图片,命名保存入文件
4、代码优化,不中段、无重复,并且可指定下载范围

二、步骤:

1、首先观察分析
点击进入官网,好家伙和百度一样的瀑布流模式,查看源码发现关键字‘ajax',隐隐感觉会比较难办。

果不其然,要点击页面才能看到缩略图,还要点击图片才能下载。审查元素里面并不是原图的链接,源码中也没有,按照一般思路并不能获取原图(可能要用到PhantomJS、Selenium等)。

可是我还没有学到PhantonJ和Selenium呀,所以先拿缩略图试水啦(不过比官网最小的那一个下载模式要大一些)。分析/2013/10/16/14/45/是时间,flower为关键词,结合源码分析196360应该是每一个图的特殊代号。


图1.png

图2.png

接着就是用正则匹配出时间、特殊代号,再构造出如上的地址就是我们要找的链接了!(当初还以为是原图,实在是。。。)

2、具体步骤
1)匹配图片数量的正则

  pattern=re.compile('<input name="pagi.*?>.*?/ (.*?) .*?', re.S)

2)匹配时间、代号正则

pattern=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)
pattern1=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)
pattern2=re.compile('data-lazy-srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)

刚开始时用的是最先这个,结果只能返回16个图。
百思不得解,还去看了下别的网站,准备放弃之际,查看源码发现,不得了正好与这带下划线链接的16个项吻合,而后面的图片项发现皆带有'data-lazy'。
也就是说,前16和后16根本采用不是一个模式啊!
这可能也是为了反恶意爬虫吧,总之厉害了我的哥_
后面就简单,分别匹配正则并讨论。

3)创建目录,保存入文件和之间如出一辙,不再赘述。
4)下载保存一页图片时detailURL分情况讨论。i<=16和 i>16的情况。

5)接下来对多页进行循环,发现第1页和第2页之后的url又不相同啦,具体分析之后,构造如下

url2='https://pixabay.com/zh/photos/orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)
url2='http://pixabay.com/zh/photos/?image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'

6)最后优化环节:
检查链接错误减少下载中断
去掉图片下载重复(即每一次重新开始就不用重新下载之前的内容)
设计交互(raw_input)、优化注释
最后还是觉得太low又改了一下,可以选择下载页数(下多少页呀),及起始页数(从哪开始)。经验发现一页100张。这回方便了,不用每次从头开始了。

嘿嘿,这就是一个下载器的基本思路啦~

三、代码

虽然很简陋,(为了方便查询)记录整个过程代码如下,不喜勿喷哇~:

#  -*-coding:utf-8 -*-
__author__='WYY'
__date__='2017.03.17'

#爬虫实战小项目:pixabay 图片下载器
import re
import os
import requests
import urllib2
import time

class Spider():
    #初始化参数
    def __init__(self):
        self.keyword=raw_input(u'欢迎使用pixabay 图片搜索下载神器\n请输入搜索关键词(英文):')
        self.siteURL='http://pixabay.com/zh/photos/?    image_type=&cat=&min_width=&min_height=&q='+str(self.keyword)+'&order=popular'

    #获取详情页源码
    def getSource(self,url):
        result=requests.get(url).text.encode('utf-8')
        return result

    #获取图片页数
    def getPageNum(self):
        result=self.getSource(self.siteURL)
        pattern=re.compile('<input name="pagi.*?>.*?/ (.*?) .*?', re.S)
        items=re.search(pattern,result)
        if items.group(1)>=1:
            print u'\n这个主题共有图片', items.group(1), u'页'
        else:
            print u'\n哎呀,木有您想要的图呢。。。'
        return items.group(1)

    #匹配正则1
    def getItem1(self,url):
        result=self.getSource(url)
        pattern1=re.compile('<img srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)
        items=re.findall(pattern1, result)
        return items

    #匹配正则2
    def getItem2(self,url):
        result=self.getSource(url)
        pattern2=re.compile('data-lazy-srcset="https://cdn.pixabay.com/photo(.*?)-(.*?)__340.*?', re.S)
        items=re.findall(pattern2,result)
        return items

    #保存图片入文件
    def saveImage(self,detailURL,name):
        try:
            picture=urllib2.urlopen(detailURL)
            fileName=name+'.jpg'
            string='F:\Desktop\code\pixabay\%s\%s' % (self.path, fileName)
            E=os.path.exists(string)
            if not E:
                f=open(string, 'wb')
                f.write(picture.read())
                f.close()
            else:
                print u'图片已经存在,跳过!'
                return False
        except (urllib2.HTTPError,urllib2.URLError), e:
            print e.reason
            return None


    #创建目录
    def makeDir(self, path):
        self.path=path.strip()
        E=os.path.exists(os.path.join('F:\Desktop\code\pixabay', self.path))
        if not E:
            # 创建新目录,若想将内容保存至别的路径(非系统默认),需要更环境变量
            # 更改环境变量用os.chdir()
            os.makedirs(os.path.join('F:\Desktop\code\pixabay',self.path))
            os.chdir(os.path.join('F:\Desktop\code\pixabay',self.path))
            print u'成功创建名为', self.path, u'的文件夹'
            return self.path
        else:
            print u'名为', self.path, u'的文件夹已经存在...'
            return False

    #对一页的操作
    def saveOnePage(self,url):
        i=1
        items=self.getItem1(url)
        for item in items:
            detailURL='https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+ '_960_720.jpg'
            print u'\n', u'正在下载并保存图片', i, detailURL
            self.saveImage(detailURL, name='Num'+str(i))
            time.sleep(0.5)
            i+=1
        if i>16:
            items=self.getItem2(url)
            i=17
            for item in items:
                detailURL = 'https://cdn.pixabay.com/photo'+str(item[0])+'-'+str(item[1])+'_960_720.jpg'
                print u'\n', u'正在下载并保存图片', i, detailURL
                self.saveImage(detailURL,name='Num'+str(i))
                time.sleep(0.5)
                i += 1

    #对多页图片的操作
    def saveMorePage(self):
        numbers=self.getPageNum()
        Num=int(raw_input(u'一页共100张图,\n请输入要下载的页数(默认页数大于等于1):'))
        Start=int(raw_input(u'请输入下载起始页数:'))
        if numbers>=1:
            for page in range(Start,Start+Num):
                if page==1:
                    print u'\n',u'正在获取第1页的内容......'
                    self.url1=self.siteURL
                    self.makeDir(path=self.keyword + 'page' + str(page))
                    self.saveOnePage(url=self.url1)
                else:
                    print u'\n',u'正在获取第',page, u'页的内容'
                    self.url2='https://pixabay.com/zh/photos/?orientation=&image_type=&cat=&colors=&q='+str(self.keyword)+'&order=popular&pagi='+str(page)
                    self.makeDir(path=self.keyword + 'page' + str(page))
                    self.saveOnePage(url=self.url2)

        else:
            return False

        print  u'\n',u'圆满成功!!!'

spider=Spider()
spider.saveMorePage()

四、结果

第一页


图3.png

最后一页


图4.png

实现去重


图5.png
图6.png

就是这样啦,成功实现自动搜索和批量下载,硬伤就是—不是原图啊(虽然如果要求不高的话,勉强充个数还是可以的)
不说了,我去学selenium+PhantomJS了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,784评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,745评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,702评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,229评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,245评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,376评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,798评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,471评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,655评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,485评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,535评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,235评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,793评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,863评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,096评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,654评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,233评论 2 341

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,331评论 25 707
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 11,991评论 4 60
  • 2016-12-30亿康君易康空间 英国卫报(Guardian)2016年12月8日报道《糖尿病新疗法将不再需要注...
    亿康君阅读 457评论 0 0
  • 梦网 街灯下 飞虫莽撞乱飞 门前 大黄狗伸舌头 不知疲累 旧屋里 昏暗萧条 墙角 安静地躺着 白天刚砍下的木柴 夜...
    绿妆阅读 229评论 1 0
  • 刚来美国的时候导师正好在国内开会,所以我是来了半个月才当面见到她。记得她当时正儿八经地和我面对面坐下,探讨了...
    星移阅读 636评论 0 9