scrapy+selenium爬取UC头条网站

Scrapy是Python优秀的爬虫框架,selenium是非常好用的自动化WEB测试工具,两者结合可以非常容易对动态网页进行爬虫。
本文的需求是抓取UC头条各个板块的内容。UC头条(https://news.uc.cn/ )网站没有提供搜索入口,只能每个板块的首页向下滚动鼠标加载更多。要对这样的网站进行检索,抓取其内容,采用一般的scrapy请求方式,每次只能获取最新的10条数据,分析其JS请求,发现参数过于复杂,没有规律。如果想获取更多数据,则需要采用模拟浏览器的方法,这时候selenium就派上用场了。

image

1,定义spider

模拟从百度搜索进入,这个步骤可以省略,主要为了跳到parse函数

class UCTouTiaoSpider(VideoBaseSpider):
    name = "uctoutiao_spider"
    df_keys = ['人物', '百科', '乌镇']
 
 
    def __init__(self, scrapy_task_id=None, *args, **kwargs):        
        self.url_src = "http://www.baidu.com"
 
    def start_requests(self):
 
        requests = []
        request = scrapy.Request("http://www.baidu.com", callback=self.parse)
        requests.append(request)       
        return requests

2,parse函数

def parse(self, response):
    self.log(response.url)
 
 
    urls = ["https://news.uc.cn/",
            "https://news.uc.cn/c_redian/",
            # "https://news.uc.cn/c_shipin/",
            # "https://news.uc.cn/c_gaoxiao/",
            "https://news.uc.cn/c_shehui/",
            "https://news.uc.cn/c_yule/",
            "https://news.uc.cn/c_keji/",
            "https://news.uc.cn/c_tiyu/",
            "https://news.uc.cn/c_qiche/",
            "https://news.uc.cn/c_caijing/",
            "https://news.uc.cn/c_junshi/",
            "https://news.uc.cn/c_tansuo/",
            "https://news.uc.cn/c_lishi/",
            "https://news.uc.cn/c_youxi/",
            "https://news.uc.cn/c_lvyou/",
            "https://news.uc.cn/news/",
            "https://news.uc.cn/c_shishang/",
            "https://news.uc.cn/c_jiankang/",
            "https://news.uc.cn/c_guoji/",
            "https://news.uc.cn/c_yuer/",
            "https://news.uc.cn/c_meishi/"]
      
    # 启动浏览器,这里用的火狐,如果在linux环境下可以用PhantomJS,稳定性稍微差点,有内存泄露的风险。
    driver = webdriver.Firefox()
    for url in urls:
        try:
            print(url)
            driver.get(url)
            #模拟鼠标滚到底部(加载100条数据)
            for _ in range(10):
                driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
                driver.implicitly_wait(10)  # 隐性等待,最长10秒
 
            # print driver.page_source
            soup = bs(driver.page_source, 'lxml')
            articles = soup.find_all(href=re.compile("/a_\w+?/"), text=re.compile(".+"))
            for article in articles:
                for key in self.df_keys:
                    item = VideoItem()  #自定义的Item
                    item['title'] = article.text
                    item['href'] = article['href']                    
                    self.log(item)
                    yield item
 
        except Exception as e:
            print e
            if driver == None:
                driver = webdriver.Firefox()
 
    if driver != None:
        driver.quit()

真正的实现部分比较简单,几句代码就搞定了。

附:

selenium使用实例

1,切换焦点至新窗口

在页面上点击一个button, 然后打开了一个新的window, 将当前IWebDriver的focus切换到新window,使用IWebDriver.SwitchTo().Window(string windowName)。

例如, 我点击按钮以后弹出一个名字叫做"Content Display"的window, 要切换焦点到新窗口的方法是, 首先,获得新window的window name, 大家不要误以为page tile就是window name 哦, 如果你使用driver.SwitchTo().Window("Content Display")是找不到window name 叫做"Content Display"的窗口的, 其实Window Name 是一长串数字,类似“59790103-4e06-4433-97a9-b6e519a84fd0”。

要正确切换到"Content Display"的方法是:

  1. 获得当前所有的WindowHandles。

  2. 循环遍历到所有的window, 查找window.title与"Content Display"相符的window返回。

for handle in dr.window_handles:
    dr.switch_to.window(handle)
    print dr.title
    if len(dr.title) == '目标窗口标题':
        break

参考:Selenium - IWebDriver.SwitchTo() frame 和 Window 的用法

2 ,移至底部

driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")

3,移动至指定元素

某些按钮点击时必须可见,于是要把屏幕移动到按钮可见的区域

element = driver.find_element_by_xpath("//a[@class='p-next']")
element.location_once_scrolled_into_view
 
#或者
driver.set_window_size(800,800)
element = driver.find_element_by_xpath("//a[@class='p-next']")
js = "window.scrollTo({},{});".format(element.location['x'], element.location['y'] - 100)
driver.execute_script(js)

参考:
Python selenium —— 一定要会用selenium的等待,三种等待方式解读

链接博客:http://kekefund.com/2017/12/06/scrapy-and-selenium/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,784评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,745评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,702评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,229评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,245评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,376评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,798评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,471评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,655评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,485评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,535评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,235评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,793评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,863评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,096评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,654评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,233评论 2 341