还是以简书首页为例(7日热门trending/weekly/
,30日热门trending/monthly/
网页结构相似、样式是一样的),抓取 文章标题、作者、阅读量、评论数、喜欢数和打赏。
1. 只提取文章标题内容
首先看一下 文章标题 部分的网页代码,对网页结构进行分析。
a 标签的内容就放着 文章标题。它是在一个class="content"
的div标签下面。那么如果只想抓到文章标题进行分析的话(如分析简书首页热点文章类型),就很简单。
titles = selector.xpath('//a/text()').extract()
显然这个是抓取到所有a标签的文本内容,很明显包含了页面上所有有链接,不仅仅是我们需要的文章标题。
需要加以限定,限定的方式一是加上需要抓取标签内容的样式属性(class
) 或者指定这个标签的路径(xpath进行路径的限定,它的父标签,或父父标签是什么,或在这些标签上再加属性限制)。
titles = selector.xpath('//a[@class="title"]/text()').extract()
这样就可以了。在页面上class='title'
就是文章标题的样式,注意这时候提取的是一个集合,循环迭代出来就是所有的文章标题。
titles = selector.xpath('//a[@class="title"]/text()').extract()
for title in titles:
print title
注意,这时候,我们用Chrome的“检查” -- copy -- copy xpath,复制到的 文章标题 的xpath 是 //*[@id="note-8305658"]/div/a
,很显然这是一篇文章标题的xpath,不能作为我们循环提取页面上所有文章标题 的xpath。
但是可以印证 a标签是在一个div下的,这个id 指是一个li 标签。也就是所有我们所需要的文章信息(标题,作者、阅读量等)都是在 li 标签里。
那这里要提取 文章标题 还有一种写法。
titles = selector.xpath('//div[@class="content"]/a/text()').extract()
2.提取结构化数据
结构化数据指的是一个数据块,对应数据库里的一条记录,程序中的一个对象。
根据上面的分析,要提取一篇文章所有信息(标题,作者,阅读量等),需要把循环放在 li
这里。
infos = selector.xpath('//ul[@class="note-list"]/li')
再对infos进行循环,取出 li > div > a
标签的text就是文章标题。
infos = selector.xpath('//ul[@class="note-list"]/li')
for info in infos:
title = info.xpath('div/a/text()').extract()[0]
print title
此处要注意,在循环中使用的xpath是针对 infos 中的 info 进行一次xpath。
特别注意: infos = selector.xpath('//li[@class="have-img"]')
虽然选取的也是 li
,但是这时候迭代是取不出来所有文章的,因为 have-img
指的是那些有图的文章标题的列表。
把完整代码给出来。
def parse(self, response):
selector = Selector(response)
infos = selector.xpath('//ul[@class="note-list"]/li')
for info in infos:
title = info.xpath('div/a/text()').extract()[0]
print title
author = info.xpath('div/div[1]/div/a/text()').extract()[0]
print author
注意:在循环中直接使用了数组下标[0]
的方式就是提取所要的一行内容。
一个小技巧,这时候最好用的是Chrome中的copy xpath, 比如作者,copy出来的是
//*[@id="note-8305658"]/div/div[1]/div/a
你应该直接在代码中直接写id后面的那个路径。
3.总结一下
抓取结构化数据的关键,首先对网页结构要熟悉了解,另外就是要选择循环点,一般是父标签到数据块所在的标签,第三就是结合使用Chrome的copy xpath很方便,可以提高效率。