一. allitebooks网站链接:http://www.allitebooks.com/
二. 具体流程
allitebooks的网页以翻页的形式展现下一页的书籍信息,通过对链接的比较,发现url的规律:"http://www.allitebooks.com/page/{}/".format(index),其中index表示页码,可以根据这个规则决定爬取多个网页的数据;
根据url去请求网页数据,并返回指定编码‘utf-8’的网页数据,用户下一步的网页数据的解析;
-
对网页数据进行解析,本文用xpath和beautifulsoup的方法都实现了,获取的信息有书名、作者、书详情链接、简介,保存到一个list中,用于后续的数据保存;
将解析完成的数据保存到csv中。
代码如下:
# -*- coding: utf-8 -*-
import requests
from lxml import etree
import csv
from bs4 import BeautifulSoup
import time
class BookSpider(object):
def __init__(self):
# 初始化数据,请求的url,headers和保存最终结果的result变量
# 页面是翻页加载数据的,翻页的链接规则是www.allitebooks.com/page/n/ ,其中n表示第n页的数据
self.url = "http://www.allitebooks.com/page/{}/"
self.headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 需要爬取的信息有书名book_name,作者author,书的详情链接url和书的简介summary
self.result = [['book_name', 'author', 'url', 'summary']]
# 获取需要请求的url,返回一个List的url去请求相关页面的数据
def get_url_list(self):
url_list = []
for index in range(1,8):
url_list.append((self.url).format(index))
return url_list
# 根据给到的url去请求相关页面的数据
def get_data(self, url):
response = requests.get(url=url, headers=self.headers)
return response.content.decode('utf-8')
# 使用xpath对请求的数据进行解析
def parse_data_xpath(self, data):
xpath_data = etree.HTML(data)
# 获取包含了书名、作者、链接、简介的模块列表,对列表进行遍历,获取相关的信息
articles = xpath_data.xpath('//div[@class="entry-body"]')
for article in articles:
article_list = []
# 获取书名
book_name = article.xpath('.//h2/a/text()')[0]
# 获取作者
author = article.xpath('.//h5[@class="entry-author"]/a/text()')[0]
# 获取书的详情链接
url = article.xpath('.//h2/a/@href')[0]
# 获取书的简介
summary = article.xpath('./div[@class="entry-summary"]/p/text()')[0]
# 组合成一个list,添加到成员变量result中,用于最后的csv保存
article_list = [book_name, author, url, summary]
self.result.append(article_list)
# 使用BeautifulSoup对请求的数据进行解析
def parse_data_bs4(self, data):
bs4_data = BeautifulSoup(data, 'lxml')
# 获取包含了书名、作者、链接、简介的模块列表,对列表进行遍历,获取相关的信息
articles = bs4_data.select('.entry-body')
for article in articles:
article_list=[]
book_name = article.select('.entry-title a')[0].get_text()
author = article.select('.entry-author a')[0].get_text()
url = article.select('.entry-title a')[0].get('href')
summary = article.select('.entry-summary p')[0].get_text()
article_list = [book_name, author, url, summary]
self.result.append(article_list)
print(len(self.result))
# 使用csv的方式保存result中的数据
def save_data(self):
# 需要指定encoding='utf-8',不然会有编码报错(windows专属哈哈)
# 因为是使用的python3版本,所以需要newline='',不指定的话保存的csv中,每行后面都会有个空行
book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')
writer = csv.writer(book_fp)
writer.writerows(self.result)
book_fp.close()
# 执行数据爬取和保存的操作:获取需要爬取的网页的链接-->根据链接获取网页数据-->对网页数据进行解析-->保存解析后的数据
def run(self):
# 获取需要爬去数据的url
url_list = self.get_url_list()
for url in url_list:
# 获取网页数据
data = self.get_data(url)
# 对网页数据进行解析,可以使用xpath的parse_data_xpath()或者BeautifulSoup的parse_data_bs4进行解析,获取相关数据
self.parse_data_bs4(data)
# 休眠1秒
time.sleep(1)
# 保存爬去的数据
self.save_data()
BookSpider().run()
结果:
三.遇到的问题
-
保存的csv文件中多了一行空行
在windows这种使用\r\n的系统里,不用newline=‘’的话,会自动在行尾多添加个\r,导致多出一个空行,即行尾为\r\r\n
参考链接:https://blog.csdn.net/pfm685757/article/details/47806469
解决方法:在打开的文件流中添加newline='',如:book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')
- 保存数据到csv时遇到UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 444: illegal multibyte sequence的报错
在window平台,文件的默认编码是gbk, 此时如果写入的字符串的编码是utf-8,则会引发编码报错
参考链接:http://www.itdaan.com/blog/2018/04/19/cef6ddb3809354ac175c64c228fe51fb.html
解决方法:指定编码格式encoding='utf-8'的情况下打开写入流:book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')
- summary的文本数据过长,通过Excel 打开csv的时候,数据显示在一个单元格上
参考链接:https://blog.csdn.net/caolaosanahnu/article/details/7351776
解决方法:目前来看应该是excel打开csv时会有的格式的问题,暂时不是很清楚为什么会出现这个问题,但是将csv文件用记事本的方式打开之后,另存为时选择utf-8的编码格式,再打开另存为的文件,是可以看到整齐的数据的。
代码链接:https://github.com/zhuyecao/kaikeba/tree/master/kaikeba/allitebook