网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup

开始学习网络数据挖掘方面的知识，首先从Beautiful Soup入手（Beautiful Soup是一个Python库，功能是从HTML和XML中解析数据），打算以三篇博文纪录学习Beautiful Soup的过程，第一篇是Beautiful Soup基础知识，后两篇利用前边的Beautiful Soup知识完成一个简单的爬虫，抓取allitebook.com的书籍信息和ISBN码，再根据ISBN码去amazon.com抓取书籍对应的价格。

一、Beautiful Soup简介

网络数据挖掘指的是从网站中获取数据的过程，数据挖掘技术可以让我们从网站世界中收集大量有价值的数据。
Beautiful Soup是一个Python库，可以从HTML或XML文件中获取数据，利用它你可以做很多事情，比如你可以持续解析某个商品的最新价格，以便跟踪价格的波动情况。

二、Beautiful Soup安装（Mac）

安装Beautiful Soup

sudo pip3 install beautifulsoup4

检验是否安装成功

from bs4 import BeautifulSoup

三、创建一个Beautiful Soup对象

html_atag = """<html><body><p>Test html a tag example</p>
<a href="http://www. allitebook.com">Home</a>
<a href="http://www.allitebook.com/books">Books</a>
</body>
</html>"""
soup = BeautifulSoup(html_atag, "html5lib")
print(soup.a)

四、查找内容

find()方法

html_markup = """<div>
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>
</div>"""

在find()方法中传入节点名，例如ul，这样就可以获取第一个匹配的ul节点的内容，例如：

input
student_entries = soup.find("ul")
print(student_entries)
output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>

找到ul节点后，通过观察html可以得知，ul下有2个li，每个li下有2个div，则通过student_entries.li可以获取第一个li节点的数据，继续通过student_entries.li.div可以获取第一个li下第一个div的数据，例如：

input
print(student_entries.li)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
print(student_entries.li.div)
output
<div class="name">Carl</div>

继续通过div.string可以获取div的内容：

input
print(student_entries.li.div.string)
output
'Carl'

使用正则表达式查找：

find()方法支持根据正则表达式查找内容，例如：

input
import re
email_id_example ="""<div>The below HTML has the information that has email ids.</div>
abc@example.com
<div>xyz@example.com</div>
<span>foo@example.com</span>"""
soup = BeautifulSoup(email_id_example,"lxml")
emailid_regexp = re.compile("\w+@\w+\.\w+")
first_email_id = soup.find(text=emailid_regexp)
print(first_email_id)
output
abc@example.com

find_all()方法

find()方法返回第一个匹配的内容，find_all()方法会返回所有匹配的内容列表，例如上面的根据正则表达式查找邮箱地址，将find()方法换成find_all()方法，则会返回所有匹配成功的内容：

input
all_email_id = soup.find_all(text=emailid_regexp)
print(all_email_id)
output
['abc@example.com', 'xyz@example.com', 'foo@example.com']

find_parent()方法

find_parent()方法往上查找内容，例如，从第一个li节点上使用find_parent()方法，可以获取父节点的内容：

input
print(first_student)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
all_students = first_student.find_parent('ul')
print(all_students)
output
<ul id="students">
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>
</ul>

find_next_sibling()方法

sibling是兄弟姐妹的意思，find_next_sibling()方法获取下一个同级别的兄弟节点，例如：

input
second_student = first_student.find_next_sibling()
print(second_student)
output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>

其它方法还有很多，例如：

find_next()方法
find_all_next()方法
find_previous_sibling()方法
find_all_previous()方法
这里不在一一赘述，具体请查看官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

五、浏览内容

浏览子节点

使用自节点的标签名即可获取子节点的内容，例如：

input
print(first_student)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
name = first_student.div
print(name)
output
<div class="name">Carl</div>

浏览父节点

使用.parent属性可以浏览父节点，例如：

input
print(name.parent)
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

浏览兄弟节点

兄弟节点即同级节点，next_sibling和previous_sibling属性分别获取上一个和下一个兄弟节点。例如：

input
print(first_student.next_sibling)
output
<li class="student">
<div class="name">Lucy</div>
<div class="age">25</div>
</li>

完整方法列表请查看:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#navigating-the-tree

六、修改内容

修改标签的名字

可以通过.name属性获取某个节点的标签名，同样将某个标签名赋值给.name属性可以很轻易改变标签的名称，例如：

input
first_student
output
<li class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</li>

input
first_student.name
output
'li'

input
first_student.name = 'div'
first_student.name
output
'div'

input
first_student
output
<div class="student">
<div class="name">Carl</div>
<div class="age">32</div>
</div>

修改标签的属性

input
first_student['class'] = 'student_new'
print(first_student)
output
<div class="student_new">
<div class="name">Carl</div>
<div class="age">32</div>
</div>

注意：如果class属性没有的话，则此操作不会报错，而变为一个新增操作。

删除一个标签的属性

使用del方法可以将一个节点的某个属性删除。例如：

input 
del first_student['class']
print(first_student)
output
<div>
<div class="name">Carl</div>
<div class="age">32</div>
</div>

修改标签的内容

使用.string属性可以获取标签的内容值('Carl')，同样，对此属性的赋值操作也可以更该其值，例如：

input
print(first_student.div.string)
output
Carl

input
first_student.div.string = 'carl_new'
print(first_student.div.string)
output
carl_new

直接删除某个节点

使用decompose()方法可以直接删除某个节点：

input 
print(first_student)
output
<li class="student">
<div class="name">carl_new</div>
<div class="age">32</div>
</li>

input 
first_student.div.decompose()
print(first_student)
output
<li class="student">
<div class="age">32</div>
</li>

使用extract()方法同样可以删除某个节点，不过它和decompose()方法不同的是，extract()会返回被删除的这个节点的内容。

我们处于大数据时代，对数据处理感兴趣的朋友欢迎查看另一个系列随笔：利用Python进行数据分析基础系列随笔汇总

接下来将利用这篇的Beautiful Soup基础知识完成一个简单的爬虫，分别获取两个网站的书籍信息和价格并组合在一起并输出到csv文件中。有兴趣的朋友欢迎关注本博客，也欢迎大家留言进行讨论。

最后编辑于：2017.12.04 01:55:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342