(五)网页解析-提取结构化数据-BeautifulSoup+Xpath python+scrapy爬虫5小时入门

网页解析-提取结构化数据

BeautifulSoup

简介

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间。

官方中文文档的:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

BeautifulSoup的安装也是非常方便的,pip安装即可。

pip install beautifulsoup4

简单例子

1560427418742.png

指定解析器

BeautifulSoup解析网页需要指定一个可用的解析器,以下是主要几种解析器:

解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, ["lxml", "xml"])``BeautifulSoup(markup, "xml") 速度快唯一支持XML的解析器 需要安装C语言库
html5lib BeautifulSoup(markup, "html5lib") 最好的容错性以浏览器的方式解析文档生成HTML5格式的文档 速度慢不依赖外部扩展
由于这个解析的过程在大规模的爬取中是会影响到整个爬虫系统的速度的,所以推荐使用的是lxml,速度会快很多,而lxml需要单独安装:

    pip install lxml    soup = BeautifulSoup(html_doc, 'lxml')   

指定提示:如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的,所以要指定某一个解析器。

节点对象

Tag
tag对象可以说是BeautifulSoup中最为重要的对象,通过BeautifulSoup来提取数据基本都围绕着这个对象来进行操作。
>>tag就是标签的意思,tag还有许多的方法和属性。
>>name: 每一个tag对象都有name属性,为标签的名字。
>>Attributes: 在HTML中,tag可能有多个属性,所以tag属性的取值跟字典相同。
>>get_text():  通过get_text()方法我们可以获取某个tag下所有的文本内容。
NavigableString
NavigableString的意思是可以遍历的字符串,一般被标签包裹在其中的的文本就是NavigableString格式。
soup = BeautifulSoup('<p>do someing </p>')
soup.p.string
>>>'do someing '
BeautifulSoup
BeautifulSoup对象就是解析网页获得的对象。
Comment
Comment指的是在网页中的注释以及特殊字符串。

Tag与遍历文档树

tag对象可以说是BeautifulSoup中最为重要的对象,通过BeautifulSoup来提取数据基本都围绕着这个对象来进行操作。
首先,一个节点中是可以包含多个子节点和多个字符串的。例如html节点中包含着head和body节点。所以BeautifulSoup就可以将一个HTML的网页用这样一层层嵌套的节点来进行表示。

descendants
contents和children获取的是某个节点的直接子节点,而无法获得子孙节点。通过descendants可以获得所有子孙节点,返回的结果跟children一样,需要迭代或者转类型使用。。

父节点parent和parents
有时我们也需要去获取某个节点的父节点,也就是包裹着当前节点的节点而使用parents则可以获得当前节点递归到顶层的所有父辈元素。

contents和children
通过contents可以获取某个节点所有的子节点,包括里面的NavigableString对象。获取的子节点是列表格式。而通过children同样的是获取某个节点的所有子节点,但是返回的是一个迭代器,这种方式会比列表格式更加的节省内存。

string和strings
我们常常会遇到需要获取某个节点中的文本值的情况,如果这个节点中只有一个字符串,那么使用string可以正常将其取出。
而如果这个节点中有多个字符串的时候,BeautifulSoup就无法确定要取出哪个字符串了,这时候需要使用strings。使用stripped_strings可以将全是空白的行去掉。

兄弟节点
兄弟节点指的就是父节点相同的节点。
next_sibling 和 previous_sibling 下一个兄弟和上一个兄弟节点
next_siblings 和 previous_siblings 下面所有兄弟和上面所有兄弟节点

***find_all()
上方这种直接通过属性来进行访问属性的方法,很多时候只能适用于比较简单的一些场景,所以BeautifulSoup还提供了搜索整个文档树的方法find_all()。
1.通过name搜索,find_all('b')可以直接查找出整个文档树中所有的b标签,并返回列表

2.通过属性搜索,我们在搜索的时候一般只有标签名是不够的,因为可能同名的标签很多,那么这时候我们就要通过标签的属性来进行搜索。这时候我们可以通过传递给attrs一个字典参数来搜索属性。
soup.find_all(attrs={'class': 'sister'})

3.通过文本搜索,在find_all()方法中,还可以根据文本内容来进行搜索。soup.find_all(text="Elsie")

4.限制查找范围为子节点
find_all()方法会默认的去所有的子孙节点中搜索,而如果将recursive参数设置为False,则可以将搜索范围限制在直接子节点中。 soup.html.find_all("title", recursive=False)

5.通过正则表达式来筛选查找结果在BeautifulSoup中,也是可以与re模块进行相互配合的,将re.compile编译的对象传入find_all()方法,即可通过正则来进行搜索。
tags = soup.find_all(re.compile("^b"))

CSS选择器

在BeautifulSoup中,同样也支持使用CSS选择器来进行搜索。使用select(),在其中传入字符串参数,就可以使用CSS选择器的语法来找到tag。
>>soup.select('title')
>>soup.select('p > a')

XPath

简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
相比于BeautifulSoup,Xpath在提取数据时会更有效率。

安装:
在python中很多库都提供XPath的功能,但是最流行的还是lxml这个库,效率最高。在之前BeautifulSoup中我们也介绍了lxml是如何安装的。

pip install lxml

语法

XPath 使用路径表达式在 XML/HTML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式:
表达式 描述
nodename 选取当前节点的所有nodename子节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性
谓语
谓语用来查找某个或某些特定的节点或者包含某个指定值的节点
谓语被嵌在方括号中。实例:
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果。
路径表达式 结果
//bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
//bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
//bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
//bookstore/book[position()<3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng'] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
//bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
//bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

选取未知节点XPath通配符可用来选取未知节点

通配符 描述 例子 结果
* 匹配任何元素节点 //bookstore/* 选取bookstore元素的所有子元素。
@* 匹配任何属性节点 //* 选取文档中国的所有元素
node() 匹配任何类型的节点 //title[@*] 选取所有带有属性的title元素
选取多个路径通过在路径表达式中使用"|"运算符,您可以选取若干个路径。在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
路径表达式 结果
//book/title | //book/price 选取book元素的所有title和price元素
//title | //price 选取文档中所有的title和price元素
//bookstore/book/title | //price 选取bookstore元素的book元素的所有title元素,以及文档中所有的price元素

获取文本

用text()获取某个节点下的文本
print(page.xpath('//book[1]/author/text()'))

用string()获取某个节点下所有的文本
print(page.xpath('string(//book[1]/author)'))

作业

1.全书网小说爬, 爬取一部小说的简介信息,如作者, 类型, 名称, 当前连载状态等, 存入txt文件中.
(代码和数据结果截图, 不能使用课上所演示的数据)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容

  • 服务器各种类型介绍 按照体系架构来区分,服务器主要分为两类: 非x86服务器 非x86服务器:包括大型机、小型机和...
    伟易阅读 244评论 0 0
  • 创建节点 元素内部擦入 同级插入 删除节点通常用empty 替换节点 复制节点 获取属性和设置属性 推荐使用pro...
    Betterthanyougo阅读 49评论 0 0
  • 8月1日 青丘蝶舞—静静 如何从督导中得到最大的收获? 建议选择一位至少能让你感到安全(完全坦诚开放)的督导师。如...
    早产儿成长之路阅读 170评论 0 0
  • 最近不忙才想起来要好好整理之前的项目了。诚然其中遇到了许许多多得问题,但是当时都是没有太多的去关注,现想起来真是浪...
    Hflydragon阅读 154评论 0 0
  • 这段时间,少了很多感受,多了很多奇怪的事情。 我问自己,这是你想要的吗? 不是。 但是又能怎么样,圈子就是这样,你...
    擦擦阅读 128评论 0 0