Learn BeautifulSoup
BeautifulSoup用法
引用崔庆才 静觅
基本语法及用法
初始化
soup = BeautifulSoup(html, 'lxml') (or BeautifelSoup(open(filename), 'lxml') )
四大对象种类
* Tag
* 即标签 如soup.[title| head| a| p| 等等]
* name: soup.name, soup.head.name
* attrs
* NavigableString
* soup.p.string返回标签内容
* BeatifulSoup
* Commit
遍历
* 直接子节点 .contents .children
* 所有子孙节点 .descendants
* 父节点 .parent .parents
* 兄弟节点 .next_sibling .privious_sibling
* 节点内容 .string
* 多个内容 .string .stripped_strings
搜索文档树
* find_all(name, attrs, recursive, text, **kwargs)
* name: 标签名为name
* 字符串
* 正则表达式
* 列表
* True
* 方法
* kwargs: 。。。
* text: 即查找文本内容
* limit参数: 限制返回结果数量
* recursive: 限制搜索节点是否需要子孙节点
* 另外方法有 find find_parent, find_all_next等等
CSS选择器
> select方法是很常用的
- 通过标签 soup.select('title')
- 通过类名 soup.select('.content')
- 通过id soup.select('#link1')
- 属性查找 soup.select('div [class="content"]')