前几天用到了BeautifulSoup解析网页,只是浅显的用了用,并没有真正学会。
今天开始学习BeautifulSoup。
首先是从bs4库导入BeautifulSoup,如果拿class类来类比的话,相当于bs4是一个.py文件,BeautifulSoup相当于是一个类class的名字,BeautifulSoup的众多方法则是它的众多函数。
先从一小段html代码开始测试学习。
.name返回当前标签的名字,用['herf']取出链接,说明链接以字典类型保存的。用.get_text()方法取出标签中包裹的文字。
用find方法找出特定的某个链接。
如果find('a')里面没有参数,则默认找出第一条符合条件的标签。
观察到链接中id='link1'这样的参数,和href='链接'的规则很相似,那么也可以用同样的方式把id取出来。
用正则表达式取出符合要求的标签:
亲测,如果用find()方法的话,还是只找出第一个符合条件的,想要找到全部符合条件的,只有用find_all()方法,用findALL()同样可以,暂时并未发现这两个有什么不同,除了findALL可以用limit参数限制查找个数。