爬虫 - 专题

投稿

爬虫

收录了12篇文章 · 2人关注

爬虫046_requests基础
1、为什么要重点学习requests模块，而不是urllib 企业中用的最多的就是requests requests的底层实现就是urllib ...

6.5 为宇绸缪 0 9
爬虫_012_Python文件操作
python中想要处理一个文件必须用open()先打开一个文件语法规则最主要的参数是模式，模式参数有 r, w, a, b r 只读模式. ...

1.2 为宇绸缪 3 4

爬虫_042_beautifulsoup的搜索文档树
1、find_all find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件: 有几个方法很相似,还有几个方法是...

0.5 为宇绸缪 0 2
爬虫_041_bs简单使用
下面的一段HTML代码将作为例子被多次用到.这是爱丽丝梦游仙境的的一段内容使用BeautifulSoup解析这段代码,能够得到一个 Beaut...

0.3 为宇绸缪 0 1
爬虫_039_正则高级用法
1、分组&起名称概念处理简单的判断是否匹配之外，正则表达式还有提取子串的功能，用()表示的就是要提取的分组代码#给当前匹配到的结果起别名s ...

0.9 为宇绸缪 0 4
爬虫_036_正则search()函数
search()函数功能扫描整个字符串string，并返回第一个pattern模式成功的匹配。匹配失败返回 None。参数参数说明pat...

1.3 为宇绸缪 0 1
爬虫_024_常用标签
1、文本标签块标签作用是设定字、画、表格等的摆放位置段落标签自成一段会将上下的文字和它保持一定的距离 - 标题标签字体加粗...

1.3 为宇绸缪 0 1

爬虫_022_网站与HTML
HTML的简介、发展史万维网联盟（W3C）维护。包含HTML内容的文件最常用的扩展名是.html，但是像DOS这样的旧操作系统限制扩展名为最多...

1.0 为宇绸缪 0 2
爬虫_014_文件操作
（1）读文件 r方法1：直接读取所有内容。这种写法不推荐，因为是整个文件全部都读取方法2：循环读取文件。这是读文件的最好的方式print在每一...

0.9 为宇绸缪 0 3
爬虫_011_字符集和bytes
字符集字符集, 记住两个字符集就够了。一个是utf-8，一个是gbk。都是支持中文的。但是utf-8的编码数量远大于gbk。我们平时使用的最多的...

1.0 为宇绸缪 0 0