240 投稿
收录了12篇文章 · 2人关注
  • 爬虫046_requests基础

    1、为什么要重点学习requests模块,而不是urllib 企业中用的最多的就是requests requests的底层实现就是urllib ...

  • 爬虫_012_Python文件操作

    python中想要处理一个文件必须用open()先打开一个文件语法规则 最主要的参数是模式,模式参数有 r, w, a, b r 只读模式. ...

  • 爬虫_042_beautifulsoup的搜索文档树

    1、find_all find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件: 有几个方法很相似,还有几个方法是...

  • 爬虫_041_bs简单使用

    下面的一段HTML代码将作为例子被多次用到.这是爱丽丝梦游仙境的的一段内容 使用BeautifulSoup解析这段代码,能够得到一个 Beaut...

  • 爬虫_039_正则高级用法

    1、分组&起名称 概念处理简单的判断是否匹配之外,正则表达式还有提取子串的功能,用()表示的就是要提取的分组 代码#给当前匹配到的结果起别名s ...

  • 爬虫_036_正则search()函数

    search()函数 功能扫描整个字符串string,并返回第一个pattern模式成功的匹配。匹配失败 返回 None。 参数 参数说明pat...

  • Resize,w 360,h 240
    爬虫_024_常用标签

    1、 文本标签 块标签 作用是设定字、画、表格等的摆放位置 段落标签 自成一段 会将上下的文字 和它保持一定的距离 - 标题标签 字体加粗...

  • 爬虫_022_网站与HTML

    HTML的简介、发展史 万维网联盟(W3C)维护。包含HTML内容的文件最常用的扩展名是.html,但是像DOS这样的旧操作系统限制扩展名为最多...

  • 爬虫_014_文件操作

    (1)读文件 r方法1:直接读取所有内容。这种写法不推荐,因为是整个文件全部都读取 方法2:循环读取文件。这是读文件的最好的方式print在每一...

  • 爬虫_011_字符集和bytes

    字符集字符集, 记住两个字符集就够了。一个是utf-8,一个是gbk。都是支持中文的。但是utf-8的编码数量远大于gbk。我们平时使用的最多的...

专题公告

爬虫