洛庚 - 简书

发简信

洛庚

1
关注
2
粉丝
19
文章
17408

字数
3

收获喜欢
0

总资产

IP属地：广东

洛庚

阿桐随记
写了 17896 字，被 26 人关注，获得了 42 个喜欢

一个前端小学生，正在努力学校精进自己。
洛庚

爬取苏宁图书
爬取苏宁图书创建项目创建爬虫首页大分类首页大分类下的小分类小分类下的图书

112 0 0

洛庚

下载中间件
下载中间件下载中间件是scrapy提供用于用于在爬虫过程中可修改Request和Response，用于扩展scrapy的功能使用方法：编写一个Download Midd...

228 0 0
洛庚

Scrapy下载图片
下载文件和图片 scrapy为下载item中包含的文件提供了一个可重用的item pipelines,这些pipeline有些共同的方法和结构,一般来说你会使用Files P...

588 0 0
洛庚

scrapy模拟登录
scrapy模拟登录为什么需要模拟登录？获取cookie，能够爬取登录后的页面回顾： request是如何模拟登录的？ 1 直接携带cookies请求页面 2 找接口发...

146 0 0
洛庚

Scrapy中CrawlSpider
之前的代码中，我们有很大一部分时间在寻找下一页的URL地址或者内容的URL地址上面，这个过程能更简单一些吗？思路： 1.从response中提取所有的a标签对应的URL地址...

211 0 0
洛庚

Pipeline-item-shell
1 使用pipeline 从pipeline的字典形可以看出来，pipeline可以有多个，而且确实pipeline能够定义多个为什么需要多个pipeline： 1 可能会...

365 0 0

洛庚

scrapy框架
为什么要学习scrapy 什么是Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取 Scrapy使用...

132 0 0
洛庚

Python-GIL
面试题描述Python GIL的概念,以及它对Python多线程的影响 1.主线程死循环 while True: pass 2.2个线程死循环 import thread...

123 0 0
洛庚

多任务-进程
进程和程序进程：正在执行的程序程序：没有执行的代码，是一个静态的进程的状态使用进程实现多任务 multiprocessing模块就是跨平台的多进程模块，提供了一个Pr...

156 0 0
洛庚

多线程爬虫
多线程爬虫多线程爬取表情包 import threading import requests from lxml import etree from urllib impo...

186 0 0
洛庚

多任务-线程
多任务有很多的场景中的事情是同时进行的，比如开车的时候手和脚共同来驾驶汽车，再比如唱歌跳舞也是同时进行的程序中模拟多任务 import time def sing():...

288 0 0

洛庚

图片验证码识别
图形验证码识别技术阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被称为光学文字识别（O...

383 0 0
洛庚

selenium和phantomjs
爬虫和反爬虫之间的斗争爬虫的建议尽量减少请求次数能抓取列表页就不抓详情页保存获取到的HTML，供查错和重复使用关注网站的所有类型的页面 H5页面 APP 多伪装代...

376 0 0
洛庚

爬虫数据-Beautiful Soup
Beautiful Soup的简介 Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据,官方解释如下： Beautiful Soup提供一些简单...

527 0 0
洛庚

爬虫数据-xpath
为什么要学习XPATH和LXML类库 lxml是一款高性能的Python HTML/XML解析器，我们可以利用Xpath来快速的定位特定元素以及获取节点信息什么是XPATH...

442 0 0
洛庚

re模块
re模块在Python中，通过内置的re模块提供对正则表达式的支持。正则表达式会被编译成一系列的字节码，然后由通过C编写的正则表达式引擎进行执行。该引擎自从Python1....

165 0 0

洛庚

正则表达式
场景 1.在一个文件中，查找出hello开头的语句 2.在一个文件中，找到含有hello的语句 3.在一个文件中，找到邮箱为163的所有邮件地址正则表达式（regular ...

343 0 0
洛庚

爬虫数据-json
数据提取什么是数据提取？简单的来说，数据提取就是从相应中获取我们想要的数据的过程数据分类非结构化数据：HTML 处理方法：正则表达式、xpath 结构化数据：json...

346 0 0
洛庚

爬虫的第一个笔记
1.为什么要学习爬虫？数据的来源 1.企业生产的用户数据 2.数据管理公司 3.政府/机构提供的公开数据 4.第三方数据平台购买数据 5.爬虫爬数据爬虫的定义网络爬虫（...

410 0 3

个人介绍

人生苦短，我用Python