通用网络爬虫:
1,获取初始的url
2,根据初始的url爬取页面并获得新的url
3, 将新的url放到url队列中
4,从url队列中读取新的url,并根据新的url爬起网页,同时从新网页中获取新url,并重复上述过程
5,满足爬虫系统设置的停止条件时,停止爬取
聚焦网络爬虫:
-------对爬取目标的定义和描述
-------获取初始的url
-------根据初始的url爬取页面,并获得新的url
-------从新的url中过滤掉与爬取目标无关的链接
-------将过滤后的链接放的url队列中
-------从url队列中,根据搜索算法,确定url的优先级,并确定下一步要爬取的url地址
-------从下一步要爬取的url地址中,读取新的url,然后依据新的url地址爬取网页,并重复上述爬取过程
------满足爬虫的停止条件时或无法获取新的url时停止爬。
一般url标准中只会允许一部分ASCII字符入数字、字母、部分符号等,如果是汉字或以下特殊字符比如:&等就需要编码。
服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做HTTP Response。浏览器收到服务器的Response信息后,会对信息进行相应处理,然后展示。