项目简介:
使用 Nodes.js
(以下简称Node) 完成
- 爬取一个传统静态网站, 用
cheerio
库做页面解析 - 爬取一个网络API接口数据
- 使用JSON文件保存所需数据
导出到 excel 或数据库
1. 使用模块如下:
"dependencies": {
"cheerio": "^1.0.0-rc.2",
"dateformat": "^3.0.2"
}
此外, 使用了 Node 内置模块 fs
request
2. 执行: 切换到项目目录
npm test
// 或者
node index.js
3. 项目地址 https://github.com/wiviwiv/web-crawler
流程
构造URL ===>
爬取检查 robots.txt===> 清洗数据 ===> 存储文件
未完待续 。。。