需求分析
1、今年准备买房了,但是现在房价摇摇晃晃,也不知道是准备涨还是跌,杭州是买不起了,只能买老家或者杭州周边了。
2、价格趋势直接影响我们这群刚需穷diao丝,‘上车’时间段,本着损失最小化,利益最大化的想法想看下一个月内开封市平均房价信息趋势图。
3、由此,意味着需要一批数据做支撑,所以准备下手爬一下58相关数据信息,存储并分析。
废话不多说,直接上代码
- 以下是代码主干 --- index.js
const request = require("request");
const cheerio = require("cheerio");
const fs = require("fs");
const { TrimP } = require("./utils/index");
// 初始化动作,获取body文件
function main() {
request(
{
url:
"https://kaifeng.58.com/ershoufang/?PGTID=0d200001-0092-6b5b-d3cf-6fd57db6b3bd&ClickID=1", // 请求的URL
method: "GET", // 请求方法
headers: {
// 指定请求头
"Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7", // 指定 Accept-Language
origin: "https://webim.58.com",
referer: "https://webim.58.com/index?p=rb&_=1551190773530",
cookie:
'f=n; commontopbar_new_city_info=2342%7C%E5%BC%80%E5%B0%81%7Ckaifeng; id58=c5/nn1txnQEyv+oqC40uAg==; 58tj_uuid=7aaf9781-0bc1-4aa4-9dab-817a04d9ac3b; als=0; xxzl_deviceid=pZsF6d2lSYYoQrVWJJkxCSLcIWytKCP1GPGw6M44nAGrCOawzyMHhozlMkHHLMEl; 58home=hz; city=hz; new_uv=2; utm_source=; spm=; init_refer=https%253A%252F%252Fwww.baidu.com%252Flink%253Furl%253D9rDqbxp4DhjhO9fDBX8UAAeXSqUMXLbrswRlUAnFTEa%2526wd%253D%2526eqid%253Df4cf93ab00042296000000045c75499c; new_session=0; wmda_uuid=7f36d05168fb6c4731a847f3a813257a; wmda_new_uuid=1; wmda_session_id_2385390625025=1551190438353-ef3a6470-a5f9-3c1d; f=n; commontopbar_new_city_info=2342%7C%E5%BC%80%E5%B0%81%7Ckaifeng; commontopbar_ipcity=hz%7C%E6%9D%AD%E5%B7%9E%7C0; PPU="UID=24899567899910&UN=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8&TT=2a574c8d078ab406f80f03a6795218b4&PBODY=MpWfvfPz3ufgpDyuig72oZmXdI1iYpF6J6wbcd8ai1-lsuku-Y6ATJink3n-oFqDQaCO7g0o-1rbiYmzqQYztCk6dqsXQcBrem1a3DV-7krhMldDJ-hd_N2JrOwH3J-NZQukIuMDxpZyD-Q3We0GBoSCoN-t4xmhy8MNFD2lcVo&VER=1"; www58com="UserID=24899567899910&UserName=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8"; 58cooper="userid=24899567899910&username=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8"; 58uname=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8; xxzl_smartid=a2f7e6b6064824a72e589cfc912c3c9f; wmda_session_id_6333604277682=1551190508131-7039d311-a21b-c724; wmda_visited_projects=%3B2385390625025%3B6333604277682; xzfzqtoken=oOpuwTGU3jpciHzKPCVeWq%2BdDxSvgiZmqSiDP6n0HHiC9kLGIiOaceyoTElOksqBin35brBb%2F%2FeSODvMgkQULA%3D%3D; JSESSIONID=67C607E3AD1E14B61936A75678F6DF52; ppStore_fingerprint=EA5DE777C86780BC1CB53EA88D0074C48472205CEAB7B285%EF%BC%BF1551190659172'
}
},
function(error, response, body) {
if (!error && response.statusCode == 200) {
// console.log(body) // 输出网页内容
console.log("--- start ----");
dataArrangement(body).then(res => {
// console.log(res)
readyFiles(res);
});
}
}
);
}
// 收集处理DOM结构
function dataArrangement(body) {
return new Promise((resolve, reject) => {
let list = [];
const $ = cheerio.load(body);
let lis = $(".house-list-wrap").children("li");
let max = lis.length;
if (max) {
for (let i = 0; i < max; i++) {
const title = $(lis[i])
.find(".title")
.find("a")
.text();
const baseinfo = TrimP(
$(lis[i])
.find("p.baseinfo")
.first()
.text()
);
const baseinfoAddress = TrimP(
$(lis[i])
.find("p.baseinfo")
.last()
.text()
);
const price = $(lis[i])
.find(".price")
.find(".sum")
.text();
const unit = $(lis[i])
.find(".unit")
.text();
let obj = {
title,
baseinfo,
baseinfoAddress,
price,
unit
};
list.push(obj);
if (i === max - 1) {
console.log("--------- 打印输出结果 -----------");
resolve(list);
}
}
}
});
}
function readyFiles(data) {
fs.readdir("./staticData", function(err, files) {
if (err) {
// 创建 staticData 目录
fs.mkdir("./staticData", function(err) {
if (err) {
throw err;
}
openData(data);
console.log("make dir success.");
});
// throw err;
}
// files是一个数组
// 每个元素是此目录下的文件或文件夹的名称
openData(data);
});
}
function openData(data) {
// 打开文件
fs.open("./staticData/Data.json", `w`, function(err, fd) {
if (err) {
throw err;
}
// 读取文件
fs.write(fd, JSON.stringify(data), 0, 6, 0, function(
err,
bytesWritten,
buffer
) {
if (err) {
throw err;
}
console.log("write success.");
// 打印出buffer中存入的数据
console.log(bytesWritten, buffer.slice(0, bytesWritten).toString());
// 关闭文件
fs.close(fd);
});
});
}
function getTime() {
return new Promise((resolve, reject) => {
let time = new Date();
let getFullYear = time.getFullYear(); //年
let getMonth = time.getMonth() + 1; // 月
let getDate = time.getDate(); // 日
let getHours = time.getHours(); // 小时
let getMinutes = time.getMinutes(); // 分钟
let getSeconds = time.getSeconds(); // 秒
resolve({
getFullYear,
getMonth,
getDate,
getHours,
getMinutes,
getSeconds
});
console.log(
`->->->->->->->->->->-> ${getFullYear}/${getMonth}/${getDate} ${getHours}:${getMinutes}:${getSeconds} <-<-<-<-<-<-<-<-<-<-<-`
);
});
}
setInterval(() => {
getTime().then(res => {
const { getHours, getMinutes, getSeconds } = res;
if (!getHours && !getMinutes && !getSeconds) {
//当时间为00:00:00 凌晨半夜时,自动爬取58房价信息并存储(未做去重,后续改进)
main();
}
});
}, 500);
具体想法就是:
当系统时间为00:00:00(半夜凌晨) 时,自动爬取一次58开封地区房价信息,利用定时器每隔500ms轮训一次,间隔设置500ms而非1000ms是为了防止错过00:00:00 时间点,因为判断节点为时分秒全部符合才会触发,相对苛刻一点,所以时间间隔缩小一半,保证轮训成功率。
迭代计划
因为第一版,所以略显粗糙,个人也知道缺很多内容。
1、过滤重复数据的注入
2、数据爬取量仅第一页,后续应该爬取全部页码
3、采用更高级方案规避该网站的反爬虫机制(动态ip)
4、后续数据的实时显示(折线图)
以上顺序就是后续准备解决的问题,小弟也是新人,如果有更好的解决方案,或者说其他想法,欢迎交流,技术至上!
github 地址,可直接点击 ====> github 地址
后续这套代码放到服务器上跑,肯定会继续维护升级,如果感兴趣请点个关注,谢谢!