买房历程之 - 房价大数据分析

需求分析

1、今年准备买房了,但是现在房价摇摇晃晃,也不知道是准备涨还是跌,杭州是买不起了,只能买老家或者杭州周边了。

2、价格趋势直接影响我们这群刚需穷diao丝,‘上车’时间段,本着损失最小化,利益最大化的想法想看下一个月内开封市平均房价信息趋势图。

3、由此,意味着需要一批数据做支撑,所以准备下手爬一下58相关数据信息,存储并分析。

废话不多说,直接上代码

  • 以下是代码主干 --- index.js
const request = require("request");
const cheerio = require("cheerio");
const fs = require("fs");
const { TrimP } = require("./utils/index");

// 初始化动作,获取body文件
function main() {
  request(
    {
      url:
        "https://kaifeng.58.com/ershoufang/?PGTID=0d200001-0092-6b5b-d3cf-6fd57db6b3bd&ClickID=1", // 请求的URL
      method: "GET", // 请求方法
      headers: {
        // 指定请求头
        "Accept-Language": "zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7", // 指定 Accept-Language
        origin: "https://webim.58.com",
        referer: "https://webim.58.com/index?p=rb&_=1551190773530",
        cookie:
          'f=n; commontopbar_new_city_info=2342%7C%E5%BC%80%E5%B0%81%7Ckaifeng; id58=c5/nn1txnQEyv+oqC40uAg==; 58tj_uuid=7aaf9781-0bc1-4aa4-9dab-817a04d9ac3b; als=0; xxzl_deviceid=pZsF6d2lSYYoQrVWJJkxCSLcIWytKCP1GPGw6M44nAGrCOawzyMHhozlMkHHLMEl; 58home=hz; city=hz; new_uv=2; utm_source=; spm=; init_refer=https%253A%252F%252Fwww.baidu.com%252Flink%253Furl%253D9rDqbxp4DhjhO9fDBX8UAAeXSqUMXLbrswRlUAnFTEa%2526wd%253D%2526eqid%253Df4cf93ab00042296000000045c75499c; new_session=0; wmda_uuid=7f36d05168fb6c4731a847f3a813257a; wmda_new_uuid=1; wmda_session_id_2385390625025=1551190438353-ef3a6470-a5f9-3c1d; f=n; commontopbar_new_city_info=2342%7C%E5%BC%80%E5%B0%81%7Ckaifeng; commontopbar_ipcity=hz%7C%E6%9D%AD%E5%B7%9E%7C0; PPU="UID=24899567899910&UN=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8&TT=2a574c8d078ab406f80f03a6795218b4&PBODY=MpWfvfPz3ufgpDyuig72oZmXdI1iYpF6J6wbcd8ai1-lsuku-Y6ATJink3n-oFqDQaCO7g0o-1rbiYmzqQYztCk6dqsXQcBrem1a3DV-7krhMldDJ-hd_N2JrOwH3J-NZQukIuMDxpZyD-Q3We0GBoSCoN-t4xmhy8MNFD2lcVo&VER=1"; www58com="UserID=24899567899910&UserName=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8"; 58cooper="userid=24899567899910&username=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8"; 58uname=%E5%B1%8C%E4%B8%9D%E4%B8%B6%E5%8F%88%E4%BD%95%E5%A6%A8; xxzl_smartid=a2f7e6b6064824a72e589cfc912c3c9f; wmda_session_id_6333604277682=1551190508131-7039d311-a21b-c724; wmda_visited_projects=%3B2385390625025%3B6333604277682; xzfzqtoken=oOpuwTGU3jpciHzKPCVeWq%2BdDxSvgiZmqSiDP6n0HHiC9kLGIiOaceyoTElOksqBin35brBb%2F%2FeSODvMgkQULA%3D%3D; JSESSIONID=67C607E3AD1E14B61936A75678F6DF52; ppStore_fingerprint=EA5DE777C86780BC1CB53EA88D0074C48472205CEAB7B285%EF%BC%BF1551190659172'
      }
    },
    function(error, response, body) {
      if (!error && response.statusCode == 200) {
        // console.log(body) // 输出网页内容
        console.log("--- start ----");
        dataArrangement(body).then(res => {
          // console.log(res)
          readyFiles(res);
        });
      }
    }
  );
}

// 收集处理DOM结构
function dataArrangement(body) {
  return new Promise((resolve, reject) => {
    let list = [];
    const $ = cheerio.load(body);
    let lis = $(".house-list-wrap").children("li");
    let max = lis.length;
    if (max) {
      for (let i = 0; i < max; i++) {
        const title = $(lis[i])
          .find(".title")
          .find("a")
          .text();

        const baseinfo = TrimP(
          $(lis[i])
            .find("p.baseinfo")
            .first()
            .text()
        );

        const baseinfoAddress = TrimP(
          $(lis[i])
            .find("p.baseinfo")
            .last()
            .text()
        );

        const price = $(lis[i])
          .find(".price")
          .find(".sum")
          .text();

        const unit = $(lis[i])
          .find(".unit")
          .text();

        let obj = {
          title,
          baseinfo,
          baseinfoAddress,
          price,
          unit
        };
        list.push(obj);
        if (i === max - 1) {
          console.log("--------- 打印输出结果 -----------");
          resolve(list);
        }
      }
    }
  });
}

function readyFiles(data) {
  fs.readdir("./staticData", function(err, files) {
    if (err) {
      // 创建 staticData 目录
      fs.mkdir("./staticData", function(err) {
        if (err) {
          throw err;
        }
        openData(data);
        console.log("make dir success.");
      });
      // throw err;
    }
    // files是一个数组
    // 每个元素是此目录下的文件或文件夹的名称
    openData(data);
  });
}

function openData(data) {
  // 打开文件
  fs.open("./staticData/Data.json", `w`, function(err, fd) {
    if (err) {
      throw err;
    }
    // 读取文件
    fs.write(fd, JSON.stringify(data), 0, 6, 0, function(
      err,
      bytesWritten,
      buffer
    ) {
      if (err) {
        throw err;
      }

      console.log("write success.");
      // 打印出buffer中存入的数据
      console.log(bytesWritten, buffer.slice(0, bytesWritten).toString());

      // 关闭文件
      fs.close(fd);
    });
  });
}

function getTime() {
  return new Promise((resolve, reject) => {
    let time = new Date();
    let getFullYear = time.getFullYear(); //年
    let getMonth = time.getMonth() + 1; // 月
    let getDate = time.getDate(); // 日
    let getHours = time.getHours(); // 小时
    let getMinutes = time.getMinutes(); // 分钟
    let getSeconds = time.getSeconds(); // 秒
    resolve({
      getFullYear,
      getMonth,
      getDate,
      getHours,
      getMinutes,
      getSeconds
    });
    console.log(
      `->->->->->->->->->->-> ${getFullYear}/${getMonth}/${getDate} ${getHours}:${getMinutes}:${getSeconds} <-<-<-<-<-<-<-<-<-<-<-`
    );
  });
}

setInterval(() => {
  getTime().then(res => {
    const { getHours, getMinutes, getSeconds } = res;
    if (!getHours && !getMinutes && !getSeconds) {
      //当时间为00:00:00 凌晨半夜时,自动爬取58房价信息并存储(未做去重,后续改进)
      main();
    }
  });
}, 500);

具体想法就是:
当系统时间为00:00:00(半夜凌晨) 时,自动爬取一次58开封地区房价信息,利用定时器每隔500ms轮训一次,间隔设置500ms而非1000ms是为了防止错过00:00:00 时间点,因为判断节点为时分秒全部符合才会触发,相对苛刻一点,所以时间间隔缩小一半,保证轮训成功率。

迭代计划

因为第一版,所以略显粗糙,个人也知道缺很多内容。
1、过滤重复数据的注入
2、数据爬取量仅第一页,后续应该爬取全部页码
3、采用更高级方案规避该网站的反爬虫机制(动态ip)
4、后续数据的实时显示(折线图)

以上顺序就是后续准备解决的问题,小弟也是新人,如果有更好的解决方案,或者说其他想法,欢迎交流,技术至上!

github 地址,可直接点击 ====> github 地址

后续这套代码放到服务器上跑,肯定会继续维护升级,如果感兴趣请点个关注,谢谢!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容