二手房数据分析预测系统

©作者 | leo

随着科技的进步,信息已经成为了推动科技发展的重要元素。通过对海量数据的分析能够更好的服务于未来的生产生活,并且能够及时调整策略,未雨绸缪。

今天我们为大家展示一个全方位,多维度的数据分析场景——二手房数据分析预测系统。该系统全面展示了数据分析过程中的数据获取,数据预处理,数据分析,可视化呈现以及分析结果的生成。

01 数据获取

数据获取的方式分为两种:可靠数据渠道采购和Python网络爬虫等技术手段实现。

数据集链接:

链接: https://pan.baidu.com/s/1-rGGM6tuoDbxtaG9gV4B2w 提取码: ftvk

爬虫实现:主要通过requests库和xpath数据解析技术来提取相关字段数据。

02 数据载入

将上述提取到的信息进行数据整合:

2.1 导入相关的python包

2.2 加载数据

数据呈现:

查看数据的基本情况,这是做数据分析非常重要的一步,需要查看数据类型,数据缺失情况等等。

通过数据观察,可以发现Elevator(电梯)字段存在严重的数据缺失情况,Size字段也就是房屋大小里面的最大值和最小值出现了1019平米和2平米的面积,根据常识可以判断其中存在异常值。

但是电梯字段的缺失可能是信息未采集或者未上传导致的,我们可以暂时不做处理。对于面积过大的处理,我们在接下来的分析步骤中查看。

03 数据分析

3.1 添加房屋均价字段

该字段显示的是某区内的房屋每平米均价,能够为接下来的数据分析提供更多依据。

通过上述数据,可以发现ID字段对于分析没有意义,通过重排列名提取关键字段,房屋单价使用总价/平米数计算得来。

3.2 区域特征分析

区域特征主要使用了pandas中groupby方法对地区进行分类,然后分别计算得到不同地区的总价和单价的汇总信息,最终通过Seaborn库的柱状图和箱线图可视化展现并得出最终结论。

可视化代码:

最终输出图形:

分析结果综述:

a. 二手房均价(每平米):均价最高的城区是西城区,11万/平米,主要的原因是西城区是整个北京市区最为繁华的区域,同时是重点中学的集中地,因此房价最高比较合理;均价次之的区域是东城区,10万/平米,海淀区8.5万/平米,剩余地区均低于8万/平米。

b. 二手房数量:数量比较多的区域是海淀区和朝阳区,均接近3000套,丰台区紧随其后。

c. 二手房总价分布:通过箱线图,可以看出各区域的房价中位数主要集中在1000万以下,离散度比较高,西城区的最高离散值达到6000万,说明二手房总价数据分布并不理想。

3.3 房屋面积Size分析

通过直方图呈现房屋面积的分布状态,散点图来面描述房价和面积的相关性。

分析结果综述:

通过以上可视图可以发现,房屋尺寸类型主要集中在100平米左右,箱型图中的长拖尾现象说明了有少量大平米的户型分布,但是数量有限。

通过散点图的相关性展示,发现房价和面积基本呈现线性相关的关系,这点比较符合尝试,即面积越大、房价越高。

异常值分析:

通过上述表达式筛选,存在部分面积低于10平米但是卖价超过1000万的房屋。

对比头部数据:

对比两份数据,可以发现第一个结果集中的数据存在字段错位的情况,且查看房屋类别,小平米的房子多为别墅类型,不属于二手商品房分析范畴,因此可以删除这类数据。

通过如下表达式,发现存在少量大平米单价远低于市场价的房产。

进一步研究发现,该信息极有可能代表的是写字楼,也不再本次分析范畴,需要剔除,最后通过以下表达式实现以上数据的筛选。

重新做可视化分析:

如图所示,异常数据基本消失。

3.4 房屋格局分析

通过Seaborn计数图呈现不同户型房屋的数量分布情况。

分析结果:

主要的房屋类型依次是2室1厅,3室1厅,2室2厅,3室2厅。户型名称不具备规范性要求,不利于后续的机器学习使用,因此需要做特征化处理。

3.5 房屋翻新状态分析

使用value_counts()方法统计不同翻新状态的房屋数量:

使用计数图,条形图,箱线图对以上四种户型分别进行可视化呈现:

分析结果:

精装房二手房的数量最多,简装其次,价格方面,毛坯最贵,精装修次之。

3.6 是否有电梯分析

通过info()函数统计不同字段的数量、空值情况、数据类型,可以很快发现异常字段。

通过代码结果,发现电梯字段存在大量缺失值,可选方案如下:

a. 删除空值。

b. 替换,并使用填充值:中位数,平均值,拉格朗日插值等。

这里不能忽略一个简单常识,那就是楼层超过6层的肯定有电梯,6层以下则无,因此层数6可作为筛选条件,值得注意的是,如果使用Floor字段来进行判断,也可能出现问题,因为Floor代表楼层,而不是整楼,因此只能作为参考使用。

对电梯字段进行可视化呈现:

分析结果:

根据分析结果发现,有电梯的二手房数量比较多,主要原因是北京人多地少,高层楼房比较普遍。

3.7 建筑年份分析

以翻新状态和有无电梯作为分类条件的情况下,使用FaceGrid分析年份特征,可得到如下结果:

a. 1980年前的二手房不存在有电梯的数据,说明在这个年代之前还没有大量安装电梯。

b. 整个二手房房价趋势随着时间增长而增长。

c. 2000年后的二手房房价相较于2000年之前的有明显的价格上涨。

3.8 楼层分析

通过计数图分析不同楼层的数量分布:

分析结果:

通过可视图发现,6层的二手房数量最多,但是并不能说明楼层对房价有太大的影响,楼层也需要结合一定的民间文化来做联系,俗语七上八下,可能七层更受欢迎,4层和18层一般不受欢迎,此外中高层房屋视野相对较好,因此价格相对较高。

3.9 房价预测

本例主要使用线性回归和随机森林两种模型进行了预测,限于篇幅,特征处理这里就不演示了。

运行结果:

线性回归的均方误差是5.87E8,R方得分0.482,随机森林三种分支模型R方得分均超过0.65,其中极端随机森林模型的预测能力最好,线性回归相较随机森林模型的预测能力明显偏下。

04 总结

本案例通过常见的数据分析方法对二手房数据进行了全面的数据分析和可视化展现,完整的体现了整个数据分析的流程,通过本案例能够掌握基础和经典python数据分析手段。

当然还有更多的分析维度可以添加,正在学习的你,是否跃跃欲试了呢?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容