这次换一个售房网站来练练手,爬取目标是我爱我家的成交记录。
我爱我家的网站结构貌似比链家的要复杂一点点,它并没有像链家网一样,把成交记录单独分成一个版块,而是把每条成交记录按小区进行了汇总,一级界面显示成交均价,每条的成交价格需要进入各个小区的二级界面,继续往下拖动之后才能查看。那么,我们想要爬取的每条成交价格,实则在二级界面的详细成交记录框内。
十五家园小区二级界面
http://hz.5i5j.com/community/22700
以十五家园小区为例,分析一下二级界面的url。url中22700肯定就是该小区的ID,那么我们直接获取不同小区的ID后,对22700数值分别进行替换,就构建了所有小区的url列表,然后分别对不同的url进行请求,以获取每条成交价格行不行呢?结果应该是不行的。
在二级界面的成交框中,每一页只显示了4条成交记录,通过点击第接下来的几页,可以发现网址栏中的url仍然是http://hz.5i5j.com/community/22700,所以该成交框是通过异步加载完成的,相当于是另一个独立的网页内嵌在该小区的二级界面中。直接对二级界面的url进行请求,当然就获取不到成交框内的信息。
此处,我是通过抓包的方式来获取成交框的url。单击F12调出开发者工具,依次选择Network→Preserve log→点击第2页→选择Request URL。此处的Request URL应该就是成交框的真实url。
成交框url
http://hz.5i5j.com/exchange/getdeals?communityId=22700&page=2&communityname=%E5%8D%81%E4%BA%94%E5%AE%B6%E5%9B%AD
hz.5i5j.com/exchange/getdeals?是主域名,communityid=22700就是该小区的ID,page=2代表我们刚刚点击的第2页,communityname=%5%8...就是小区名称十五家园经过UTF-8转码后的表现形式。
一般情况下,如果直接将获取的这个url复制下来后并在另一个窗口中打开,应该是可以显示出我们想获取的成交框中的数据。但是此处,打开这个url却发现是一个空白页面,在python中利用requests库对该url进行请求,也获得不到任何数据。
于是尝试加入headers之后再进行请求。在F12的开发者界面中,将Request Headers下的信息添加进Headers之后,对成交框的url进行请求,发现可以正常显示出成交框内的信息。
进一步对成交框的url进行分析,可以发现将&communityname=及以后的内容删掉,也可以正常获得数据;headers中的X-Requested-With: XMLHttpRequest则不能删除,否则就返回的是空白页。
到现在,对网页的分析已经基本完毕!
- 获取成交数据的大致方向就是将URL: http://hz.5i5j.com/exchange/getdeals?communityId=22700&page=2拆分为3部分
- 第一部分http://hz.5i5j.com/exchange/getdeals?,不用变
- 第二部分communityId=22700,将22700替换成不同小区的ID
- 第三部分page=2,将2换成不同的数值以代表不同的页面
- 对构建的URL进行请求并获取数据
问题一 如何知道各个小区的ID?
在一级界面内对十五家园小区的名称进行审查元素后,发现ID是藏在了href中。
<a target="_blank" title="十五家园" href="/community/22700">十五家园</a>
因此只需要将一级界面中所有小区的ID通过xpath的方式抓取出来即可。
问题二 如何知道成交框有多少页?
加入headers对成交框的url进行请求,返回的成交框源代码的末尾处,通过对倒数第二个<li>标签进行抓取获得。
此处倒数第一个<li>标签是 "尾页",倒数第二个<li>标签是 "6",即最大页面。整理一下思路就是
但是在我爱我家的一级界面中最多只能显示12条小区信息,也就是说一个一级界面的url只能获取12个小区的ID,只有先获取了所有一级界面的URL,才能进一步获得所有小区的ID。
我爱我家一级界面URL
http://hz.5i5j.com/community/n1
再通过不断的点击下一页,可以发现n后面的数字就代表了页数。那么问题就简单了,直接对n后的数值不断的迭代,就获得了所有的一级界面url。
问题真这么简单吗?坑爹的发现,将n后的数值迭代到85时,就不能显示出小区信息了,也就是说通过这个方法只能获得84×15=1260条小区信息,然而总共有5000多条信息。
老办法,通过加入筛选条件,对小区进行分割,此处我还是选择了以价格为条件,人为的将每个条件下的小区数量控制在1260条以下。另外还选择了以行政区域为条件,因为在1万元以下的小区数量还是超过了1260条,因此我继续对其进行了分割。
#p1 [0,10000)
#p2 [10000,15000)
#p3 [15000,20000)
#p4 [20000,25000)
#p7 [70000,+∞)
start_urls = ['http://hz.5i5j.com/community/gongshu/p1',
'http://hz.5i5j.com/community/xiacheng/p1',
'http://hz.5i5j.com/community/shangcheng/p1',
'http://hz.5i5j.com/community/binjiang/p1',
'http://hz.5i5j.com/community/yuhang/p1',
'http://hz.5i5j.com/community/xiaoshan/p1',
'http://hz.5i5j.com/community/xihu/p1',
'http://hz.5i5j.com/community/jianggan/p1',
'http://hz.5i5j.com/community/fuyang/p1',
'http://hz.5i5j.com/community/p2/',
'http://hz.5i5j.com/community/p3/',
'http://hz.5i5j.com/community/p4/',
'http://hz.5i5j.com/community/p5/',
'http://hz.5i5j.com/community/p6/',
'http://hz.5i5j.com/community/p7/']
分割完毕之后,另一个问题是如何知道每个条件下的最大页面数量。我们知道,每1页最多只能显示12条小区,只要先知道在当前筛选条件下,一共有多少小区,就可以计算出有多少页。比如上面这个例子,一共有405个小区,那么就有405/12=33.75,向上取整即34页。
现在,整个流程已经清晰!
- 最大页面数X:用于构建所有一级的界面URL。
例如http://hz.5i5j.com/community/xiacheng/p(1~X) - ID Y和MaxPage Z用于构建该小区下的所有成交页面URL。
例如http://hz.5i5j.com/exchange/getdeals?communityId=Y&page=(1~Z)
对不同条件下的一级界面URL进行迭代至最大页数X,获取所有小区的ID,再对各个小区的成交框URL进行接待至最大页面数Z,抓取想要的信息即可。
最后放上源代码。
爬虫代码--我爱我家