爬虫实战--拿下最全租房数据 | 附源码

优秀不够，那就要无可替代！
点赞再看，养成好习惯

Python版本3.8.0，开发工具：Pycharm

写在前面的话

老规矩，目前为止，你应该已经了解爬虫的三个基本小节：

不了解的自行点进去复习。

上一篇的实战只是给大家作为一个练手，数据内容比较少，且官网也有对应的 API，难度不大。

但是“麻雀虽小，五脏俱全”，如果这一节看完感觉流程还不是很熟悉，建议去看上一节：

爬虫实战-手把手教你爬豆瓣电影

好了，前面的回顾就到此为止。这节开始带大家真正搞事情。

准备工作

确定目标

今天我们的目标是某家网，官网链接：https://www.lianjia.com/。

当你用浏览器访问这个网址的时候，可能会自动变成 https://sz.lianjia.com/ 这种。

sz 代表的是城市深圳。
（哈哈，是的，小一我现在在深圳。）

某家网上有二手房、新房、租房等等，我们今天的目标是 https://sz.lianjia.com/zufang/
“你没看错，zufang 是 租房 的拼音“

所以，今天我们要爬取某家网的租房数据，地点：深圳。

设定流程

因为官网的数据每天都在发生变化，你也不必说要和我截图中的数据一模一样。

首先，我们已经确定了目标是某家网在深圳的所有租房数据，看一下首页

文章首发：公众号『知秋小一』

截止2019-12-31号，深圳十个区共 32708 套深圳租房，好像还挺多的，不知道我们能不能全部爬下来。

按照官网每页30条数据来看，我们看一下翻页的显示：

文章首发：公众号『知秋小一』

问题来了，显示页码只有100页，是不是100页之后被隐藏了呢？

我们试着在 url 中修改页码为pg101，结果发现显示的还是第100页的内容。

那，如何解决网页只有前100页数据？

设置搜索条件，确保每个搜索条件下的数据不超过3000条，这样我们就可以通过100页拿到所有的数据。

通过设置区域进行搜索，试试看：

文章首发：公众号『知秋小一』

罗湖区 2792条数据 < 3000。

ok，我们再看看其他区

[图片上传失败...(image-dab690-1578449129456)]

好像不太妙，福田区整租都有4002套（已经设置了整租条件的情况下）。

没关系，我们继续设置搜索条件：

文章首发：公众号『知秋小一』

新增居室搜索，可以看到福田区整租的一居有1621套，满足条件。

其他三个直接不用看了，肯定也满足。

继续查看剩余的几个区，发现也满足，搞定

那这样子的话，我们的步骤就是先检查记录数有没有超过3000条，超过了则继续增加新的条件，一直到不超过3000，然后分页遍历所有数据。

好，那我们稍微画一下流程图：

[图片上传失败...(image-301477-1578449129456)]

确定条件

大致流程基本没什么问题了，我们看一下具体需要注意的搜索条件。

[图片上传失败...(image-cbe581-1578449129456)]
首先是城市区域的获取，每个城市的区域都不一样，区域数据通过网页获取

其次是出租方式的获取，官网对应两种：整租和合租，观察 url 发现分别对应 rt200600000001、rt200600000002

然后是房屋居室的获取，官网对应四种：一居、二居、三居和四居，观察 url 发现分别对应 l0、l1、l2、l3（小写字母 L 不是1）

最后是分页的获取，官网 url 对应 pg+number。

拼接成 url 之后是：
base_url+/区域/+pg+出租方式+居室

细节处理

爬取的内容较多，每次爬取需要设置时间间隔
需要增加浏览器标识，防止被封 ip
需要增加检测机制，丢掉已经爬取过的数据
数据需动态保存在文件中，防止被封后需要重头再来
若要保存数据库，爬虫结束后再连接数据库

异常处理

官网中有一种类型的房屋，网页格式不标准，且拿不到具体数据。

对，就是公寓。

可以看到，在房屋列表中公寓无论是在价格显示、房屋地址、朝向等都异于普通房屋。

文章首发：公众号『知秋小一』

且在详细界面的内容也是无法拿到标准信息的

文章首发：公众号『知秋小一』

对于这种数据，我们直接丢掉就好。

开始实战

根据流程图，步骤已经很清楚了：

确定城市，获取目标主页网址
针对数据，确定目标查询条件
针对总数，确定目标页码划分
针对内容，确定目标对象字段

你准备好了吗?

确定要获取的数据字段：

```
# encoding:utf-8
# Author:   小一 
# address:  公众号：知秋小一
# email:    1010490079@qq.com
# Date:     2019/12/24 0:04
# Description: 链家租房数据字段
```

city: 城市
house_id：房源编号
house_rental_method：房租出租方式：整租/合租/不限
house_address：房屋地址：城市/区/小区/地址
house_longitude：经度
house_latitude：纬度
house_layout：房屋格局
house_rental_area：房屋出租面积
house_orientation：房屋朝向
house_rental_price：房屋出租价格
house_update_time：房源维护时间
house_tag：房屋标签
house_floor：房屋楼层
house_elevator：是否有电梯
house_parking：房屋车位
house_water：房屋用水
house_electricity：房屋用电
house_gas：房屋燃气
house_heating：房屋采暖
create_time：创建时间
house_note：房屋备注
# 额外字段
house_payment_method：房屋付款方式：季付/月付
housing_lease：房屋租期

第一件事，设置城市、网址和爬虫头部

# 通过城市缩写确定url
city_number = 'sz'
url = 'https://{0}.lianjia.com/zufang/'.format(city_number)

爬虫头部我们只需要设置一个 User-Agent 就行了

User-Agent 尽可能多的设置。（篇幅有限，这里只放一部分，更多设置请在文末获取源码查看）

# 主起始页
self.base_url = url
# 当前筛选条件下的页面
self.current_url = url
# 设置爬虫头部
self.headers = {
    'User-Agent': self.get_ua(),
}

def get_ua(self):
    """
    在UA库中随机选择一个UA
    :return: 返回一个库中的随机UA
    """
    ua_list = [
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50",
        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0"
    ]

    return random.choice(ua_list)

接下来，获取当前城市的总记录数。

想一想，万一有的城市出租房总记录数都不大于3000，那我们岂不是连搜索条件都不用设置了?

每个城市的区域数据都不一样，如果要手动输入的话那太麻烦了。

我们直接通过网页获取到要查询城市的区域数据。

def get_house_count(self):
    """
    获取当前筛选条件下的房屋数据个数
    @param text:
    @return:
    """
    # 爬取区域起始页面的数据
    response = requests.get(url=self.current_url, headers=self.headers)
    # 通过 BeautifulSoup 进行页面解析
    soup = BeautifulSoup(response.text, 'html.parser')
    # 获取数据总条数
    count = soup.find_all(class_='content__title--hl')[0].string
    
    return soup, count

获取到总记录数之后，就需要拿 3000 对它衡量一下了。

超过3000，则进行二次划分；不超过，则直接遍历获取数据

# 获取当前筛选条件下数据总条数
soup, count_main = self.get_house_count()

# 如果当前当前筛选条件下的数据个数大于最大可查询个数，则设置第一次查询条件
if int(count_main) > self.page_size*self.max_pages:
    # 获取当前城市的所有区域，当做第一个查询条件
    pass
else:
    # 直接遍历获取数据
    pass

第二步，添加条件

首先获取当前城市的所有区域

可以看到，深圳市的所有区域都在页面上

文章首发：公众号『知秋小一』

多谢某家整理的整整齐齐，以后租房就去你家了

直接获取到所有符合要求的 li 标签，拿到区域数据

需要注意我们拿到的区域数据，我们只需要它的拼音，即 href 中后面的部分

# 拿到所有符合要求的 li 标签
soup_uls = soup.find_all('li', class_='filter__item--level2', attrs={'data-type': 'district'})
self.area = self.get_area_list(soup_uls)

def get_area_list(self, soup_uls):
    """
    获取城市的所有区域信息，并保存
    """
    area_list = []
    for soup_ul in soup_uls:
        # 获取 ul 中的 a 标签的 href 信息中的区域属性
        href = soup_ul.a.get('href')
        # 跳过第一条数据
        if href.endswith('/zufang/'):
            continue
        else:
            # 获取区域数据，保存到列表中
            area_list.append(href.replace('/zufang/', '').replace('/', ''))

    return area_list

拿到之后，直接遍历每个区域，将区域当做我们第一个查询条件

在第一个查询条件下，同样需要获取该条件下的总记录数

是不是有点熟悉，又重复第一步的工作了。

体会到我为什么刚才把获取总记录数这个功能封装在函数里了吧，后面也还会再用到！

# 遍历区域，重新生成筛选条件
for area in self.area:
    self.get_area_page(area)
    
def get_area_page(self, area):
    """
    当前搜索条件：区域
    @param area:
    @return:
    """
    # 重新拼接区域访问的 url
    self.current_url = self.base_url + area + '/'
    # 获取当前筛选条件下数据总条数
    soup, count_area = self.get_house_count()

在当前条件下，同样需要判断是否超过 3000条。

如果超过，同样进行条件划分

'''如果当前当前筛选条件下的数据个数大于最大可查询个数，则设置第二次查询条件'''
if int(count_area) > self.page_size * self.max_pages:
    # 遍历出租方式，重新生成筛选条件
    for rental_method in self.rental_method:
        pass
else:
    # 直接遍历获取数据
    pass

这里我们在初始化函数中定义了出租方式和居室情况，所以不需要再从网页上获取，可以直接 for 循环了。

每个城市的出租方式和居室数据都是固定的，直接定义好会更方便。

# 出租方式：整租+合租
self.rental_method = ['rt200600000001', 'rt200600000002']
# 居室：一居、二居、三居、四居+
self.rooms_number = ['l0', 'l1', 'l2', 'l3']

同样我们需要获取出租方式条件下的总记录数

# 重新拼接区域 + 出租方式访问的 url
self.current_url = self.base_url + area + '/' + rental_method + '/'
# 获取当前筛选条件下数据总条数
soup, count_area_rental = self.get_house_count()

同理，继续往下添加房屋居室数量

# 重新拼接区域 + 出租方式 + 居室 访问的 url
self.current_url = self.base_url + area + '/' + rental_method + room_number + '/'
# 获取当前筛选条件下数据总条数
soup, count_area_rental_room = self.get_house_count()

第三步，确定页数，并开始遍历每一页

设置相应的页码初始化数据，方便进行遍历

# 起始页码默认为0
self.start_page = 0
# 当前条件下的总数据页数
self.pages = 0
# 每一页的出租房屋个数，默认page_szie=30
self.page_size = page_size
# 最大页数
self.max_pages = 100

当我们最终条件确定的记录数不足3000时

就可以通过遍历页码获取所有数据。

# 确定页数
# count_number是当前搜索条件下的总记录数
self.pages = int(count_number/self.page_size) \
if (count_number%self.page_size) == 0 else int(count_number/self.page_size)+1

'''遍历每一页'''
for page_index in range(1, self.pages+1):
    self.current_url = self.base_url + area + '/' + 'pg' + str(page_index) + rental_method + room_number + '/'

    # 解析当前页的房屋信息，获取到每一个房屋的详细链接
    self.get_per_house()
    page_index += 1

第四步，访问每个房屋的详细页面

上一步已经定位到整个页面了，我们来看看定位的页面

文章首发：公众号『知秋小一』

这个页面已经包含详细页面的跳转 url以及当前房屋的部分主要数据。

并且这部分主要数据比详细页面的主要数据更好拿到，格式更规整。

好，那就选它了。

def get_per_house(self):
    """
    解析每一页中的每一个房屋的详细链接
    @return:
    """
    # 爬取当前页码的数据
    response = requests.get(url=self.current_url, headers=self.headers)
    soup = BeautifulSoup(response.text, 'html.parser')

    # 定位到每一个房屋的 div （pic 标记的 div）
    soup_div_list = soup.find_all(class_='content__list--item--main')
    # 遍历获取每一个 div 的房屋详情链接和房屋地址
    for soup_div in soup_div_list:
        # 定位并获取每一个房屋的详情链接
        detail_info = soup_div.find_all('p', class_='content__list--item--title twoline')[0].a.get('href')
        detail_href = 'https://sz.lianjia.com/' + detail_info

        # 获取详细链接的编号作为房屋唯一id
        house_id = detail_info.split('/')[2].replace('.html', '')
        '''解析部分数据'''
        # 获取该页面中房屋的地址信息和其他详细信息
        detail_text = soup_div.find_all('p', class_='content__list--item--des')[0].get_text()
        info_list = detail_text.replace('\n', '').replace(' ', '').split('/')
        # 获取房屋租金数据
        price_text = soup_div.find_all('span', class_='content__list--item-price')[0].get_text()

这里面我们需要注意开头说到的一点：公寓

公寓的 content__list--item--des 没有地址信息，所以我们通过长度去判断

# 如果地址信息为空，可以确定是公寓，而我们并不能在公寓详情界面拿到数据，所以，丢掉
if len(info_list) == 5:
    # 解析当前房屋的详细数据
    self.get_house_content(detail_href, house_id, info_list, price_text)

第五步，获取每个房屋的详细数据

上一步已经获取部分主要数据，这一步我们取剩下的数据。

首先先来看一下详细页面长啥样：

文章首发：公众号『知秋小一』

最上边的维护时间显示房源的更新状态，要它！

最右边的房屋标签数据也有用，要它一部分！

最下边的基本信息太有用了吧，肯定要它！

# 生成一个有序字典，保存房屋结果
house_info = OrderedDict()
    
'''爬取页面，获得详细数据'''
response = requests.get(url=href, headers=self.headers, timeout=10)
soup = BeautifulSoup(response.text, 'html.parser')

'''解析房源维护时间'''
soup_div_text = soup.find_all('div', class_='content__subtitle')[0].get_text()
house_info['house_update_time'] = re.findall(r'\d{4}-\d{2}-\d{2}', soup_div_text)[0]

'''解析房屋出租方式（整租/合租/不限）'''
house_info['house_rental_method'] = soup.find_all('ul', class_='content__aside__list')[0].find_all('li')[0].get_text().replace('租赁方式：', '')

'''解析房屋的标签'''
house_info['house_tag'] = soup.find_all('p', class_='content__aside--tags')[0].get_text().replace('\n', '/').replace(' ', '')

'''房屋其他基本信息'''
# 定位到当前div并获取所有基本信息的 li 标签
soup_li = soup.find_all('div', class_='content__article__info', attrs={'id': 'info'})[0]. 
find_all('ul')[0].find_all('li', class_='fl oneline')
# 赋值房屋信息
house_info['house_elevator'] = soup_li[8].get_text().replace('电梯：', '')
house_info['house_parking'] = soup_li[10].get_text().replace('车位：', '')
house_info['house_water'] = soup_li[11].get_text().replace('用水：', '')
house_info['house_electricity'] = soup_li[13].get_text().replace('用电：', '')
house_info['house_gas'] = soup_li[14].get_text().replace('燃气：', '')
house_info['house_heating'] = soup_li[16].get_text().replace('采暖：', '')
house_info['create_time'] = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
house_info['city'] = self.city

# 保存当前影片信息
self.data_info.append(house_info)

应该该拿的数据都拿到了。

不对，好像还有经纬度没有拿到。

检查一下，在 js 代码中发现了一个坐标

文章首发：公众号『知秋小一』

看着很可疑，我们通过坐标反查看一看到底是不是这个房屋地址

文章首发：公众号『知秋小一』

ok，没问题，正是我们要的，那把它也拿下吧！

'''解析经纬度数据'''
# 获取到经纬度的 script定义数据
location_str = response.text[re.search(r'(g_conf.coord)+', response.text).span()[0]:
                             re.search(r'(g_conf.subway)+', response.text).span()[0]]
# 字符串清洗，并在键上添加引号，方便转化成字典
location_str=location_str.replace('\n','').replace('','').replace("longitude","'longitude'").replace("latitude", "'latitude'")
# 获取完整经纬度数据，转换成字典，并保存
location_dict = eval(location_str[location_str.index('{'): location_str.index('}')+1])
house_info['house_longitude'] = location_dict['longitude']
house_info['house_latitude'] = location_dict['latitude']

第六步，保存数据

每 50 条数据追加保存到本地文件中

当所有记录都爬完之后，将本地文件保存到数据库中。

数据需要保存到本地文件和数据库中。

其中本地文件每爬取50条追加保存记录，数据库只需要爬取结束后保存一次。

def data_to_sql(self):
    """
    保存/追加数据到数据库中
    @return:
    """
    # 连接数据库
    self.pymysql_engine, self.pymysql_session = connection_to_mysql()
    # 读取数据并保存到数据库中
    df_data = pd.read_csv(self.save_file_path, encoding='utf-8')
    # 导入数据到 mysql 中
    df_data.to_sql('t_lianjia_rent_info', self.pymysql_engine, index=False, if_exists='append')

def data_to_csv(self):
    """
    保存/追加数据到本地
    @return:
    """
    # 获取数据并保存成 DataFrame
    df_data = pd.DataFrame(self.data_info)

    if os.path.exists(self.save_file_path) and os.path.getsize(self.save_file_path):
        # 追加写入文件
        df_data.to_csv(self.save_file_path, mode='a', encoding='utf-8', header=False, index=False)
    else:
        # 写入文件，带表头
        df_data.to_csv(self.save_file_path, mode='a', encoding='utf-8', index=False)
        
    # 清空当前数据集
    self.data_info = []

到此我们的流程就已经结束了。

小一我最终花了一天多的时间，爬取到了27000+数据。（公寓数据在爬取过程中已经丢掉了）

自行设置每次的休眠间隔，上面流程中我并没有贴出来，需要的在源代码中查看。

贴一下最终数据截图：

文章首发：公众号『知秋小一』

总结一下

主要流程

确定目标：爬取的网站网址以及要爬取的数据
设定流程：详细说明了我们每一步如何进行，以及整体的流程图
确定条件：在搜索过程中确定每个层级的搜索条件
细节处理：爬取数据较多，增加必要的细节处理，提高代码健壮性
异常处理：异常房屋类型的处理，在这里我们直接丢掉。

日常思考：

比起第一个项目，这个项目流程会复杂一些，但是本质上没有区别。

可以看到爬虫的核心代码其实就是那几句。

思考以下几点：

如果本次的网站需要登录，应该怎么办？
如果你要租房，你应该怎么分析？

必要提醒

上述方法仅针对当前的官网源代码
本次爬虫内容仅用作交流学习

源码获取

在公众号后台回复 某家租房 获取爬取某家网租房信息源码

本次爬虫的结果数据不对外公开，有需要的交流学习的可以加群获取。（后台回复加群）

写在后面的话

发现最近几篇文章都是5000字的长文，是我太啰嗦了吗（真的怀疑自己了）？

能坚持读到这的晚上记得给自己加个鸡腿，你已经很棒了。

我、我、我也想要加个鸡腿

呸呸呸，说好的不拿人民群众一针一线。

那，点个赞总行吧？

原创不易，欢迎点赞噢

文章首发：公众号【知秋小一】

文章同步：掘金，简书，csdn

最后编辑于：2020.03.25 22:03:41

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,711评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,932评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,770评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,799评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,697评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,069评论 1赞 276
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,535评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,200评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,353评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,290评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,331评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,020评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,610评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,694评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,927评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,330评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,904评论 2赞 341

爬虫实战--拿下最全租房数据 | 附源码

写在前面的话

准备工作

开始实战

总结一下

源码获取

写在后面的话

推荐阅读更多精彩内容