python大数据-统计北京各区二手市场活跃度

目标

统计北京各区二手市场活跃度

工作流程

清洗数据;更新数据,整理思路;可视化数据

具体方法

import charts
import pymongo
client = pymongo.MongoClient('localhost', 27017)
ceshi = client['ceshi']
item_info = ceshi['item_infoS']
# 数据库内的数据是这个样子的
for i in item_info.find().limit(300):
    print(i)

下面为打印结果:
{'pub_date': '2016.01.12', 'time': 0, '_id': ObjectId('5698f524a98063dbe9e91ca8'), 'price': 450, 'url': 'http://bj.58.com/jiadian/24541664530488x.shtml', 'look': '-', 'cates': ['北京58同城', '北京二手市场', '北京二手家电', '北京二手冰柜'], 'title': '【图】95成新小冰柜转让 - 朝阳高碑店二手家电 - 北京58同城', 'area': ['朝阳', '高碑店']} {'pub_date': '2016.01.14', 'time': 2, '_id': ObjectId('5698f525a98063dbe4e91ca8'), 'price': 1500, 'url': 'http://bj.58.com/jiadian/24349380911041x.shtml', 'look': '-', 'cates': ['北京58同城', '北京二手市场', '北京二手家电', '北京二手洗衣机'], 'title': '【图】洗衣机,小冰箱,小冰柜,冷饮机 - 朝阳定福庄二手家电 - 北京58同城', 'area': ['朝阳', '定福庄']}

pipeline = [
    {'$match':{'$and':[{'pub_date':{'$in':['2015.12.25','2015.12.27']}},{'time':1}]}},     #  筛选函数,这里筛选条件是pub_date和time
    {'$group':{'_id':{'$slice':['$area',1]},'counts':{'$sum':1}}},    # group接收2个参数,_id表示你以什么作为分组,counts为命名,后来跟函数表示你要做什么,sum表示发现一个加1,即计数作用。 主要用于数据的组团计算的,$price区别其他的$,它是表示调用原来的price
    {'$sort' :{'counts':-1}},    # 1表示从小到大正序排列,-1反之
    #{'$limit':3}   # 筛选出出现频率最高三组数
]
# {'pub_date':'2015.12.24'}
for i in item_info.aggregate(pipeline):
    print(i)

打印结果如下:

{'_id': ['朝阳'], 'counts': 60}    # 打印结果,非程序
{'_id': ['不明'], 'counts': 59}
{'_id': ['海淀'], 'counts': 38}
{'_id': ['丰台'], 'counts': 26}
{'_id': ['昌平'], 'counts': 18}
def data_gen(date,time):   # 定义成函数
    pipeline = [
        {'$match':{'$and':[{'pub_date':{'$in':date}},{'time':time}]}},
        {'$group':{'_id':{'$slice':['$area',1]},'counts':{'$sum':1}}},
        {'$sort' :{'counts':-1}},
    ]
    for i in item_info.aggregate(pipeline):
        yield [i['_id'][0],i['counts']]
for i in data_gen(['2015.12.25','2015.12.27'],1):
    print(i)

打印出的结果如下:

['朝阳', 60]   # 打印结果,这种格式正式图示化所需要的
['不明', 59]
['海淀', 38]
['丰台', 26]
['昌平', 18]
['通州', 13]
['大兴', 13]
['房山', 9]
['西城', 7]

图示化结果:

options = {          #  这些都是套路,在highchart 的js代码里找到
    'chart'   : {'zoomType':'xy'},
    'title'   : {'text': '饼图'},
    'subtitle': {'text': '城区交易量分布'},
    }


series =  [{
    'type': 'pie',
    'name': 'pie charts',
    'data':[i for i in data_gen(['2015.12.25','2015.12.27'],1)]

        }]
charts.plot(series,options=options,show='inline')
图示
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容