超好用的 pandas 之 groupby

准备

这个博客是用 Jupyter Notebook 写的, 如果你没有用过也不影响阅读哦.
这里只要电脑装了python和pandas就好, 我们会先读入一个数据集.

# 读入一个数据集, 我使用了美国警方击毙数据集.
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
plt.style.use('ggplot')
path = 'https://raw.githubusercontent.com/HoijanLai/dataset/master/PoliceKillingsUS.csv'
data = pd.read_csv(path, encoding ='latin1')
data.sample(3)

	name	date	race	age	signs_of_mental_illness	flee
683	Tyrone Holman	09/09/15	B	37.0	True	Not fleeing
1941	Michael Alan Altice	25/12/16	W	61.0	True	Not fleeing
652	Manuel Soriano	27/08/15	H	29.0	False	Not fleeing

什么是group by

groupby就是按xx分组, 它也确实是用来实现这样功能的. 比如, 将一个数据集按A进行分组, 效果是这样

我们尝试使用groupby来尝试实现这样的功能, 不过我们不用A列, 我们将用我们数据集里面的"种族"尝试分组:

data.groupby('race')

<pandas.core.groupby.DataFrameGroupBy object at 0x104fa2208>

这里我们得到了一个叫DataFrameGroupBy的东西, 虽然 pandas 不让我们直接看它长啥样, 但是你将它想象成上面那幅分组后的图(我手绘的)是完全没有问题的.

这篇稿主要介绍如何鼓捣这个DataFrameGroupBy, 这个DataFrameGroupBy主要的功能能是允许你在不额外写循环的情况下, 快速对每一组数据进行操作

基本操作

最基本的就是组内计数, 求和, 求均值, 求方差, 求blablabla...
比如, 要求被不同种族内被击毙人员年龄的均值:

data.groupby('race')['age'].mean()

race
A 36.605263
B 31.635468
H 32.995157
N 30.451613
O 33.071429
W 40.046980
Name: age, dtype: float64

上面我们求得了各个种族中被击毙的人员的平均年龄, 得到的是一个Series, 每一行对应了每一组的mean, 除此之外你还可以换成std, median, min, max这些基本的统计数据

上面age是连续属性, 我们还可以操作离散属性, 比如对不同取值的计数: .value_counts()
以下尝试求不同种族内, 是否有精神异常迹象的分别有多少人

data.groupby('race')['signs_of_mental_illness'].value_counts()

race signs_of_mental_illness
A False 29
True 10
B False 523
True 95
H False 338
True 85
N False 23
True 8
O False 21
True 7
W False 819
True 382
Name: signs_of_mental_illness, dtype: int64

注: 这时, 组内操作的结果不是单个值, 是一个序列, 我们可以用.unstack()将它展开

data.groupby('race')['signs_of_mental_illness'].value_counts().unstack()

signs_of_mental_illness	False	True
race
A	29	10
B	523	95
H	338	85
N	23	8
O	21	7
W	819	382

方法总结

首先通过groupby得到DataFrameGroupBy对象, 比如data.groupby('race')

然后选择需要研究的列, 比如['age'], 这样我们就得到了一个SeriesGroupby, 它代表每一个组都有一个Series

对SeriesGroupby进行操作, 比如.mean(), 相当于对每个组的Series求均值

注: 如果不选列, 那么第三步的操作会遍历所有列, pandas会对能成功操作的列进行操作, 最后返回的一个由操作成功的列组成的DataFrame

可视化

这是我非常喜欢Groupby的一个地方, 它能够帮你很轻松地分组画图, 免去手写每个组的遍历的烦恼, 还能为你每个组分好颜色.

场景一: 不同种族中, 逃逸方式分别是如何分布的?

(属性A的不同分组中, 离散属性B的情况是怎么样的 )

一种传统做法是:
1. 遍历每个组
2. 然后筛选不同组的数据
3. 逐个子集画条形图 (或者其他表示)

races = np.sort(data['race'].dropna().unique())
fig, axes = plt.subplots(1, len(races), figsize=(24, 4), sharey=True)
for ax, race in zip(axes, races):
    data[data['race']==race]['flee'].value_counts().sort_index().plot(kind='bar', ax=ax, title=race)

还不错, 但是使用Groupby能让我们直接免去循环, 而且不需要烦人的筛选, 一行就完美搞定

data.groupby('race')['flee'].value_counts().unstack().plot(kind='bar', figsize=(20, 4))

方法总结

首先, 得到分组操作后的结果data.groupby('race')['flee'].value_counts()

这里有一个之前介绍的.unstack操作, 这会让你得到一个DateFrame, 然后调用条形图, pandas就会遍历每一个组(unstack后为每一行), 然后作各组的条形图

场景二: 按不同逃逸类型分组, 组内的年龄分布是如何的?

(属性A的不同分组中, 连续属性B的情况是怎么样的)

data.groupby('flee')['age'].plot(kind='kde', legend=True, figsize=(20, 5))

方法总结

这里data.groupby('flee')['age']是一个SeriesGroupby对象, 顾名思义, 就是每一个组都有一个Series. 因为划分了不同逃逸类型的组, 每一组包含了组内的年龄数据, 所以直接plot相当于遍历了每一个逃逸类型, 然后分别画分布图.

pandas 会为不同组的作图分配颜色, 非常方便

高级操作

场景三: 有时我们需要对组内不同列采取不同的操作

比如说, 我们按flee分组, 但是我们需要对每一组中的年龄求中位数, 对是否有精神问题求占比

这时我们可以这样做

data.groupby('race').agg({'age': np.median, 'signs_of_mental_illness': np.mean})

	age	signs_of_mental_illness
race
A	35.0	0.256410
B	30.0	0.153722
H	31.0	0.200946
N	29.0	0.258065
O	29.5	0.250000
W	38.0	0.318068

方法总结
这里我们操作的data.groupby('race')是一个DataFrameGroupby, 也就是说, 每一组都有一个DataFrame

我们把对这些DataFrame的操作计划写成了了一个字典{'age': np.median, 'signs_of_mental_illness': np.mean}, 然后进行agg, (aggragate, 合计)

然后我们得到了一个DataFrame, 每行对应一个组, 没列对应各组DataFrame的合计信息, 比如第二行第一列表示, 黑人被击毙者中, 年龄的中位数是30, 第二行第二列表示, 黑人被击毙者中, 有精神疾病表现的占15%

场景四: 我们需要同时求不同组内, 年龄的均值, 中位数, 方差

data.groupby('flee')['age'].agg([np.mean, np.median, np.std])

	mean	median	std
flee
Car	33.911765	33.0	11.174234
Foot	30.972222	30.0	10.193900
Not fleeing	38.334753	36.0	13.527702
Other	33.239130	33.0	9.932043

方法总结

现在我们对一个SeriesGroupby同时进行了多种操作. 相当于同时得到了这三行的结果:

data.groupby('flee')['age'].mean()
data.groupby('flee')['age'].median()
data.groupby('flee')['age'].std()

所以这其实是基本操作部分的进阶

场景五: 结合场景三和场景四可以吗?

答案是肯定的, 请看

data.groupby('flee').agg({'age': [np.median, np.mean], 'signs_of_mental_illness': np.mean})

	age		signs_of_mental_illness_mean
flee	median	mean	mean
Car	33.0	33.911765	0.114286
Foot	30.0	30.972222	0.115646
Not fleeing	36.0	38.334753	0.319174
Other	33.0	33.239130	0.072917

但是这里有一个问题, 这个列名分了很多层级, 我们可以进行重命名:

agg_df = data.groupby('flee').agg({'age': [np.median, np.mean], 'signs_of_mental_illness': np.mean})
agg_df.columns = ['_'.join(col).strip() for col in agg_df.columns.values]
agg_df

	age_median	age_mean	signs_of_mental_illness_mean
flee
Car	33.0	33.911765	0.114286
Foot	30.0	30.972222	0.115646
Not fleeing	36.0	38.334753	0.319174
Other	33.0	33.239130	0.072917

方法总结
注意这里agg接受的不一定是np.mean这些函数, 你还可以进行自定义函数哦

总结

Groupby 可以简单总结为 split, apply, combine, 也就是说:

split : 先将数据按一个属性分组 (得到 DataFrameGroupby / SeriesGroupby )
apply : 对每一组数据进行操作 (取平均取中值取方差或自定义函数)
combine: 将操作后的结果结合起来 (得到一个DataFrame 或 Series 或可视化图像)

希望看完本文你已经对groupby的使用有清晰的印象, 并充满信心, 如果你需要更细致的微操作, 多属性Groupby等, 可以进一步阅读文档

❤️~

最后编辑于：2018.11.26 22:08:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,519评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,842评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,544评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,742评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,646评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,027评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,513评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,169评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,324评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,268评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,299评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,996评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,591评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,667评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,911评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,288评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,871评论 2赞 341

超好用的 pandas 之 groupby

超好用的 pandas 之 groupby

准备

什么是group by

基本操作

更多基本操作

可视化

场景一: 不同种族中, 逃逸方式分别是如何分布的?

场景二: 按不同逃逸类型分组, 组内的年龄分布是如何的?

高级操作

场景三: 有时我们需要对组内不同列采取不同的操作

场景四: 我们需要同时求不同组内, 年龄的均值, 中位数, 方差

场景五: 结合场景三和场景四可以吗?

总结

推荐阅读更多精彩内容