【呆鸟译Py】Pandas0.25来了，别错过这10大好用的新功能

Pandas0.25

呆鸟云：“7 月 18 日，Pandas 团队推出了 Pandas 0.25 版，这就相当于 Python 3.8 啦，Python 数据分析师可别错过新版的好功能哦。”

安装 0.25 版：pip install pandas，就可以了。

下面和大家一起看看新版 pandas 都有哪些改变。

一、四个置顶的警告！

从 0.25 起，pandas 只支持 Python 3.53 及以上版本了，不再支持 Python 2.7，还在使用 Python 2 的朋友可要注意了，享受不了新功能了，不过，貌似用 Python 2 做数据分析这事儿估计已经绝迹了吧！

下一版 pandas 将只支持 Python 3.6 及以上版本了，这是因为 f-strings 的缘故吗？嘿嘿。

彻底去掉了 Panel，N 维数据结构以后要用 xarray 了。说起来惭愧，呆鸟还没用过 Panel 呢，它怎么就走了。。。。

read_pickle() 与 read_msgpack()，只向后兼容到 0.20.3。上一篇文章刚介绍过 read_pickle()，它就也要离我们而去了吗？-_-||

看完了这四大警告，咱们再看下 0.25 带来了哪些新东西。

二、新增功能

1. Groupby 的命名聚合（Named Aggregation）

这可是个新功能，能直接为指定的聚合输出列命名。先创建一个 DataFrame 示例。

animals = pd.DataFrame({'品种': ['猫', '狗', '猫', '狗'],
                        '身高': [9.1, 6.0, 9.5, 34.0],
                        '体重': [7.9, 7.5, 9.9, 198.0]})
animals

命名聚合示例，居然还支持中文诶！不过，这里是为了演示清晰才写的中文变量名，平时，该用英文还是要用英文的。

animals.groupby('品种').agg(
    最低=pd.NamedAgg(column='身高', aggfunc='min'),
    最高=pd.NamedAgg(column='身高', aggfunc='max'),
    平均体重=pd.NamedAgg(column='体重', aggfunc=np.mean),
)

这么写看起来还是有些繁琐，很不 Pythonic，好在 pandas 提供了更简单的写法，只需传递一个 Tuple 就可以了，Tuple 里的第一个元素是指定列，第二个元素是聚合函数，看看下面的代码，是不是少敲了好多下键盘：

animals.groupby('品种').agg(
    最低=('身高', min),
    最高=('身高', max),
    平均体重=('体重', np.mean),
)

这里还可以进一步偷懒，只写 min 或 max，连单引号都不写了。

Pandas 提供了一种叫 pandas.NameAgg 的命名元组（namedtuple），但如上面的代码所示，直接使用 Tuple 也没问题。

这两段代码的效果是一样的，结果都如下图所示。

命名聚合

命名聚合取代了已经废弃的 dict-of-dicts 重命名方式，看了一下，之前的操作还真是挺复杂的，这里就不赘述了，有兴趣回顾的朋友，可以自己看下用 dict 重命名 groupby.agg() 输出结果（已废弃）这部分内容。

命名聚合还支持 Series 的 groupby 对象，因为 Series 无需指定列名，只要写清楚要应用的函数就可以了。

animals.groupby('品种').身高.agg(
    最低=min,
    最高=max,
)

命名聚合

更多有关命名聚合的介绍，详见官方文档 Named aggregation 。

2. Groupby 聚合支持多个 lambda 函数

0.25 版有一个黑科技，以 list 方式向 agg() 函数传递多个 lambda 函数。为了减少键盘敲击量，真是无所不用其极啊！

animals.groupby('品种').身高.agg([
    lambda x: x.iloc[0], lambda x: x.iloc[-1]
])

多个 lambda 函数1

animals.groupby('品种').agg([
    lambda x: x.iloc[0] - x.iloc[1],
    lambda x: x.iloc[0] + x.iloc[1]
])

多个 lambda 函数2

0.25 版前，这样操作会触发 SpecificationError

触发 SpecificationError

这个功能也有个小遗憾，多 lambda 函数的输出没有像命名聚合那样可以自定义命名，还要后面手动修改，有些不方便，不知道是我没找到，还是真没有……

3. 优化了 MultiIndex 显示输出

MultiIndex 输出的每行数据以 Tuple 显示，且垂直对齐，这样一来，MultiIndex 的结构显示的更清晰了。

pd.MultiIndex.from_product([['a', 'abc'], range(500)])

之前，是这样的

现在，是这样的

真是货比货得扔，以前没感觉，现在一比较，有没有觉得大不相同呢？

4. 精简显示 Series 与 DataFrame

超过 60 行的 Series 与 DataFrame，pandas 会默认最多只显示 60 行（见 display.max_rows 选项）。这种设置依然会占用大量垂直屏幕空间。因此，0.25 版引入了 display.min_rows 选项，默认只显示 10 行：

数据量小的 Series 与 DataFrame，显示 max_row 行数据，默认为 60 行，前 30 行与后 30 行；
数据量大的 Series 与 DataFrame，如果数据量超过 max_rows，只显示 min_rows 行，默认为 10 行，即前 5 行与后 5 行。

最大与最小行数这种双重选项，允许在数据量较小时，比如数据量少于 60 行，显示全部数据，在数据量较大时，则只显示数据摘要。

要去掉 min_rows 的设置，可以把该选项设置为 None：
pd.options.display.min_rows = None

sales_date1 = pd.date_range('20190101', periods=1000, freq='D')
amount1 = np.arange(1000)
cols = ['销售金额']
sales1 = pd.DataFrame(amount1,index=sales_date1,columns=cols)

min_rows

在 VSCode 里显示正常，只显示了前 5 行与后 5 行，但貌似 Jupyter Notebook 6.0 目前貌似还不支持这个设置，还是显示前 30 行与后 30 行。图片太长，这里就不截图了。如果 Jupyter 可以的话，请告诉我。

5. json_normalize() 支持 max_level

json_normalize() 支持按层级（level）读取，增加了 max_level 控制参数。

from pandas.io.json import json_normalize

data = [{
        'CreatedBy': {'Name': 'User001'},
        'Lookup': {'TextField': 'Some text',
                   'UserField': {'Id': 'ID001', 'Name': 'Name001'}},
        'Image': {'a': 'b'}
        }]

0.25 以前是这样的，所有层级都读取出来了：

json_normalize(data)

0.25以前

0.25 以后是这样的，可以通过 max_level 参数控制读取的 JSON 数据层级：

json_normalize(data, max_level=1)

0.25以后

6. 增加 explode() 方法，把 list “炸”成行

Series 与 DataFrame 增加了 explode() 方法，把 list 形式的值转换为单独的行。

df = pd.DataFrame([{'变量1': 'a,b,c', '变量2': 1},
                   {'变量1': 'd,e,f', '变量2': 2}])
df

df.assign(变量1=df.变量1.str.split(',')).explode('变量1')

以后再拆分这样的数据就简单多了。具体官方文档说明详见 section on Exploding list-like column。

7. SparseDataFrame 被废弃了

0.25 以前专门有 SparseDataFrame()，生成稀疏矩阵，0.25 以后，这个函数被废弃了，改成 pd.DataFrame 里的 pd.SparseArray() 了，函数统一了，但是要多敲几下键盘了。

0.25 以前是这样的：

pd.SparseDataFrame({"A": [0, 1]})

0.25 以后是这样的：

pd.DataFrame({"A": pd.SparseArray([0, 1])})

输出的结果都是一样的：

稀疏矩阵

8. 对 DataFrame Groupby 后，Groupby.apply 对每组只处理一次

df = pd.DataFrame({"a": ["x", "y"], "b": [1, 2]})
df

def func(group):
    print(group.name)
    return group

df.groupby('a').apply(func)

有没有想到，0.25 以前输出的结果居然是这样的：

0.25以前

0.25以后

这样才正常嘛~~！

9. 用 Dict 生成的 DataFrame，终于支持列排序啦

data = [
    {'姓 名': '张三', '城 市': '北京', '年 龄': 18},
    {'姓 名': '李四', '城 市': '上海', '年 龄': 19, '爱 好': '打游戏'},
    {'姓 名': '王五', '城 市': '广州', '年 龄': 20, '财务状况': '优'}
]
pd.DataFrame(data)

以前是乱序的，全凭 pandas 的喜好：

0.25以前

现在，我的字典终于我做主了！

0.25以后

10. Query() 支持列名空格了

用上面的 data 生成一个示例 DataFrame，注意列名是有空格的。

df = pd.DataFrame(data)

现在用反引号（`）括住列名，就可以直接查询了：

df.query('`年 龄` <19')

好了，本文就先介绍 pandas 0.25 的这些改变，其实，0.25 还包括了很多优化，比如，对 DataFrame GroupBy 后 ffill, bfill 方法的调整，对类别型数据的 argsort 的缺失值排序，groupby保留类别数据的数据类型等，如需了解，详见官方文档 What's new in 0.25.0。

配套的 Jupyter Notebook 文件链接这里。

最后编辑于：2020.11.13 14:41:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

【呆鸟译Py】Pandas0.25来了，别错过这10大好用的新功能

一、四个置顶的警告！

二、新增功能

1. Groupby 的命名聚合（Named Aggregation）

2. Groupby 聚合支持多个 lambda 函数

3. 优化了 MultiIndex 显示输出

4. 精简显示 Series 与 DataFrame

5. json_normalize() 支持 max_level

6. 增加 explode() 方法，把 list “炸”成行

7. SparseDataFrame 被废弃了

8. 对 DataFrame Groupby 后，Groupby.apply 对每组只处理一次

9. 用 Dict 生成的 DataFrame，终于支持列排序啦

10. Query() 支持列名空格了

推荐阅读更多精彩内容