首发于微信公众号东哥夜谈。欢迎关注东哥夜谈,让我们一起聊聊个人成长、投资、编程、电影、运动等话题。
本帐号所有文章均为原创。文章可以随意转载,但请务必注明作者。如果觉得文章有用,欢迎转发朋友圈分享。
1. 缘起
昨天我们讨论了如何对 Series 里面的元素进行批量操作,那么同样的问题对 DataFrame 应该怎么做呢?
2. 操作
DataFrame 有个 apply
方法,就是把函数映射到 DataFrame 里面每个 Series 上,对 Series 进行操作。这个等于是第一次降维。
In [3]: df = pd.DataFrame(np.random.randn(4,3), columns=list('bde'), index=['Utah','Ohio','Texas','Oregon'])
In [4]: df
Out[4]:
b d e
Utah 0.241315 -0.586773 -1.365804
Ohio 0.973860 -0.600773 0.437951
Texas 1.003621 -1.142369 -1.374085
Oregon -0.290861 0.728503 -1.356081
In [5]: df.apply(lambda x: x.max()-x.min())
Out[5]:
b 1.737881
d 1.347365
e 3.404816
dtype: float64
这里的 x 就是一个 Series ,对其取最大值与最小值的差,得到一个标量;批量操作 df 形成一组标量,这组标量又形成一个 Series。Series 就可以用昨天的方法进一步降维,实施批量元素操作。
那么如果想直接对 DataFrame 的元素实施批量操作怎么办呢?很容易想到的就是把上面两个方法结合起来用。pandas 内置了该方法,即applymap
,操作如下
In [12]: df.applymap(lambda x: '%.2f' % x)
Out[12]:
b d e
Utah 1.31 0.53 -0.90
Ohio -0.43 0.24 0.16
Texas 0.35 0.91 -1.74
Oregon 0.14 -0.43 1.66
至此,批量操作问题完美解决。然而,就在我得意的时候,看到了鱼老师对之前问题的回复,顿时觉得自己探索的好没劲:
In [13]: round(df, 2)
Out[13]:
b d e
Utah 1.31 0.53 -0.90
Ohio -0.43 0.24 0.16
Texas 0.35 0.91 -1.74
Oregon 0.14 -0.43 1.66
Python 自带的 round 就可以接受 DataFrame 对象……情何以堪啊情何以堪,又是 apply
又是 map
甚至还用上 lambda
,呵……
3. 总结
今天我们讨论了如何对 DataFrame 进行降维操作,可以用apply
对 Series进行批量操作,也可用 applymap
对元素进行批量操作。
而实际上,很多原先只对简单对象如 int/float 之类操作的纯 Python 函数,居然也可以对 pandas 的 Series/DataFrame 进行操作,比如abs
/round
之类。但对纯 Python 的 list 就不可以。
Python 为了语义上的严谨,对各种操作做的限制可以理解,但还是不得不赞叹,pandas 的功能实在很好很强大!