之前我们详细的聊一聊Pandas里面有关索引的基本操作,参考:
https://www.jianshu.com/writer#/notebooks/48887495/notes/81497390
这一期就聊聊索引的另外一个多级索引
首先了解一下什么是多级索引,以及它的作用,为什么要有这个玩意。
多级索引也称为层次化索引(hierarchical indexing),是指数据在一个轴上(行或者列)拥有多个(两个以上)索引级别。之所以引入多级索引,在于它可以使用户能以低维度形式处理高维度数据。这句话可能不太好理解,下面举个栗子:
在一张二维表格中可以方便的存储两个维度的数据,比如我们现在有一张高三八班的期末考试成绩表,第一个维度行是某个学生各科的考试成绩,另一个维度列是某一科所有学生的成绩
现在在加入一个维度:不同的班级。即如果我们想在这张表上在加上高三七班同样的成绩该怎么操作?这时候我们就可以在行上在加入一个班级的维度,如下:
正常情况下,不同的班级的所有学生的成绩应该是引入不同的表格来存储,即三八班和三七班是两张表。但是引入多级索引就可以把这两张表整合在一起,即所谓的以低维度形式处理高维度的数据。 这种情况在每张表数据量不大或者字段不多的时候使用起来比较方便
1. 多级索引的创建
通常由两种方式创建多级索引:
- 通过多级数组隐式创建
- 通过pd.MultiIndex显示创建
下面分别举例
- 方法1-隐式创建,即给DataFrame的index或columns参数传递两个或更多的数组。
import pandas as pd
import numpy as np
from pandas import DataFrame, Series
df = DataFrame (np.random.randint ( 0 , 100 ,( 4 , 6 )),
index = ['学生' + i for i in 'ABCD'],
columns =[[ '数学' , '数学' , '语文' , '语文' , '英语' , '英语' ],
[ '期中' , '期末' , '期中' , '期末' , '期中' , '期末' ]])
df
上面通过在columns传入一个二维数组来隐式创建多级索引,结果如下:
仔细观察就可以发现上面的表格中包含学生(A/B/C/D)、科目(数学/语文)、考试阶段(期中/期末)三个维度的信息,但是是用一张二维表格来呈现。
- 方法二 —— 通过pd.MultiIndex显示创建
常用的有 from_tuples, from_arrays, from_product 三种方法,它们都是 pd.MultiIndex 对象下的函数。其中, from_product最简单,推荐使用。下面分别举例说明。
2.1: from_tuples指根据传入由元组组成的列表进行构造:
my_tup = [('Python', '期中'),('Python', '期末'),('Java', '期中'),('Java', '期末')]
my_index = pd.MultiIndex.from_tuples(my_tup, names = ['Obj', 'time'])
pd.DataFrame(np.random.randint(60,100, (4,3)),
index = my_index,
columns = [*'ABC'])
2.2 from_arrays指根据传入列表中,对应层的列表进行构造:
arr = [[*'ABCD'], ['a', 'b'] *2]
my_index = pd.MultiIndex.from_arrays(arr, names = ['first', 'secoond'])
col = ['China', 'US', 'UK']
val = np.random.randint(50,100, (4, 3))
df = pd.DataFrame(val, index = my_index, columns = col )
df
2.3 from_product指根据多个列表的笛卡尔积构造多级索引
mul_col = pd.MultiIndex.from_product([['Python', 'C++', 'Java'],['期中', '期末']])
df = DataFrame ( np . random . randint ( 0 , 100 ,( 6 , 4 )),
index = mul_col,
columns = list('ABCD'))
df
知识链接
笛卡尔积:令A和B是任意两个集合,若序偶的第一个成员是A的元素,第二个成员是B的元素,所有这样的序偶集合,称为集合A和B的笛卡尔乘积或直积,记做A X B
若A={a1,a2,a3……an},B = {b1,b2,b3,……bn},
则A X B = {(a1,b1), (a1,b2),....(an,bn) }, 共有n*n个元素
且每个元素中a永远在前面,b永远在后面。
例如,A={a,b}, B={0,1,2},则
A×B={(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}
B×A={(0, a), (0, b), (1, a), (1, b), (2, a), (2, b)}
总结一下多级索引MultiIndex和单极索引类似,只不过其索引中的一个元素是元组而不是单层索引中的标量。例如上面的例子中和单极索引一样我们可以使用index来查看索引。另外外层连续出现相同的值时,第一次之后出现的会被隐藏显示,使结果的可读性增强。
df.index
>>>
MultiIndex([('Python', '期中'),
('Python', '期末'),
( 'C++', '期中'),
( 'C++', '期末'),
( 'Java', '期中'),
( 'Java', '期末')],
)
2. 多级索引的常用操作
2.1 索引层的交换和删除
既然是多级索引,那么必然涉及到不同层之间的顺序调整。在pandas中索引层的交换由swaplevel和reorder_levels完成,前者只能交换两个层,而后者可以交换任意层,两者都可以指定交换的是轴是哪一个,即行索引(axis = 0)或列索引(axis = 1).为了方便举例说明,下面先创建一个多层索引的DataFrame
L1,L2,L3 = ['A','B'],['a','b'],['alpha','beta']
mul_index1 = pd.MultiIndex.from_product([L1,L2,L3], names=('Upper', 'Lower','Extra'))
L4,L5,L6 = ['C','D'],['c','d'],['cat','dog']
mul_index2 = pd.MultiIndex.from_product([L4,L5,L6], names=('Big', 'Small', 'animal'))
df_ex = pd.DataFrame(np.random.randint(-9,10,(8,8)), index=mul_index1, columns=mul_index2)
df_ex
- swaplevel交换两层
df_ex.swaplevel(0,2, axis = 1) # 列索引的第一层和最后一层互换
- reorder_levels调整多层顺序
df_ex.reorder_levels([2,0,1], axis = 0) # 行索引改变顺序
- 若想要删除某一层的索引,可以使用droplevel方法。同时删除多层,可以传入一个列表
df_ex.droplevel([0,2], axis = 0)
2.2 索引属性的修改
常用的有rename_axis和rename,其中:
- rename_axis:用于修改索引层的名字,即在使用pd.MultiIndex创建时传入的names参数的值。可以传入字典进行修改
- rename: 对索引的值进行修改,如果是多级索引需要指定修改的层号level:
# 修改索引层的名字
df_ex.rename_axis(index={'Extra':'Extra_change'},
columns={'animal':'animal_change'})
# ranme修改索引值,index/columns均可
df_ex.rename(index = {'alpha': 'alpha_change'}, level = 2)
对于rename,传入参数也可以是函数,其输入值就是索引元素:
df_ex.rename(columns = lambda x: str.upper(x), level=2)
另外,在修改索引时还有一个map函数比较好用。它是定义在index之上的方法。与前面rename方法中层的函数式用法是类似的,只不过它传入的不是层的标量值,而是直接传入索引的元组,这样可以对整个多级索引进行修改
例如我们将上面的索引中的小写转化为大写,且在每个索引后加上 “_change':
df_temp = df_ex.copy()
new_idx = df_temp.index.map(lambda x: (x[0]+'_change',str.upper(x[1])+'_change', str.upper(x[2])+'_change'))
df_temp.index = new_idx
df_temp
另外,map的另外一个常用的用法是用于多层索引的压缩,如下:
df_temp = df_ex.copy()
new_idx = df_temp.index.map(lambda x: (x[0]+'-'+x[1]+'-'+x[2]))
df_temp.index = new_idx
df_temp.head() # 将原来的三层索引压缩为一层
自然的,也可以反向展开:
new_idx = df_temp.index.map(lambda x:tuple(x.split('-')))
df_temp.index = new_idx
df_temp# 三层索引
好了,关于多级索引就学习这么多内容!
参考:开源内容joyful-pandas, 作者: Datawhale-耿远昊
另外,更多精彩内容也可以微信搜索,并关注公众号:‘Python数据科学家之路“ ,期待您的到来和我交流!