本节介绍 Pandas 基础数据结构,包括各类对象的数据类型、索引、轴标记、对齐等基础操作。首先,导入 NumPy 和 Pandas:
In [1]: import numpy as np
In [2]: import pandas as pd
“数据对齐是内在的”,这一原则是根本。除非显式指定,Pandas 不会断开标签和数据之间的连接。
下文先简单介绍数据结构,然后再分门别类介绍每种功能与方法。
Series
Series
是带标签的一维数组,可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引。调用 pd.Series
函数即可创建 Series:
>>> s = pd.Series(data, index=index)
上述代码中,data
支持以下数据类型:
- Python 字典
- 多维数组
- 标量值(如,5)
index
是轴标签列表。不同数据可分为以下几种情况:
多维数组
data
是多维数组时,index 长度必须与 data 长度一致。没有指定 index
参数时,创建数值型索引,即 [0, ..., len(data) - 1]
。
In [3]: s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
In [4]: s
Out[4]:
a 0.469112
b -0.282863
c -1.509059
d -1.135632
e 1.212112
dtype: float64
In [5]: s.index
Out[5]: Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
In [6]: pd.Series(np.random.randn(5))
Out[6]:
0 -0.173215
1 0.119209
2 -1.044236
3 -0.861849
4 -2.104569
dtype: float64
Pandas 的索引值可以重复。不支持重复索引值的操作会触发异常。其原因主要与性能有关,有很多计算实例,比如 GroupBy 操作就不用索引。
字典
Series 可以用字典实例化:
In [7]: d = {'b': 1, 'a': 0, 'c': 2}
In [8]: pd.Series(d)
Out[8]:
b 1
a 0
c 2
dtype: int64
data
为字典,且未设置index
参数时,如果 Python 版本 >= 3.6 且 Pandas 版本 >= 0.23,Series
按字典的插入顺序排序索引。Python < 3.6 或 Pandas < 0.23,且未设置
index
参数时,Series
按字母顺序排序字典的键(key)列表。
上例中,如果 Python < 3.6 或 Pandas < 0.23,Series
按字母排序字典的键。输出结果不是 ['b', 'a', 'c']
,而是 ['a', 'b', 'c']
。
如果设置了 index
参数,则按索引标签提取 data
里对应的值。
In [9]: d = {'a': 0., 'b': 1., 'c': 2.}
In [10]: pd.Series(d)
Out[10]:
a 0.0
b 1.0
c 2.0
dtype: float64
In [11]: pd.Series(d, index=['b', 'c', 'd', 'a'])
Out[11]:
b 1.0
c 2.0
d NaN
a 0.0
dtype: float64
Pandas 用
NaN
(Not a Number)表示缺失数据。
标量值
data
是标量值时,必须提供索引。Series
按索引长度重复该标量值。
In [12]: pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])
Out[12]:
a 5.0
b 5.0
c 5.0
d 5.0
e 5.0
dtype: float64
Series 类似多维数组
Series
操作与 ndarray
类似,支持大多数 NumPy 函数,还支持索引切片。
In [13]: s[0]
Out[13]: 0.4691122999071863
In [14]: s[:3]
Out[14]:
a 0.469112
b -0.282863
c -1.509059
dtype: float64
In [15]: s[s > s.median()]
Out[15]:
a 0.469112
e 1.212112
dtype: float64
In [16]: s[[4, 3, 1]]
Out[16]:
e 1.212112
d -1.135632
b -0.282863
dtype: float64
In [17]: np.exp(s)
Out[17]:
a 1.598575
b 0.753623
c 0.221118
d 0.321219
e 3.360575
dtype: float64
索引与选择数据一节介绍了
s[[4, 3, 1]]
等数组索引操作。
和 NumPy 数组一样,Series 也支持 dtype
。
In [18]: s.dtype
Out[18]: dtype('float64')
Series
的数据类型一般是 NumPy 数据类型。不过,Pandas 和第三方库在一些方面扩展了 NumPy 类型系统,即扩展数据类型
。比如,Pandas 的类别型数据与可空整数数据类型。更多信息,请参阅数据类型 。
Series.array
用于提取 Series
数组。
In [19]: s.array
Out[19]:
<PandasArray>
[ 0.4691122999071863, -0.2828633443286633, -1.5090585031735124,
-1.1356323710171934, 1.2121120250208506]
Length: 5, dtype: float64
执行不用索引的操作时,如禁用自动对齐,访问数组非常有用。
Series.array
一般是扩展数组
。简单说,扩展数组是把 N 个 numpy.ndarray
包在一起的打包器。Pandas 知道怎么把扩展数组
存储到 Series
或 DataFrame
的列里。更多信息,请参阅数据类型。
Series 只是类似于多维数组,提取真正的多维数组,要用
Series.to_numpy()
。
In [20]: s.to_numpy()
Out[20]: array([ 0.4691, -0.2829, -1.5091, -1.1356, 1.2121])
Series 是扩展数组
,Series.to_numpy()
返回的是 NumPy 多维数组。
Series 类似字典
Series 类似固定大小的字典,可以用索引标签提取值或设置值:
In [21]: s['a']
Out[21]: 0.4691122999071863
In [22]: s['e'] = 12.
In [23]: s
Out[23]:
a 0.469112
b -0.282863
c -1.509059
d -1.135632
e 12.000000
dtype: float64
In [24]: 'e' in s
Out[24]: True
In [25]: 'f' in s
Out[25]: False
引用 Series
里没有的标签会触发异常:
>>> s['f']
KeyError: 'f'
get
方法可以提取 Series
里没有的标签,返回 None
或指定默认值:
In [26]: s.get('f')
In [27]: s.get('f', np.nan)
Out[27]: nan
更多信息,请参阅属性访问。
矢量操作与对齐 Series 标签
Series 和 NumPy 数组一样,都不用循环每个值,而且 Series 支持大多数 NumPy 多维数组的方法。
In [28]: s + s
Out[28]:
a 0.938225
b -0.565727
c -3.018117
d -2.271265
e 24.000000
dtype: float64
In [29]: s * 2
Out[29]:
a 0.938225
b -0.565727
c -3.018117
d -2.271265
e 24.000000
dtype: float64
In [30]: np.exp(s)
Out[30]:
a 1.598575
b 0.753623
c 0.221118
d 0.321219
e 162754.791419
dtype: float64
Series 和多维数组的主要区别在于, Series 之间的操作会自动基于标签对齐数据。因此,不用顾及执行计算操作的 Series 是否有相同的标签。
In [31]: s[1:] + s[:-1]
Out[31]:
a NaN
b -0.565727
c -3.018117
d -2.271265
e NaN
dtype: float64
操作未对齐索引的 Series, 其计算结果是所有涉及索引的并集。如果在 Series 里找不到标签,运算结果标记为 NaN
,即缺失值。编写无需显式对齐数据的代码,给交互数据分析和研究提供了巨大的自由度和灵活性。Pandas 数据结构集成的数据对齐功能,是 Pandas 区别于大多数标签型数据处理工具的重要特性。
总之,让不同索引对象操作的默认结果生成索引并集,是为了避免信息丢失。就算缺失了数据,索引标签依然包含计算的重要信息。当然,也可以用
dropna
函数清除含有缺失值的标签。
名称属性
Series 支持 name
属性:
In [32]: s = pd.Series(np.random.randn(5), name='something')
In [33]: s
Out[33]:
0 -0.494929
1 1.071804
2 0.721555
3 -0.706771
4 -1.039575
Name: something, dtype: float64
In [34]: s.name
Out[34]: 'something'
一般情况下,Series 自动分配 name
,特别是提取一维 DataFrame 切片时,详见下文。
0.18.0 版新增。
pandas.Series.rename()
方法用于重命名 Series 。
In [35]: s2 = s.rename("different")
In [36]: s2.name
Out[36]: 'different'
注意,s
与 s2
指向不同的对象。