折线图
折线图是一种很常见的图形,用于描绘一个数字变量相对于第二个变量的值的变化趋势。在散点图中,所有数据点都会绘制出来,而在折线图中,每个唯一 x 值或 x 值的分箱仅绘制一个点(就像直方图一样)。如果 x 分箱中有多个观测值,那么该点在折线图中绘制的 y 值将为该数据点在分箱中的摘要统计值(例如均值或中值)。绘制的点用线条连接起来,表示 x 值的序列或相连特性。
如果 x 变量表示时间,则数据折线图通常称之为时间序列图形。通常,在每个时间段内,我们只有一个观测值,例如股票图表或汇率图表。虽然 seaborn 函数 tsplot
可以用于时间序列数据,但是它很特殊(撰写本页面时为 seaborn 0.8),计划会出现很大的变化。
我们将使用 Matplotlib 的 errorbar
函数对数据进行处理,以便使数据变成必要格式。
plt.errorbar(data = df, x = 'num_var1', y = 'num_var2')
如果我们直接将 dataframe 传入该函数中,而不考虑数据结构,那么可能会遇到上面的混乱情况。该函数将所有数据点都绘制成一个线条,将 dataframe 第一行的值与最后一行的值相连。为了按照预期方式创建折线图,我们需要对数据进行额外的处理,以总结数据。
# set bin edges, compute centers
xbin_edges = np.arange(0.5, df['num_var1'].max()+0.25, 0.25)
xbin_centers = (xbin_edges + 0.25/2)[:-1]
# compute statistics in each bin
data_xbins = pd.cut(df['num_var1'], xbin_edges, right = False, include_lowest = True)
y_means = df['num_var2'].groupby(data_xbins).mean()
y_sems = df['num_var2'].groupby(data_xbins).sem()
# plot the summarized data
plt.errorbar(x = xbin_centers, y = y_means, yerr = y_sems)
因为 x 变量 ('num_var1') 是连续的,我们首先设置数据分组采用的分箱。除了常见的边缘之外,还会计算每个分箱的中心,以便稍后绘制出来。对于每个分箱中的数据点,我们都计算均值和均值的标准差。注意这里的 cut
函数调用和上一部分的不一样,因为我们不需要计算每个点的权重。
上述数据摘要的一个有趣的方面是,随着 x 值的增大,均值的不确定性也会增大。但是对于两个最大的数据点,没有误差条。从默认的 errorbar
图形(或下面的散点图)可以看出,这是因为最后两个分箱分别只有一个数据点。
其他版本
你还可以通过使用 pandas 的 rolling
方法以滚动窗口的形式计算摘要统计值,而不是通过固定分箱计算摘要统计值。因为滚动窗口将通过 dataframe 的序列行进行计算,我们应该使用 sort_values
先使 x 值按升序排序。
# compute statistics in a rolling window
df_window = df.sort_values('num_var1').rolling(15)
x_winmean = df_window.mean()['num_var1']
y_median = df_window.median()['num_var2']
y_q1 = df_window.quantile(.25)['num_var2']
y_q3 = df_window.quantile(.75)['num_var2']
# plot the summarized data
base_color = sb.color_palette()[0]
line_color = sb.color_palette('dark')[0]
plt.scatter(data = df, x = 'num_var1', y = 'num_var2')
plt.errorbar(x = x_winmean, y = y_median, c = line_color)
plt.errorbar(x = x_winmean, y = y_q1, c = line_color, linestyle = '--')
plt.errorbar(x = x_winmean, y = y_q3, c = line_color, linestyle = '--')
plt.savefig('L4_C13_Lineplot3.png')
注意,在绘制图形时,我们可以绘制多条线。如果挨个地调用多个 Matplotlib 函数,所有函数都会在相同的坐标轴上绘制。我们将绘制三个中央四分位数,并放在散点图上方,而不是绘制均值和误差条。
折线图的另一种双变量应用是针对分类变量的不同级别绘制数字变量的分布情况。这是使用小提琴图、箱线图和分面直方图的另一种替代方式。对于折线图,对每个分类级别绘制一条线,就像相互堆叠地绘制直方图。要实现这一点,可以使用上述方法多次调用 errorbar
,或者多次调用 hist
,设置“histtype = step”参数,以便将长条描绘为未填充的线条。
bin_edges = np.arange(-3, df['num_var'].max()+1/3, 1/3)
g = sb.FacetGrid(data = df, hue = 'cat_var', size = 5)
g.map(plt.hist, "num_var", bins = bin_edges, histtype = 'step')
g.add_legend()
注意,我通过使用 FacetGrid 并在“hue”参数(而不是“col”参数)上设置分类变量多次调用 hist
。你将在下节课多次见到 FacetGrid 的这一参数。我还调用了 add_legend
方法,以便标识每条曲线与哪个级别相关。
遗憾的是,“Alpha”曲线是被其他三条曲线覆盖了,因为计数相对较低,导致出现很多重叠的地方。或许用一条线连接长条的中心会更好,就像在第一个 errorbar
示例中那样。
提供给 FacetGrid 对象的 map
方法的函数并非必须是内置函数。我在下面写了一个函数来进行如上所示的总结运算,以便为分类变量的每个级别绘制一个 errorbar
线条,然后将该函数 (freq_poly
) 提供给 map
。
def freq_poly(x, bins = 10, **kwargs):
""" Custom frequency polygon / line plot code. """
# set bin edges if none or int specified
if type(bins) == int:
bins = np.linspace(x.min(), x.max(), bins+1)
bin_centers = (bin_edges[1:] + bin_edges[:-1]) / 2
# compute counts
data_bins = pd.cut(x, bins, right = False,
include_lowest = True)
counts = x.groupby(data_bins).count()
# create plot
plt.errorbar(x = bin_centers, y = counts, **kwargs)
bin_edges = np.arange(-3, df['num_var'].max()+1/3, 1/3)
g = sb.FacetGrid(data = df, hue = 'cat_var', size = 5)
g.map(freq_poly, "num_var", bins = bin_edges)
g.add_legend()
**kwargs
用于为 errorbar
函数设置其他关键字参数。
(文档:numpy linspace
)