Matplotlib和Seaborn之折线图

折线图

折线图是一种很常见的图形,用于描绘一个数字变量相对于第二个变量的值的变化趋势。在散点图中,所有数据点都会绘制出来,而在折线图中,每个唯一 x 值或 x 值的分箱仅绘制一个点(就像直方图一样)。如果 x 分箱中有多个观测值,那么该点在折线图中绘制的 y 值将为该数据点在分箱中的摘要统计值(例如均值或中值)。绘制的点用线条连接起来,表示 x 值的序列或相连特性。

如果 x 变量表示时间,则数据折线图通常称之为时间序列图形。通常,在每个时间段内,我们只有一个观测值,例如股票图表或汇率图表。虽然 seaborn 函数 tsplot 可以用于时间序列数据,但是它很特殊(撰写本页面时为 seaborn 0.8),计划会出现很大的变化。

我们将使用 Matplotlib 的 errorbar 函数对数据进行处理,以便使数据变成必要格式。

plt.errorbar(data = df, x = 'num_var1', y = 'num_var2')

image.png

如果我们直接将 dataframe 传入该函数中,而不考虑数据结构,那么可能会遇到上面的混乱情况。该函数将所有数据点都绘制成一个线条,将 dataframe 第一行的值与最后一行的值相连。为了按照预期方式创建折线图,我们需要对数据进行额外的处理,以总结数据。

# set bin edges, compute centers
xbin_edges = np.arange(0.5, df['num_var1'].max()+0.25, 0.25)
xbin_centers = (xbin_edges + 0.25/2)[:-1]

# compute statistics in each bin
data_xbins = pd.cut(df['num_var1'], xbin_edges, right = False, include_lowest = True)
y_means = df['num_var2'].groupby(data_xbins).mean()
y_sems = df['num_var2'].groupby(data_xbins).sem()

# plot the summarized data
plt.errorbar(x = xbin_centers, y = y_means, yerr = y_sems)

因为 x 变量 ('num_var1') 是连续的,我们首先设置数据分组采用的分箱。除了常见的边缘之外,还会计算每个分箱的中心,以便稍后绘制出来。对于每个分箱中的数据点,我们都计算均值和均值的标准差。注意这里的 cut 函数调用和上一部分的不一样,因为我们不需要计算每个点的权重。

image.png

上述数据摘要的一个有趣的方面是,随着 x 值的增大,均值的不确定性也会增大。但是对于两个最大的数据点,没有误差条。从默认的 errorbar 图形(或下面的散点图)可以看出,这是因为最后两个分箱分别只有一个数据点。

其他版本

你还可以通过使用 pandas 的 rolling 方法以滚动窗口的形式计算摘要统计值,而不是通过固定分箱计算摘要统计值。因为滚动窗口将通过 dataframe 的序列行进行计算,我们应该使用 sort_values 先使 x 值按升序排序。

# compute statistics in a rolling window
df_window = df.sort_values('num_var1').rolling(15)
x_winmean = df_window.mean()['num_var1']
y_median = df_window.median()['num_var2']
y_q1 = df_window.quantile(.25)['num_var2']
y_q3 = df_window.quantile(.75)['num_var2']

# plot the summarized data
base_color = sb.color_palette()[0]
line_color = sb.color_palette('dark')[0]
plt.scatter(data = df, x = 'num_var1', y = 'num_var2')
plt.errorbar(x = x_winmean, y = y_median, c = line_color)
plt.errorbar(x = x_winmean, y = y_q1, c = line_color, linestyle = '--')
plt.errorbar(x = x_winmean, y = y_q3, c = line_color, linestyle = '--')
plt.savefig('L4_C13_Lineplot3.png')

注意,在绘制图形时,我们可以绘制多条线。如果挨个地调用多个 Matplotlib 函数,所有函数都会在相同的坐标轴上绘制。我们将绘制三个中央四分位数,并放在散点图上方,而不是绘制均值和误差条。

image.png

折线图的另一种双变量应用是针对分类变量的不同级别绘制数字变量的分布情况。这是使用小提琴图、箱线图和分面直方图的另一种替代方式。对于折线图,对每个分类级别绘制一条线,就像相互堆叠地绘制直方图。要实现这一点,可以使用上述方法多次调用 errorbar,或者多次调用 hist,设置“histtype = step”参数,以便将长条描绘为未填充的线条。

bin_edges = np.arange(-3, df['num_var'].max()+1/3, 1/3)
g = sb.FacetGrid(data = df, hue = 'cat_var', size = 5)
g.map(plt.hist, "num_var", bins = bin_edges, histtype = 'step')
g.add_legend()

注意,我通过使用 FacetGrid 并在“hue”参数(而不是“col”参数)上设置分类变量多次调用 hist。你将在下节课多次见到 FacetGrid 的这一参数。我还调用了 add_legend 方法,以便标识每条曲线与哪个级别相关。

image.png

遗憾的是,“Alpha”曲线是被其他三条曲线覆盖了,因为计数相对较低,导致出现很多重叠的地方。或许用一条线连接长条的中心会更好,就像在第一个 errorbar 示例中那样。

提供给 FacetGrid 对象的 map 方法的函数并非必须是内置函数。我在下面写了一个函数来进行如上所示的总结运算,以便为分类变量的每个级别绘制一个 errorbar 线条,然后将该函数 (freq_poly) 提供给 map

def freq_poly(x, bins = 10, **kwargs):
    """ Custom frequency polygon / line plot code. """
    # set bin edges if none or int specified
    if type(bins) == int:
        bins = np.linspace(x.min(), x.max(), bins+1)
    bin_centers = (bin_edges[1:] + bin_edges[:-1]) / 2

    # compute counts
    data_bins = pd.cut(x, bins, right = False,
                       include_lowest = True)
    counts = x.groupby(data_bins).count()

    # create plot
    plt.errorbar(x = bin_centers, y = counts, **kwargs)

bin_edges = np.arange(-3, df['num_var'].max()+1/3, 1/3)
g = sb.FacetGrid(data = df, hue = 'cat_var', size = 5)
g.map(freq_poly, "num_var", bins = bin_edges)
g.add_legend()

**kwargs 用于为 errorbar 函数设置其他关键字参数。

(文档:numpy linspace

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容