数据的描述性分析:图表展示

一、类别数据的图表展示

  • 用频数分布表观察类别数据
    频数分布 是指由变量的取值及相应的频数形成的分布
    频数分布表 是展示变量的取值及相应频数分布的表格
    由于类别数据本身就是对事物的一种分类,因此只要列出所有分类并统计每一类的频数就得到频数分布表。

    对于类别数据可以使用一下统计量进行描述:
    频数(frequency) :落在各类别中的数据个数
    比例(proportion) :某一类别数据个数占全部数据个数的比值
    比率(ratio) :不同类别数值个数的比值
    百分比(percentage) :将对比的基数作为100而计算的比值(有序类别数据可以使用累计百分比来分析)

    有两个类别变量交叉分类的频数分布表称为列联表,或交叉表

  • 用图形展示类别数据

    • 条形图(bar Chart)
      用宽度相同的条形的高度或长短来表示各类别数据
      各类别可放在纵轴,称为条形图,可以放在横轴,称为柱形图(column chart)
      将两幅条形图放一起即复式条形图

      复式条形图
    • 简单饼图(pie Chart)
      用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例用于研究结构问题

二、数值数据的图表展示

  • 用频数分布表观察数据分布
    1、确定组数:组数的确定应以能够显示数据的分布特征为目的。在实际分组时,组数约为 k≈√n。本例中由于数据较多,可考虑分为12组
    2、确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 ;为便于计算,组距宜取5或10的倍数
    3、统计出各组的频数。每个组的数据满足a≤x<b(SPSS的计数规则是a<x≤b)

    下限(lower limit) :一个组的最小值
    上限(upper limit) :一个组的最大值
    组距(class width) :上限与下限之差
    组中值(class midpoint) :下限与上限之间的中点值,即 组中值=(下限值+上限值)/ 2

  • 用图表展示数值数据

    • 展示数据分布特征的图形 (直方图—histogram)
      用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布,本质上是用矩形的面积来表示频数分布
      在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。直方图下的总面积等于1

      注意:
      1、条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距
      2、由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列
      3、条形图主要用于展示类别数据,而直方图则主要用于展示数值数据

    • 展示数据分布特征的图形 (茎叶图—stem-and-leaf plot)
      用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶。树叶上只保留最后一位数字;

      茎叶图类似于横置的直方图,但又有区别:
      1、直方图可观察一组数据的分布状况,但没有给出具体的数值
      2、茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
      3、直方图适用于大批量数据,茎叶图适用于小批量数据

    • 展示数据分布特征的图形(箱线图 —box plot)
      箱线图不仅可用于反映一组数据分布的特征,比如,分布是否对称,是否存在离群点(outlier)等,还可以对多组数据的分布特征进比较

      绘制箱线图步骤大致如下:
      1、首先,找出一组数据的中位数(median)和两个四分位数(quartiles),并画出箱子。中位数是一组数据排序后处在50%位置上的数值。四分位数是一组数据排序后处在25%位置和75%位置上的两个分位数值,分别用𝑄25%和𝑄75%表示。𝑄75%−𝑄25%称为四分位差或四分位距(quartile deviation),用IQR表示。用两个四分位数画出箱子(四分位差的范围),并画出中位数在箱子里面的位置

      2、其次,计算出内围栏和相邻值,并画出须线。内围栏(inter fence)是与𝑄25%和𝑄75%的距离等于1.5倍四分位差的两个点,其中𝑄25%−1.5×IQR称为下内围栏,𝑄75%+1.5×IQR称为上内围栏。上下内围栏一般不在箱线图中显示,只是作为确定离群点的界限。然后找出上下内围栏之间的最大值和最小值(即非离群点的最大值和最小值),称为相邻值(adjacent value),其中𝑄25%−1.5×IQR范围内的最小值称为下相邻值,𝑄75%+1.5×IQ范围内的最大值称为上相邻值。用直线将上下相邻值分别与箱子连接,称为须线(whiskers)。

      3、最后,找出离群点,并在图中单独标出。离群点(outlier)是大于上内围栏或小于下内围栏的数值,也称外部点(outside value),在图中用“O”单独标出

      分布的形状与箱线图
    • 展示数据分布的图形(垂线图—drop-line)
      垂线图可用于展示多个变量或多个样本取值的分布状况
      将属于同一样本或类别的多个取值的散点用一条垂线连接起来,用垂线的长度及垂线上的各个点来反映某个样本或类别取值的差异及其变动状况

    • 展示数据分布的图形(误差图—error bar)
      误差图是以均值为中心,加减一定倍数的标准差(也可以是加减一定倍数的标准误差)绘制而成的(该图也可以绘制均值的一定置信水平的置信区间)
      用于展示多个样本或分类的不同取值的分布状况和离散状况

    • 展示变量间关系的图形(散点图—scatter plots)
      展示两个变量之间的关系
      用横轴代表变量x,纵轴代表变量y,每组数据(xi , yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的图
      有2维、3维、矩阵等形式

    • 比较多个样本相似性的图形 (轮廓图—outline chart)
      将各变量用一系列平行的横坐标轴表示,变量值对应纵轴上的位置
      可用于研究多个样本在多个变量上的相似程度或变量间的相互关系

三、使用图表的注意事项

  1. 合理安排统计表的结构
  2. 总标题内容应满足3W 要求
  3. 图形大体上为4:3的一个矩形,过长或过高的图形都有可能歪曲数据,给人留下错误的印象
  4. 图表应有编号和标题。编号一般使用阿拉伯数字,如表1、表2等等。图表的标题应明示出表中数据所属的时间(when)、地点(where)和内容(what),即通常所说的3W准则。表的标题通常放在表的上方;图的标题可放在图的上方,也可放在图的下方
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容