第三篇 数据的图标展示

通过各种渠道将数据收集上来之后,接下来的任务就是对数据进行加工整理。使之符合统计分析的需要,同时对数据进行图标展示,以发现数据中的一些基本特征,为进一步分析提供思路。

1数据的的预处理:审核-筛选-排序

数据的审核

数据的审核就是检查数据中是否有错误。

对于通过调查获取的原始数据(raw data),应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要检查数据是否有错误,是否存在异常值等。对于异常值要仔细的鉴别:如果异常值属于记录时的错粗,在分析之前应该予以纠正;如果异常值是一个正确的值,则应该予以保留。

对于通过其他渠道得来的二手数据,应着重审核数据的适用性和时效性。

数据的筛选(data filter):包含两方面的内容:一是将某些部分和要求的数据或有明显错误的数据予以剔除;而是将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除,数据的筛选可借助计算机自动完成。

透视表的计算与练习

2品质数据的整理与展示

对品质数据主要做分类整理,对数值型数据则主要做分组整理。品质数据包括分类数据和顺序数据。

分类数据的整理与图示

分类数据本身就是对事物的一种分类,因此,在整理时首先列出所分的类别,然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表,最后根据需要选择适当的图形进行展示,以便对数据即其特征有一个初步的了解。

由连个个或两个以上变量交叉分类的频数分布表也称为列联表(contingency  table);二维的列联表(两个变量交叉分类)也称为交叉表(cross table)。

分类数据相关图标介绍

(1)条形图(bar chart)是用宽度相同的条形的高度或长短来表示数据多少的图形。当条形图横置或纵置时称为柱状图(column chart)。

(2)帕累托图(pareto chart)该图是按照各类数据出现的频数多少排序后绘制的条形图。

(3)饼图(pie chart)

(4)环形图 (doughnut  chart)

顺序数据的整理与图示

上面介绍的分类数据的频数分布和图示方法,如频数、比例、百分比、比率、条形图和饼图,也都是用于顺序数据的整理与显示。对于顺序数据,除了可使用上面整理和显示技术,还可以计算累计频数和累计频率。

累计频数(cumulative frequencies)是将各累有序类别或组的频数逐级累加起来得到的频数。通过累积频数,可以很容易看出某一类别(或数值)一下或某一类别(或数值)以上的频数之和。

累计频率或累积百分比(cumulative percentages)是将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。

3数值型数据的整理与展示

数据的分组

将原始数据按照某种标准化分成不同组别,分组后的数据成为分组数(grouped data)。数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。数据精分组后再计算出各组中数据出现的频数,就形成了一个频数分布表。数据分组的方法有单变量分组和组距分组两种。单变量分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且唉变量值较少的情况下使用。在连续变量或变量值较多的情况下,通常采取组距分组。它是将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值成为下限(lower limit);一个组的最大值称为上限(upper limited)

第一步:组数的确定。一般情况下:5到15组

第二步:确定各组的组距。组距(class width)是一个上限与下限的差。

第三步:根据分组整理频数分布表。

采用组距分组时,需要遵循不重不漏的原则。补充是指一项数据只能在其中的某一组,不能在其他组中重复出现;不漏是指组别能够穷尽,即在所分的全部组别中没想数据能分在其中的某一组,不能遗漏。

为了解决不重的问题,统计分组时习惯上规定“上组限不在内”。

在组距分组时,如果个组的组距相等则成为等距分组。有时,对于某些特殊现象或为了特定的研究需要,也可以采用不等距分组。

组距分组掩盖了各组内的数据分布状况,为了反映各组数据的一般水平,我们通常采用组中值作为给组数据的一个代表值。组中值(classmidpoint)

需要注意的是试用组中值代表一组数据时有一个必要的假设条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假设,用组中值作为一组数据的代表会有一定的误差。

为了统计分析的需要,有时需要观察某一数值一下或者以上的频数或频率之和,这时候可以计算出了极品书或者累积频率。

数值型数据的图示

(1)分组数据:直方图(histogram)

(2)未分组数据:茎叶图和箱线图

茎叶图 (tem and leafdisplay是反映原始数据分布的图形。它由茎和叶两部分组成。通过茎叶图,可以看出数据的分布形状即数据的离散状况。比如,分布是否对称,数据是否集中,是否有离散等等。

绘制茎叶图的关键是设计好树茎,而且也上只保留该数值的最后一个数字。例如,125分成12/5,12分成1/2,1.25分成12/5(单位:0.01),等等。前部分是树精,后部分是树叶。树茎一旦确定,树叶就自然地长在相应的树茎上了。

茎叶图类似与横置直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原是数值,即保留了原始数据信息。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

箱线图(box plot)是一组数据的最大值(maxiumu)、最小值(minimum)、中位数(median)和四分卫数(quartiles)。这五个特征值绘制而成的箱线图,主要反映原始数据的特征,还可以进行多组数据分布特征的比较。

(3)时间序列数据:线图(line plot)

如果数值型数据是在不同的时间上取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征。

4多变量数据的图表

上面介绍的一些图形描述都是单变量数据。当有两个或两个以上变量时,可以采取用多变量的图示方法,常见的有散点图、气泡图、雷达图等。

(1)散点图(scattered diagram)

(2)气泡图(bubble chart)可用于展示三个变量之间的关系。它与散点图绘制时候类似,将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用旗袍的大小来表示

(3)雷达图(radar chart)是显示多个变量常用的图示方法,也称为蜘蛛图(spider chart)。


选择合理的图表

4合理使用图标表

一个好的图标具备的特征:

(1)显示数据

(2)让读者把注意力集中在图形的内容上,而不是制作图形的程序上

(3)避免歪曲

(4)强调数据之间的比较

(5)服务于一个明确的目的

(6)有对图形的统计描述和文字说明

统计表的设计

统计表主要由四部分组成:即表头、航标题、列标题和数字资料,此外在有必要的收购可以在统计表的下方加上表外附加。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,519评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,842评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,544评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,742评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,646评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,027评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,169评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,324评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,268评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,299评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,996评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,591评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,911评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,288评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,871评论 2 341

推荐阅读更多精彩内容