第二章 数据准备
1. 理解数据
1. 1 字段与记录
以上表为例,这样的成绩表从数据分析角度来看,是一个典型的数据库。该表第一行的“学号”、“姓名”、“性别”、“总分”等被称为字段,这是数据库的术语,每位同学的基本情况和成绩则构成了一条条的数据记录,如变2所示。
从数据分析的角度来理解字段和记录的概念:
字段是实物或现象的某种特征。比如成绩表中的“学号”、“姓名”、“性别”、“总分”等都是字段,在统计学中成为变量。
记录是事物或现象某种特征的具体表现。比如成绩表中的“性别”可以是男或女,“总分”可以是237或者230等,记录也成为数据或变量值。
数据需要由字段与记录共同组合而成。
1.2 数据类型
以表3 职工信息表为例,看看表中数据大概分为几类?
表中数据大概可分为数字、文字、日期三类。这也是我们常用的数据类型,当然还有如货币等其他数据类型。若想知道数据到底有多少类,可在Excel中用单元格格式查看所有的数据类型,如图4所示。
从图4所示的对话框中可以看到各种不同的数据类型,如:数值、文本、日期、货币、会计专用、时间、百分比、分数、科学计数、特殊等。
Excel中虽然有这么多数据类型,但最终可以分为两大类。
字符型数据
字符型数据是不具计算能力的文字数据类型。包括中文字符、英文字符、数字字符(非数值型)等字符。例如上文成绩表中的“姓名” “性别” “总评” 三个变量均为字符型数据,职工信息表中的“员工号” “姓名” “性别” “部门” 四个变量为字符型数据。
数值型数据
是直接使用自然数或度量单位进行计量的数值数据。例如成绩表中的 “语文” “数学” “英语” 三科成绩汇总即得到 “总分” 这个字段,职工信息表中,可按 “入职日期” 计算工龄,这些数据就是数值型数据。对于数值型数据,我们可以用算数方法进行汇总和分析,这点是区分数据是否属于数值型数据的重要依据。
1.3 数据表
由字段、记录和数据类型构成数据表。数据分析所需要的数据表有一定的要求,具体如表5所示:
什么是一维表、什么是二维表?
这里的 “维” 指的是分析数据的角度,2006年、2007年、2008年从数据的角度来说,都是 “年份” 的范畴,是描述各省GDP的一个因素,若要换成一维表,则应该使用同一个字段,将年份单独作为列标签。
1.4 问卷录入
我们经常接触到的调查问卷数据,其录入格式也是有讲究的。
单选题
答案只能有一个,编码时只需定义一个变量,即给该题留一列进行数据 的录入。录入时可采用1、2、3、4分别代表A、B、C、D四个选项,例如被调查者选 “C” 则录入 “3” 。
多选题
答案可以有多个选项,又分为项数不定多选和项数限定多选。多选题的录入有两种方式:二分法和多重分类法。
二分法。把每一个相应选项定义为一个变量,每一个变量值均作如下定义: “0” 代表未选, “1” 代表已选,即对于被调查者选中的选项录入 “1” ,对未选的选项录入 “0” 。
多重分类法。事先定义录入的数值,比如1、2、3、4、5、6、7分别代表A、B、C、D、E、F、G,并且根据限选的项数确定应录入的变量个数。
排序题
排序题的录入与多重分类法类似,先定义录入的数值,1、2、3、4、5、6、7分别代表A、B、C、D、E、F,然后按照被调查者填写的顺序录入选项。
开放性文字题
如果可能的话可以按照含义相似的答案进行归类编码,转换成多选题进行分析。如果答案内容比较丰富、不容易归类,就应对这些问题做定性分析。
2. 初识Excel
Excel主要包括这几个模块:菜单操作、函数、图表、宏的应用。
2.1 菜单操作
小技巧 自动调整列宽/行距:如选中A列至D列,鼠标移到A、B、C、D任意列标之间,直到光标变成左右带箭头的十字图形,然后双击选中的所有列即自动调整为最合适的列宽了。这种方法还可以用于调整合适的行距。
2.2 函数
关于函数,需说明几点。
每个函数都有一个函数名,都有一对括号将函数包围住,参数间用逗号分隔,参数可以是公式、函数、值。例如 “=IF(A3>100,40,0)” ,其中函数名为 “IF” ,公式 “A3>100” 和数值 “40” 都是参数。
在单元格内等号作为函数的开始,函数可以嵌套。
2.3 图表
作图表的主要目的是表现数据、传递信息。每一幅图标都必须有中心思想,即你要传递的主要信息。
生成图表后,有三种方式对其进行编辑。
第一种,用鼠标单击图形中的任意地方,接着会发现Excel的功能区里多了一个 “图表工具” 的功能组,其中包含了 “设计”、“布局” 和 “格式” 选项卡,可以根据自己的需求编辑该图表。
第二种,鼠标双击该图表的任意区域,即可弹出对应的格式对话框。
第三种,按 “Ctrl+1” 快捷键,同样可以弹出对应的格式对话框,在进行编辑。
对于后两种方式需要补充说明一点:鼠标选择的是哪一元素,即弹出哪一元素的格式对话框。
2.4 宏
宏是一个指令集。是可运行任意次数的一个操作或一组操作。若要在Excel中重复执行多个任务,则可以录制一个宏来自动执行。例如每个月要上交一份职位表,表中需要将发生岗位变化的员工编号设置为红色和加粗格式,就可以创建一个宏,每月运行该宏将这些格式变更迅速应用到职位表中。
Ⅰ 打开 “视图” 选项卡,单击 “宏” 的下拉菜单,先选中 “使用相对引用” 选项,在单击 “录制宏” 选项,如图2.4.1所示。
Ⅱ 此时,会弹出一个 “录制新宏” 对话框,在里面可以对宏进行命名,可以根据宏实现的功能来命名。这里我们将其命名为 “红色加粗” ,然后,设置 “快捷键” ,这是 “红色加粗” 宏的专用快捷键,注意不要与Excel本身内置的快捷键重复,如图2.4.2。
注意,在Excel主界面左下角的就绪旁有一个图表,如下图,单击它可以实施 “录制宏” 和 “停止录制” 的操作。
Ⅲ 在工作表中执行你的操作。比如这里,我们将A1单元格的数据变成红色并加粗。
Ⅳ 再单击 “视图” 选项卡→ “宏” → “停止录制” 。
Ⅴ 选择任意其他单元格或者区域,再单击 “视图” 选项卡→ “宏” → “查看宏” ,此时会弹出一个宏窗口,选择刚才的 “红色加粗” 宏,并单击 “执行” 按钮。使用刚刚自行设置的快捷键 “Ctrl+Q” 也会达到同样的效果。
2.5 快捷键
下表为最基础且非常方便的快捷键:
Excel的功能区附带了新的快捷方式,称为按键提示:
Ⅰ 按Alt键,显示按键提示,如图2.5.2所示,Excel界面上的选项卡和按钮即刻出现了带方框的按键提示。
Ⅱ 在键盘上按下对应选项卡的按键,即刻就能在功能区上打开该选型卡。例如,对于 “视图” 选项卡,按字母键 “W” ;对于 “公式” 选项卡,按字母键 “M” 。打开的选项卡将继续显示其包含的所有功能的按键提示。
例如,想实行 “视图” 选项卡中的 “冻结窗口” 功能,先按字母键 “W” ,将显示 “视图” 主选项卡所有功能的快捷键,如图2.5.3所示。
再按下 “F” 键,就快速地完成了冻结窗口的操作了。
3. 数据来源
取得数据的方式可以分为两种:导入外部数据和自己录入数据。
3.1 导入外部数据
导入外部数据常见的来源有两张,文本和网站数据。
导入文本数据
Ⅰ 单击 “数据” 选项卡,选择 “自文本” 选项,Excel会自动弹出相对应的对话框。
Ⅱ 找到保存的 “问卷录入结果.txt” 文件。
还有一种方式,在 “文件” 选项卡中,打开 “文件” 选项,Excel会自动弹出对话框,在 “文件类型” 中选择 “文本文件” ,然后,找到需要的文件,此时将会弹出 “文本导入向导” 对话框。如图3.1-1所示。
Ⅲ 在上图对话框中有两个选项 “分隔符号” 和 “固定宽度” 。若文本文件中的列标签以制表符、冒号、分号、空格或者其他字符分隔,则选择 “分隔符号” ;若想自己设定每列分隔的具体位置,则选择 “固定宽度” 。单击 “下一步” 按钮,得到图3.1-2对话框。
Ⅳ 如上图对话框中列出了Tab键、分号、逗号、空格的分隔符以供选择。若分隔符是其他字符,则选择 “其他” 复选框,在后面的文本框中输入字符。单击 “下一步” ,弹出文本导入向导第3步的对话框,如图3.1-3。
Ⅴ 若不需要将某列导入Excel中,可以在 “数据预览” 中选择此列,后勾选 “不导入此列(跳过)” 。不需要删除某列,故选择 “常规” 即可,单击 “完成” 按钮。
Ⅵ 弹出 “导入数据” 对话框,在其中选择存放数据的位置,单击下图中按钮拖动或缩放单元格区域,再次点击该按钮回复对话框→ “确定” 。
Ⅶ 返回工作表,文本文件中的数据就会按所设置的格式自动导入到其中。
导入网站数据
Ⅰ 单击 “数据” 选项卡,选择 “自网站” 选项,Excel会弹出 “新建Web查询” 对话框。
Ⅱ 在对话框的地址栏里输入要导入数据的网址, 单击 “转到” 按钮,单击下图黄色箭头按钮,使其变成图中绿色√。
Ⅲ 单击 “导入” , 弹出 “导入数据” 对话框,在工作表中选择需要放置数据的区域,单击 “确定”。
更新数据的方式有三种:即时刷新、定时刷新、打开文件时自动刷新
即时刷新。单击 “数据” 主选项卡→ “刷新数据”即可。
定时刷新或打开文件时自动刷新。在上图方法二的快捷菜单中有个 “数据区域属性” ,选择该选项,弹出 “外部数据区域属性” 对话框,勾选 “刷新频率” 复选框,选择刷新的间隔时间,就能实现定时刷新。在“外部数据区域属性” 对话框中还有 “打开文件时刷新数据” 复选框。
我们也可以直接在网站上复制所需的数据,再进行粘贴。
在工作表中粘贴数据后,数据区域右下角会出现一个 “粘贴” 按钮,单击,选择 “可刷新的Web查询” 命令。
3.2 手动输入数据
快速设置单元格格式
我们直接输入 “1/3” 单元格默认将它转成日期格式,显示成 “1月3号” ,但如果我们先输入 “0+空格” ,再输入 “1/3” 即可。
选中单元格,直接按 “F2” 键,则单元格就进入编辑模式。
Ctrl+1 弹出设置单元格对话框。
省时省力的填充柄 “+”
让 “0” 站首位
比如在录入数据时,输入 “007” ,但输进去就变成 “7” ,如何解决。
上面的情况是Excel将输入的值默认成数值类型的数据,如果在需要输入的文本前面先输一个英文的单引号 “ ' ” 字符,就默认成文本格式了,上述问题即可解决。这也是区分数字单元格是数值还是文本的标识。