理解数据
数据由字段和记录组成,字段是事物或现象的某种特征,Excel填表过程中每一列的列名,表示你要填写的内容属于这一类,那顺便说一下你要填写的内容就是记录,是事物或现象某种特征的具体表现。
数据类型
字符型,数值型,相信开始进行数据分析的小伙伴们,对这两个概念是十分清楚的的。
数据表的要求
区分一维表和二维表,知道一维表的构成马上就可以知道什么样的表示二维表了,往往数据库中的数据都是一维表
一维表的判断标准是看其列的内容,每一列是否是一个独立的变量,如果是,则为一维表
数据来源
Excel导入外部数据方法
问卷录入,目前基于我的情况这个可能不是很常用,一般问卷题目分类会分成数值题,单选题,多选题,排序题和开放性文字题。其中多选题有两种方式,感觉思路不错,可以在其他数据处理时应用这种思路。
方法一:0/1编码(书中叫二分法,感觉容易与算法中的二分法混淆)
把每一个相应的选项定义为一个变量,用数字0 代表已选,数字 1代表未选。举个🌰:调查者选择了ACF,那么在A B C D E F G中对应数字为1 0 1 0 0 1 0,0/1 编码是一种很有用的想法,做SQL题中会有统计数量情况ifnull(sum(),0)~~,把字符串类型数据转换数值型数据
方法二:多重分类法
事先定义录入数值,我自己的理解像是一种映射方式,不同的字段用其他方式代替。举个🌰:A B C D E F G分别赋值1 2 3 4 5 6 7,那么调查者选择了ACF,则录入的值为1 3 6,延伸思考一下,是不是可以通过这种方式给字段进行优先级排序呢?
总结
第3章的内容比较浅显,更多是一种熟悉了解,实际操作可以单独看Excel操作教程,熟练掌握就可以了