SPSS中与数据准备相关的功能主要有:
1)数据验证模块
便于用户自行定义数据验证规则,以标识无效个案、变量和数据值
2)自动数据准备过程
暂时略过
3)标识重复个案
发现变量值重复的记录
4)标识异常个案
可以在探索性数据分析步骤中,快速检测用于数据审核的异常个案
5)最优离散化
6)缺失值分析
1、数据验证模块
验证规则主要有两种:
1)单变量规则
单变量规则包含一组应用于单个变量的数值检察规则,例如范围外值得检查。对于单变量规则,有效值可以表示为一个范围,也可以表示为一个有效值列表。
2)交叉变量规则
交叉变量规则是用户定义的涉及多个变量间逻辑关系的规则,由标记无效值的逻辑表达式定义,可以用于单个变量,也可以用于变量组合。
在验证规则验证完毕后,可以将其保存在数据文件的数据字典中,这样指定一次规则后就可以重复使用。
实例:
1)(取值范围)年龄:取值应在18--65岁之间
2)(取值列表)性别:只有1和2两种取值编码
3)(交叉规则)关键题目逻辑:第二题、第三题和第四题不能同时选择9,否则答案无效。
第一步:定义验证规则
【数据】--【验证】--【定义规则】
首先定义“年龄验证”18--65岁有效
接着定义“性别验证”,性别只能为1和2
最后使用交叉规则定义“题目验证”,二三四不同时为9
第二步:进行数据验证
定义好规则之后,就可以使用这些规则来进行数据验证了
【数据】--【验证】--【验证数据】
1)“变量”选项卡
用于选入分析变量和表示个案的ID变量,为了节省时间,建议分析变量中直选如确实需要检查的变量,并且在标识变量中选入ID变量
2)“基本检查”选项卡
进行数据检查时会对所有选入变量/个案进行分析,并且报告明显表现异常的变量/个案,主要用于对变量/个案的核查标准进行设定,一般使用默认值即可
3)“单变量规则”选项卡
用于将单变量规则定义到具体的变量上,选中一个变量,然后去勾选该变量需要遵守的规则,然后在选中第二个变量,勾选规则,一直进行下去,如本例年龄变量遵循年龄验证,性别变量遵循性别验证
4)“交叉变量规则”选项卡
一复选框的形式列出所有交叉规则,使用时将希望应用的规则选中即可。
5)“输出”选项卡
设定数据核查在结果窗口的错误报告输出形式
6)“保存”选项卡
将检查结果以标记变量的形式保存在数据集中,这些标记变量反应的问题包括空变量、ID变量异常、验证违规总数等
结果如下
可以看详细说明(红色框),也可以看概括说明(蓝色框):ID为2的题目验证有1个违规;ID为3的年两验证有1个违规;ID为5的性别验证有1个违规。
标记变量如下所示