1. 前言
在目前工作中,用stata清洗及分析数据,感觉很顺滑。无奈不少同学因为help文件里的英文望而却步。
带着学习和分享的目的,根据工作经验,给大家整理一些常用以及不太常用但很有用的命令,并对该命令的help文件进行有侧重的详解。
2. 命令及获取
codebook
:查看及描述数据内容,系统自带命令
3. 描述
codebook
: 查看变量名,变量标签和数据,从而生成描述数据集的编码本。
4. 语法
codebook [varlist] [if] [in] [, options]
- [,]:中括号里的为额外选项命令,按需求添加,而添加选项记得加英文逗号,
- [if]:表示增加条件,例如,变量var等于1,
if var==1
。- [in]:表示选择个案数,例如,选择前10个个案,
in 1/10
。
5. 选项
all
:添加该选项,相当于添加了header
和notes
选项,显示数据集情况及注释,但是不包括添加mv
选项,最短可缩写成a。header
:添加该选项,在输出结果最开始显示数据集的路径及名字以及上一次保存的时间等。最短可缩写成h。notes
:添加该选项,显示赋给变量的所有注释。最短可缩写成nmv
:添加该选项,指定codebook
搜索数据以确定缺失值的模式。 这是一项占用大量CPU的任务。最短可缩写成m。tabulate(#)
:添加该选项,设置临界值#来判断变量是连续的还是分类的。默认是9,即当变量存在9个以上的不同值时,该变量会被定义为连续型的。缺失值不会归为一类,但也会在频率表中。最短可缩写成t(#)。problems
:添加该选项,指定要生成摘要报告,以描述已诊断的潜在问题:①带有未定义值标签的变量;②不完整的值标签变量;③常量变量总是包括缺失值;④字符串变量中存在空格;⑤字符串变量中存在二进制0(\0);⑥存在非整数日期变量;最短可缩写成p。detail
:本选项和选项problems
结合使用,添加该选项,不隐藏有关变量的详细报告。最短可缩写成d。compact
:添加该选项,变量的描述报告更为紧凑,本选项只能和dots
结合使用。最短可缩写成c。dots
:添加该选项,表示每处理一个变量,就会出现1个点。本选项只能和compact
结合使用。languages[(namelist)]
:本选项适用于存在多种语言的数据集。添加该选项,可以指定显示数据,变量和值标签的语言。最短可缩写成lang[(namelist)]`
6. 举例
*调入自带数据auto
sysuse auto
*给变量rep78添加注释investigate missing values
note rep78: "investigate missing values"
*将值标签repairlbl赋给rep78
label values rep78 repairlbl
*查看所有变量的情况
codebook
*同上
codebook _all
*显示数据集路径及名字以及上一次保存的时间等
codebook,header
*显示变量rep78情况
codebook rep78
*显示变量rep78情况及变量注释
codebook rep78,notes
*显示数据集中存在的问题
codebook,problems
*将变量情况以紧凑的形式展示
codebook,compact
*调入自带数据citytemp
webuse citytemp
*显示变量cooldd heatdd tempjan tempjuly的情况及缺失模式
codebook cooldd heatdd tempjan tempjuly, mv
*调入自带数据autom
webuse autom
*显示变量foreign情况
codebook foreign
*显示变量foreign情况,以及西班牙语的值标签
codebook foreign,language(es)
*显示变量foreign情况,以及所有语言的值标签
codebook foreign,languages
7. 菜单
Data > Describe data > Describe data contents (codebook)
8. 存储的结果
codebook
存储存在以下问题的变量列表:
r(cons)
:常量(或缺失)r(labelnotfound)
:带有未定义值标签r(notalbeled)
:有标签但没有标签类别的值r(str_type)
:可压缩的r(str_leading)
:字符串最前面有空格r(str_trailing)
:字符串最后面有空格r(str_embedded)
:字符串中间有空格r(str_embedded0)
:包括二进制 0 (\0)r(realdate)
:非整数的日期
9. 补充
无