关于缺失值的二三事

现实世界中的数据异常杂乱，属性值缺失的情况经常发生甚至是不可避免的。造成数据缺失的原因是多方面的，数据值缺失是处理数据过程中经常会遇到的问题之一。缺失值比例很小时，可直接对缺失记录进行舍弃或手工处理，然而，在大多数实际情况下，缺失值的比重往往很大，手工处理就显得非常低效，舍弃也会造成大量信息丢失，使不完全观测数据与完全观测数据间产生系统差异，对分析结论的准确性影响较大。

缺失数据原因

1.信息暂时无法获取

2.信息是被遗漏的

3.某个或某些属性是不可用的

4.某些信息（被认为）是不重要的

5.获取这些信息的代价太大

6.系统实时性能要求较高，即要求得到这些信息前迅速做出判断或决策

缺失的类型

在对缺失数据进行处理前，了解数据缺失的机制和形式是十分必要的。数据集中不含缺失值的变量称为完全变量，数据集中含有缺失值的变量称为不完全变量。从缺失的分布来看缺失可以分为完全随机缺失，随机缺失和完全非随机缺失。

完全随机缺失（missing completely at random,MCAR）：所缺失的数据发生的概率既与已观察到的数据无关,也与未观察到的数据无关。

随机缺失(missing at random,MAR)：假设缺失数据发生的概率与所观察到的变量是有关的,而与未观察到的数据的特征是无关的

MCAR与MAR均被称为是可忽略的缺失形式。

非随机缺失(missing not at random,MNAR)：不可忽略的缺失(non–ignorable missing ,NIM)，如果不完全变量中数据的缺失既依赖于完全变量（观察到的数据）又依赖于不完全变量本身,这种缺失即为不可忽略的缺失。

对于随机缺失和非随机缺失,删除记录是不合适的,随机缺失可以通过已知变量对缺失值进行估计；而非随机缺失还没有很好的解决办法。

缺失值处理方法的分析与比较

处理不完整数据集的方法主要有以下：删除存在缺失值的记录、可能值插补缺失值、保留缺失数据不予处理、特殊值填充（如“unknown填充”，不推荐）。

关于可能值插补缺失值

单一插补：

是以估算为基础的方法，是在缺失数据被替代后，对新合成的数据进行相应的统计分析。

1、均值插补：

a.缺失值是数值型的：平均值来填充该缺失的变量值

b.缺失值是非数值型的，众数来补齐该缺失的变量值。

均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失（MCAR）的假设之上，且会造成变量的方差和标准差变小。

2、热卡填充法：

a.在数据库中找到一个与最之相似的对象，然后用这个相似对象的值来进行填充。

b.不同的问题可能会选用不同的标准来对相似进行判定。

c.变量Y与变量X相似，把所有个案按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替。

与均值替换法相比，利用热卡填充法插补数据后，其变量的标准差与插补前比较接近。但在回归方程中，使用热卡填充法容易使得回归方程的误差增大，参数估计变得不稳定，且这种方法使用不便，较耗时。

3、回归插补：

a.回归插补首先要选择若干个预测缺失值的自变量，然后建立回归方程估计缺失值，即用缺失数据的条件期望值对缺失值进行替换。

该方法亦有诸多问题：

一、容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重。

二、研究者必须假设存在缺失值所在的变量与其他变量存在线性关系，很多时候这种关系是不存在的。

4、随机回归插补：

a.在回归插补值的基础上再加上残差项。

b.残差项的分布可以包括正态分布，也可以是其他的非正态分布。

单一插补的缺点：无论采用何种方法，都存在扭曲样本分布的问题(如均值插补会降低变量之间的相关关系，回归插补会人为地加大变量之间的相关关系)，尽管由于随机回归插补引入随机误差项，能够缓解这一问题，但是随机误差项的确定是比较困难的。

多重插补：

多重插补建立在贝叶斯理论基础之上，基于EM算法(最大期望算法)来实现对缺失数据的处理。

a.为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合。

b.每个插补数据集合都用针对完整数据集的统计方法进行统计分析。

c.对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。

多重插补的优点：

1、多重插补过程产生多个中间插补值，可以利用插补值之间的变异反映无回答的不确定性，包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。

2、多重插补通过模拟缺失数据的分布，较好地保持变量之间的关系。

3、多值插补能给出衡量估计结果不确定性的大量信息，单一插补给出的估计结果则较为简单。

最后编辑于：2017.12.08 18:52:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342