前提
在数据挖掘中,海量的原始数据中存在大量不完整(有缺失值)、不一致、有异常的数据,会严重影响到数据挖掘建模的执行效果,甚至会导致挖掘结果的偏差,进而数据清洗就变得尤为重要。在数据清洗完成后接着甚至同时进行数据集成、变换、规约等一系列的处理,而整个过程称之为数据预处理。在整个数据挖掘过程中,数据预处理工作大致占据整个过程的60%。
一般来说,数据预处理的主要包括如下内容: 数据清洗、数据集成、数据变换、数据规约。
接下来的内容,我们也是从这几方面阐述。
数据预处理
1.1 数据清洗
数据清洗主要是删除原始数据中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值及异常值等。
- 缺失值处理
从统计上说,缺失的数据可能产生偏估计,使得样本数据不能很好代表总体数据集。常见的缺失值的处理包括:缺失数据识别和缺失值处理两个步骤。
注:由于R语言做数据挖掘、分析相当便捷,整个文章的实例都是基于R实现的。比如发现缺失值的存在:is.na(), 另外函数complete.cases()可识别样本数据是否完整进而得出缺失情况等等
<code>
缺失数据的识别
is.na(inputfile) #判断是否存在缺失
n=sum(is.na(inputfile)) #输出缺失值个数
异常值识别
par(mfrow=c(1,2))#将绘图窗口划为1行两列,同时显示两图
dotchart(inputfile$sales)#绘制单变量散点图
boxplot(inputfile$sales,horizontal=T)#绘制水平箱形图
</code>
常见的缺失值处理方法: 删除法、替换法、插补法等
(1)、删除法: 最简单的缺失值处理方法。从不同角度进行数据处理划分:
- 删除观测样本 又称为行删除,直接移除所有含有缺失数据的行,比较适用缺失值所占比例较小的情况
- 删除变量 直接删除整个变量,适用变量由较大的缺失且对研究目标影响不大的情况。
删除法会存在信息浪费的问题并数据结构会变动,致使后续得到的统计结果又偏差.
<code>
缺失值的处理
inputfile$date=as.numeric(inputfile$date)#将日期转换成数值型变量
sub=which(is.na(inputfile$sales))#识别缺失值所在行数
inputfile1=inputfile[-sub,]#将数据集分成完整数据和缺失数据两部分
inputfile2=inputfile[sub,]
行删除法处理缺失,结果转存
result1=inputfile1
</code>
(2)、替换法
一般根据属性将变量分:数值型和非数值型
- 数值型:可用该变量在其他所有对象的取值的均值来替换缺失值
- 非数值型: 使用该变量其他全部有效观测值的中位数或众数进行替换
<code>
均值替换法处理缺失,结果转存
avg_sales=mean(inputfile1$sales)#求变量未缺失部分的均值
inputfile2$sales=rep(avg_sales,n)#用均值替换缺失
result2=rbind(inputfile1,inputfile2)#并入完成插补的数据
</code>
(3)、插补法
常见的插补法:回归插补、多重插补等 - 回归插补: 利用回归模型将需要补缺的变量作为因变量,其他相关变量作为自变量,通过回归函数【比如在R中使用lm()】预测出因变量的值来对缺失变量进行补缺。
- 多重插补: 从一个包含缺失值的数据集中生成一组完整的数据,如此进行多次,从而产生缺失值的一个随机样本。
【注:在R中已经提供了mice函数实现多重插补】
<code>
回归插补法处理缺失,结果转存
model=lm(sales~date,data=inputfile1)#回归模型拟合
inputfile2$sales=predict(model,inputfile2)#模型预测
result3=rbind(inputfile1,inputfile2)
多重插补法处理缺失,结果转存
library(lattice) #调入函数包
library(MASS)
library(nnet)
library(mice) #前三个包是mice的基础
imp=mice(inputfile,m=4) #4重插补,即生成4个无缺失数据集
fit=with(imp,lm(sales~date,data=inputfile))#选择插补模型
pooled=pool(fit)
summary(pooled)
result4=complete(imp,action=3)#选择第三个插补数据集作为结果
</code> - 异常值处理
前面也已经提到异常值处理的方式,这里不会在举例子,只是简单描述下在R中常见的处理:
使用dochart()、 boxplot()绘制单变量散点图与箱形图
1、删除含有异常值的记录: 直接删除对应的记录
2、视为缺失值: 按照缺失值处理方法来处理
3、平均值修正:用前后两个观测值的平均值修正该异常值
4、不处理:在异常值基础上挖掘模型
1.2数据集成
在数据挖掘过程中,可能会存在数据分布在不同的数据源中,而这个时候需要将多个数据源合并存放在一个一致的数据存储(如数据仓库),整个过程称之为数据集成。
【
数据仓库:
关于数据仓库构思
漫谈数据仓库之维度建模
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
】
在R中,通过将存储在两个数据框中的数据以关键字为依据,以行为单位做列向合并,直接通过merge()函数完成。
merge(数据框1,数据框2,by="关键字"),而合并后的新数据自动按照关键字取值大小升序排列。不过在数据集成过程中存在表达形式不一样,导致不能直接完成匹配,就需要我们进行加以转换、提炼、集成等操作。具体从如下几方面:
(1)、实体识别
从不同数据源识别出现实世界的实体,来完成统一不同源的数据矛盾之处。
- 同名异义
比如同是属性ID:源A中为UserId 源B为OrderId,描述不同的视听 - 异名同义
比如源A中DetailOrderId:订单ID 源B:OrderId 即为A.DetailOrderId = B.OrderId - 单位不一致
比如价格单位 采用不同的货币计量单位
实体识别承担着检测和解决这些冲突的任务
(2)、冗余属性识别
- 同一属性多次出现
- 同一属性命名不一致,导致重复
通过整合不同源数据减少甚至避免数据冗余与不一致,提高数据挖掘的质量和速度。
1.3数据变换
数据变换主要对数据进行规范化处理、连续变量的离散化以及属性属性的构造,将数据转换成“适当的”形式,来满足挖掘任务及算法的需要。
(1)、简单函数变换
对原始数据进行某些数学函数变换,常见平方、开方、取对数、差分运算等等
主要来完成不具有正态分布变换服从正态分布;非平稳序列变为平稳序列等等
(2)、数据规范化
为了清除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定区域,便于进行综合分析。
常见方法如下:
- 最小-最大规范化
也称为离差标准化,是对原始数据的线性变换
x* = (x-min) / (max-min)
其中max:样本数据最大值, min: 样本数据最小值,max-min为极差
离差标准化保留了原来的数据中存在的关系,是清除量纲和数据取值范围影响的最简单方法。同样它的缺点也明显若是数集中某个数值很大,则规范化后各值会接近为0,并且将会相差不大。另外一旦超过[min,max]时,需要重新确定max和min
- 零-均值规范化
也称为标准差标准化,处理后数据均值=0,标准差=1
x* = (x- x(均)) / σ
其中X(均)原始数据平均值,σ为原始数据的标准差
由于均值和标准差容易受离群点的影响,常常通过使用中位数M取代均值,其次使用绝对标准差取代标准差
σ* = ∑|Xi-W|,其中W为平均数或中位数
- 小数定标规范化
通过移动属性值的小数位数,将属性映射到[-1,1],移动的小数位数取决于属性值绝对值的最大值
x* = (x) / 10 ^ k
<code>
读取数据
data=read.csv('./data/normalization_data.csv',he=F)
最小-最大规范化
b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))
b2=(data[,2]-min(data[,2]))/(max(data[,2])-min(data[,2]))
b3=(data[,3]-min(data[,3]))/(max(data[,3])-min(data[,3]))
b4=(data[,4]-min(data[,4]))/(max(data[,4])-min(data[,4]))
data_scatter=cbind(b1,b2,b3,b4)
零-均值规范化
data_zscore=scale(data)
小数定标规范化
i1=ceiling(log(max(abs(data[,1])),10))#小数定标的指数
c1=data[,1]/10^i1
i2=ceiling(log(max(abs(data[,2])),10))
c2=data[,2]/10^i2
i3=ceiling(log(max(abs(data[,3])),10))
c3=data[,3]/10^i3
i4=ceiling(log(max(abs(data[,4])),10))
c4=data[,4]/10^i4
data_dot=cbind(c1,c2,c3,c4)
</code>
(3)、连续属性离散化
在数据的取值范围内设定若干个离散的划分点,将取值范围划分为不同的离散化的区间,最后使用不同的符号或数值代表落在不同区间的数据值。
常见离散方法:
- 等宽法:均分对应的属性的值域
- 等频法:相同数量的记录放到一个区间
- 聚类(一维):采用聚类方法完成聚类,再将聚类得到簇合并到一个连续属性并做同一标记。
<code>
等宽离散化
v1=ceiling(data[,1]*10)
等频离散化
names(data)='f'#变量重命名
attach(data)
seq(0,length(f),length(f)/6)#等频划分为6组
v=sort(f)#按大小排序作为离散化依据
v2=rep(0,930)#定义新变量
for(i in 1:930) v2[i]=ifelse(f[i]<=v[155],1,
ifelse(f[i]<=v[310],2,
ifelse(f[i]<=v[465],3,
ifelse(f[i]<=v[620],4,
ifelse(f[i]<=v[775],5,6)))))
detach(data)
聚类离散化
result=kmeans(data,6)
v3=result$cluster
</code>
(4)、属性构造
利用已有的属性构造出新的属性
(5)、小波变换(本次不进行阐述)
1.4数据规约
数据规约在大数据集上产生更小的且保持原数据完整性的新数据集,提升在数据集合上进行分析和挖掘的效率。
意义如下:
- 降低无效、错误数据对建模的影响,提高建模的准确性
- 少量且具有代表性的数据将大幅度缩减数据挖掘所需的时间
- 降低存储数据的成本
常见规约
(1)、属性规约
合并属性
逐步向前选择
逐步向后删除
决策树归纳
主成分分析
(2)、数值规约
直方图
聚类
抽样(采样)
参数回归