数据预处理目的
保证数据的质量,包括确保数据的准确性、完整性和一致性
主要任务
数据清理
填写缺失的值、光滑噪声数据、识别或者删除离群的点,先解决这些脏数据,否者会影响挖掘结果的可信度
噪声数据:所测量数据的随机误差或者方差
数据集成
比如,将多个数据源上的数据合并,同一个概念的数据字段可能名字不同,导致不一致和冗余,这里需要处理
数据规约
将巨大的数据规模变小,又不损害数据的挖掘结果,比如在数学建模里通过SPSS来降维,包括维规约(主成分分析法)和数值规约(数据聚集或者是回归)
回归:用一个函数拟合数据来光滑数据
离群点分析:通过聚类来检测离群点,聚类将类似的值组织成一个群或者簇,落在群或者簇的值视为离群点
数据清理是一个过程
数据清理第一步就是偏差检测
元数据:使用任何你可能具有的相关数据性质的知识,这种知识或“关于数据的数据”就是元数据
可以使用数据清洗工具(比如简单的拼写错误)和数据审计工具(分析数据发现规则和联系)进行偏差检测,使用数据迁移工具进行数据变换
合并来自多个数据存储的数据
冗余和相关分析
一个属性(例如,年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余
有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用χ2(卡方)检验。对于数值属性,我们使用相关系数(correlation coefficient)和协方差(covariance),它们都评估一个属性的值如何随另一个变化。
1.标称数据的χ2相关检验
概率论数理统计那一块的知识
举个例子
(点击图片链接查看)
![XSS_6_0KNF6ETY92HR5TTG.png
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
- 专用公式:
若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式)
自由度v=(行数-1)(列数-1)=1 - 应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。
2.数值数据的相关系数
对于数值数据,我们可以通过计算属性A和B的相关系数(又称Pearson积矩系数,Pearson’s product moment coefficient),用发明者Karl Pearson的名字命名),估计这两个属性的相关度rA,B
其中,n是元组的个数,ai和bi分别是元组i在A和B上的值,A和B分别是A和B的均值,σA和σB分别是A和B的标准差,而是AB叉积和(即对于每个元组,A的值乘以该元组B的值)。注意,-1≤rA,B≤+1。如果rA,B大于0,则A和B是正相关的,这意味着A值随B值的增加而增加。该值越大,相关性越强(即每个属性蕴涵另一个的可能性越大)。因此,一个较高的rA,B值表明A(或B)可以作为冗余而被删除。
如果该结果值等于0,则A和B是独立的,并且它们之间不存在相关性。如果该结果值小于0,则A和B是负相关的,一个值随另一个减少而增加。这意味着每一个属性都阻止另一个出现。
3.数值数据的协方差
协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法,它衡量两个属性如何一起变化
除了检测属性间的冗余外,还得检测元组级的重复
去规范化表(denormalized table)的使用(这样做通常是通过避免连接来改善性能)是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或者由于更新了数据的某些出现,但未更新所有的出现。98例如,如果订单数据库包含订货人的姓名和地址属性,而不是这些信息在订货人数据库中的码,则差异就可能出现,如同一订货人的名字可能以不同的地址出现在订单数据库中。
维规约(减少属性)、数量规约(减少数量)和数据压缩
1、小波变换
离散小波变换(DWT)是一种线性信号处理技术,用于数据向量X时,将它变换成不同的数值小波系数向量X′。两个向量具有相同的长度。当这种技术用于数据归约时,每个元组看做一个n维数据向量,即X=(x1,x2,…,xn),描述n个数据库属性在元组上的n个测量值1。
相关连接:小波变换
2、主成分分析
主成分分析(principal components analysis)或PCA(又称Karhunen-Loeve或K-L方法)搜索k个最能代表数据的n维正交向量,其中k≤n。这样,原数据投影到一个小得多的空间上,导致维归约。
相关连接:主成分分析详解
3、属性子集选择
属性子集选择1通过删除不相关或冗余的属性(或维)减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。
使用决策树模型是不错的办法
4、回归和对数线性模型
使用线性回归或者多元回归,光滑数据,也可以使用SPSS回归拟合
5、直方图
不解释
6、聚类
聚类技术把数据元组看做对象。它将对象划分为群或簇,使得在一个簇中的对象相互“相似”,而与其他簇中的对象“相异”。
同样可以使用SPSS聚类进行分析
相关连接:聚类分析解析
相关连接:四种聚类算法
7、抽样
簇抽样、分层抽样不解释
8、数据立体聚集
数据立方体存储多维聚集信息。例如,图显示了一个数据立方体,用于AllElectronics的所有分店每类商品年销售的多维数据分析。每个单元存放一个聚集值,对应于多维空间的一个数据点。(为清晰起见,只显示了某些单元的值。)每个属性都可能存在概念分层,允许在多个抽象层进行数据分析。例如,branch的分层使得分店可以按它们的地址聚集成地区。数据立方体提供对预计算的汇总数据进行快速访问,因此适合联机数据分析和数据挖掘。
后文详细介绍...