数据挖掘之数据预处理学习笔记

数据预处理目的

保证数据的质量,包括确保数据的准确性、完整性和一致性

主要任务

数据清理

填写缺失的值、光滑噪声数据、识别或者删除离群的点,先解决这些脏数据,否者会影响挖掘结果的可信度
噪声数据:所测量数据的随机误差或者方差

数据集成

比如,将多个数据源上的数据合并,同一个概念的数据字段可能名字不同,导致不一致和冗余,这里需要处理

数据规约

将巨大的数据规模变小,又不损害数据的挖掘结果,比如在数学建模里通过SPSS来降维,包括维规约(主成分分析法)和数值规约(数据聚集或者是回归)

回归:用一个函数拟合数据来光滑数据

离群点分析:通过聚类来检测离群点,聚类将类似的值组织成一个群或者簇,落在群或者簇的值视为离群点


数据清理是一个过程

数据清理第一步就是偏差检测
元数据:使用任何你可能具有的相关数据性质的知识,这种知识或“关于数据的数据”就是元数据

可以使用数据清洗工具(比如简单的拼写错误)和数据审计工具(分析数据发现规则和联系)进行偏差检测,使用数据迁移工具进行数据变换

合并来自多个数据存储的数据

冗余和相关分析
一个属性(例如,年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余

有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用χ2(卡方)检验。对于数值属性,我们使用相关系数(correlation coefficient)协方差(covariance),它们都评估一个属性的值如何随另一个变化。

1.标称数据的χ2相关检验
概率论数理统计那一块的知识
举个例子
(点击图片链接查看)
![XSS_6_0KNF6ETY92HR5TTG.png

四格表资料的卡方检验用于进行两个率或两个构成比的比较。

  1. 专用公式:
    若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式)
    自由度v=(行数-1)(列数-1)=1
  2. 应用条件:
    要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

2.数值数据的相关系数
对于数值数据,我们可以通过计算属性A和B的相关系数(又称Pearson积矩系数,Pearson’s product moment coefficient),用发明者Karl Pearson的名字命名),估计这两个属性的相关度rA,B

20121010023950795.jpg

其中,n是元组的个数,ai和bi分别是元组i在A和B上的值,A和B分别是A和B的均值,σA和σB分别是A和B的标准差,而是AB叉积和(即对于每个元组,A的值乘以该元组B的值)。注意,-1≤rA,B≤+1。如果rA,B大于0,则A和B是正相关的,这意味着A值随B值的增加而增加。该值越大,相关性越强(即每个属性蕴涵另一个的可能性越大)。因此,一个较高的rA,B值表明A(或B)可以作为冗余而被删除。

如果该结果值等于0,则A和B是独立的,并且它们之间不存在相关性。如果该结果值小于0,则A和B是负相关的,一个值随另一个减少而增加。这意味着每一个属性都阻止另一个出现。

3.数值数据的协方差
协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法,它衡量两个属性如何一起变化

20121010024132450.jpg

除了检测属性间的冗余外,还得检测元组级的重复
去规范化表(denormalized table)的使用(这样做通常是通过避免连接来改善性能)是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或者由于更新了数据的某些出现,但未更新所有的出现。98例如,如果订单数据库包含订货人的姓名和地址属性,而不是这些信息在订货人数据库中的码,则差异就可能出现,如同一订货人的名字可能以不同的地址出现在订单数据库中。

维规约(减少属性)、数量规约(减少数量)和数据压缩

1、小波变换
离散小波变换(DWT)是一种线性信号处理技术,用于数据向量X时,将它变换成不同的数值小波系数向量X′。两个向量具有相同的长度。当这种技术用于数据归约时,每个元组看做一个n维数据向量,即X=(x1,x2,…,xn),描述n个数据库属性在元组上的n个测量值1。
相关连接:小波变换
2、主成分分析
主成分分析(principal components analysis)或PCA(又称Karhunen-Loeve或K-L方法)搜索k个最能代表数据的n维正交向量,其中k≤n。这样,原数据投影到一个小得多的空间上,导致维归约。
相关连接:主成分分析详解
3、属性子集选择
属性子集选择1通过删除不相关或冗余的属性(或维)减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。

使用决策树模型是不错的办法


20121010030858634.jpg

4、回归和对数线性模型
使用线性回归或者多元回归,光滑数据,也可以使用SPSS回归拟合
5、直方图
不解释
6、聚类
聚类技术把数据元组看做对象。它将对象划分为群或簇,使得在一个簇中的对象相互“相似”,而与其他簇中的对象“相异”。
同样可以使用SPSS聚类进行分析
相关连接:聚类分析解析
相关连接:四种聚类算法
7、抽样
簇抽样、分层抽样不解释
8、数据立体聚集
数据立方体存储多维聚集信息。例如,图显示了一个数据立方体,用于AllElectronics的所有分店每类商品年销售的多维数据分析。每个单元存放一个聚集值,对应于多维空间的一个数据点。(为清晰起见,只显示了某些单元的值。)每个属性都可能存在概念分层,允许在多个抽象层进行数据分析。例如,branch的分层使得分店可以按它们的地址聚集成地区。数据立方体提供对预计算的汇总数据进行快速访问,因此适合联机数据分析和数据挖掘。
后文详细介绍...

QG540(M$GRV$QDX~P331E~8.jpg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容