数据挖掘概述

数据挖掘是指在大量的数据中挖掘出信息,通过认真分析来揭示数据之间有意义的联系、趋势和模式。而数据挖掘技术就是指为了完成数据挖掘任务所需要的全部技术。金融、零售等企业已广泛采用数据挖掘技术,分析用户的可信度和购物偏好等。大数据研究采用数据挖掘技术,但是数据挖掘中的短期行为较多,多数是为某个具体问题研究应用技术,还无统一的理论。传统的数据挖掘技术在数据维度和规模增大时,所需资源呈现指数级增长,所以对PB级以上的大数据还需研究新的方法。

数据挖掘概述

数据挖掘是近年来伴随数据库系统的大量建立和万维网的广泛应用而发展起来的一门技术。数据挖掘是交叉性学科,它是数据库技术、机器学习、统计学、人工智能、可视化分析、模式识别等多门学科的融合,如下图所示。

数据挖掘是多学科的融合

数据挖掘的几个概念

数据挖掘

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含其内的、人们实现所不知的,但又是有潜在价值的信息和知识的过程。几点说明如下。

数据挖掘涉及数据融合、数据分析和决策支持等内容。

数据源必须是真实的、大量的、含有噪声的、用户感兴趣的数据。

发现的知识要可接受、可理解、可运用,并不要求发现放之四海而皆准的知识,仅支持特定的问题。

数据是知识的源泉,将概念、规则、模式、规律和约束等视为知识,这就好像从矿石中采矿或淘金一样,从数据中获取知识。

原始数据可以是结构化数据,如关系型数据库中的数据等,也可以是非结构化数据,如文本、图形和图像等,还可以是半结构化数据,如网页等。

挖掘知识的方法可以是数学的方法,也可以是非数学的方法;可以是演绎的方法,也可以是归纳的方法。

挖掘的知识具有应用的价值,可以用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。

数据挖掘是一门交叉学科,将人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在需求推动下,不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的知识融合后,形成新的研究热点。

数据的挖掘首先是搜集数据,数据越丰富越好,数据量越大越好,只有获得足够的高质量的数据,才能获得确定的判断,才能产生认知模型,这是量变到质变的过程。由此产生经验,经验的积累就能产生有价值的判断。认知模型是渐进发展的模型,当认识深入以后,将长生更加抽象的模型与许多猜想,通过猜想再扩展模型,从而达到深度学习和深度挖掘。

2. 数据挖掘分类

数据挖掘可以分为两类:直接数据挖掘和间接数据挖掘。

(1)直接数据挖掘

直接数据挖掘的目标是利用可用的数据建立一个模型,利用这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中标的属性,即列)进行描述。分类、估值、预测属于直接数据挖掘。

(2)间接数据挖掘

间接数据挖掘目标中没有选出某一具体的变量,用模型进行描述,而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚类、描述和可视化以及复杂数据类型挖掘。

3. 数据挖掘技术

数据挖掘技术是数据挖掘方法的集合,数据挖掘方法众多。根据挖掘任务可将数据挖掘技术分为预测模型发现、聚类分析、分类与回归、关联分析、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现、离群点检测等。根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。根据挖掘方法可分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习方法中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别和非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

数据挖掘应用了来自其他一些领域的思想与算法,主要包括:

统计学的抽样、估计和假设检验。

人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。

最优化、进化计算、信息论、信号处理、可视化和信息检索。

其他一些领域的技术也起到重要的支撑作用,需要数据库系统提供有效的存储、索引和查询处理支持。高性能计算技术、并行计算技术、分布式技术也能帮助处理数据,当数据不能集中到一起处理时更是至关重要。

想学习大数据或者想学习大数据的朋友,我整理了一套大数据的学习视频免费分享给大家,从入门到实战都有,大家可以加微信:Lxiao_28获取,还可以入微信群交流!(备注领取资料,真实有效哦)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,056评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,842评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,938评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,296评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,292评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,413评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,824评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,493评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,686评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,502评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,553评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,281评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,820评论 3 305
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,873评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,109评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,699评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,257评论 2 341

推荐阅读更多精彩内容