数据挖掘的入门概念

1 数据挖掘

数据挖掘(Data Mining,简称DM),是指从大量的数据中,挖掘出未知的且有价值的信息和知识的过程

2 机器学习 与 数据挖掘

与数据挖掘类似的有一个术语叫做”机器学习“,这两个术语在本质上的区别不大,如果在书店分别购买两本讲数据挖掘和机器学习的书籍,书中大部分内容都是互相重复的。具体来说,小的区别如下:

机器学习这个词应该更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,无人驾驶等等各种其他的模式识别,甚至于谷歌大脑等AI,这些东西的一个共同点就是极其复杂的算法,所以说机器学习的核心就是各种精妙的算法。

数据挖掘则更偏向于“数据”而非算法,而且包括了很多数据的前期处理,用爬虫爬取数据,然后做数据的清洗,数据的整合,数据有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

所以,数据挖掘的范畴要更广泛一些。

3 数据挖掘所覆盖的学科

数据挖掘是一门交叉学科,覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学习、市场营销、数据可视化等领域的理论和实践成果

4 数据挖掘的误区

算法至上论:数据挖据是某些对大量数据操作的算法,这些算法能够自动地发现新的知识。

技术至上论:数据挖据需要非常高深的分析技能,需要精通高深的数据挖掘算法,需要熟练程序开发设计

这两种认知都是有问题的,实际上,数据挖掘是人们处理商业问题的某些方法,通过适量的数据挖掘来获得有价值的结果,最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

5 数据挖掘能解决什么问题

商业上的问题多种多样,例如:

“如何能降低用户流失率?”
“某个用户是否会响应本次营销活动?“
"如何细分现有目标市场?"
“如何制定交叉销售策略以提升销售额?”
“如何预测未来销量?”

从数据挖掘的角度看,都可以转换为五类问题:分类,聚类,回归,关联和推荐

5.1 分类问题

简单来说,就是根据已经分好类的一推数据,分析每一类的潜在特征建立分类模型。对于新数据,可以输出新出具属于每一类的概率。

比如主流邮箱都具备的垃圾邮件识别功能:一开始,正常邮件和垃圾邮件都是混合在一起的,如果我们手工去点击哪些是垃圾邮件,逐渐的,垃圾邮件就会自动被识别放到垃圾文件夹。如果我们对于混在正常邮件中的垃圾持续进行判断,系统的识别率就会越来越高。我们人工点击判断,相当于预先分类(两类:垃圾邮件和非垃圾邮件),系统就会自己学习两类邮件的特征建立模式,对于新邮件,会根据模式判断属于每个类别的可能性。

分类算法示意

5.2 聚类问题

和分类算法是不同概念,但是工作中业务人员经常误用。 聚类的的目的也是把数据分类,但类别并不是预先定义的,算法根据“物以类聚”的原则,判断各条数据之间的相似性,相似的就归为一类。

比如我有十万消费者的信息数据,比如包括性别,年龄,收入,消费等,通过聚类的方法事可以把这些数据分成不同的群,理论上每群用户内都是相似性较高的,就可以覆盖分群用户制定不同的策略

聚类算法示意

5.3 回归问题

回归问题和分类问题有点类似,但是回归问题中的因变量是一个数值,而分类问题,最终输出的因变量是一个类别

简单理解,就是定义一个因变量,在定义若干自变量,找到一个数学公式,描述自变量和因变量之间的关系

比如,我们要研究房价,然后收集房子距离市中心的距离,面积,收集足够多的房子的数据,就可以建立一个房价和距离,面积的公式,这样给出一个新的距离和面积数据,就可以预测这个房子的价格

回归问题示意

5.4 关联分析

也就是很有名气的啤酒与尿布的故事,据说这是一个真实的案例:沃尔玛在分析销售记录时,发现啤酒和尿布经常一起被购买,于是他们调整了货架,把两者放在一起,结果真的提升了啤酒的销量。后来还分析背后的原因,说是因为爸爸在给宝宝买尿布的时候,会顺便给自己买点啤酒……这已经成为了数据挖掘领域的一个经典桥段。

因此,关联分析就是基于数据识别产品之间潜在的关联,识别有可能频繁发生的模式

5.5 推荐系统

利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程也。也就是平时我们在浏览电商网站、视频网站、新闻App中"猜你喜欢"、“其他人也购买了XXX”等类似的功能。

6 数据挖掘的工作流程

数据挖掘的通用流程叫做CRISP-DM(Cross Industry Standard Process-Data Mining)数据挖掘方法论

CRISP-DM

6.1 商业理解

商业理解阶段主要完成对商业问题的界定,以及对企业内外部资源进行评估与组织,最终确定将企业的商业目标转化为数据挖掘目标,并制定项目的方案

6.2 数据理解

了解企业目前数据现状,提出数据需求,并尽可能多的收集数据。通过初步的数据探索,快速了解数据的质量

6.3 数据准备

在建立数据挖掘模型之前对数据做最后的准备工作,主要是把收集到的各部分数据关联起来,形成一张最终数据宽表。这个阶段其实是耗时最长的阶段,一般会占据整个数据挖掘项目的70%左右的时间,包括数据导入、数据抽取、数据清洗、数据合并、新变量计算等工作。

6.4 模型构建

模型构建是数据挖掘工作的核心阶段。主要包括准备模型的训练集和验证集,选择并使用适当的建模技术和算法,模型建立,模型效果对比等工作

6.5 模型评估

模型评估主要从两个方面进行评价:

1)技术层面:
    - 设计对照组进行比较。
    - 根据常用的模型评估指标进行评价,如命中率、覆盖率、提升度等

2)业务经验:业务专家凭借业务经验对数据挖掘结果进行评估

6.6 模型部署

将数据挖掘成果程序化,将模型写成存储过程固化到IT平台上,并持续观察模型衰退变化,在发生模型衰退时,引入新的变量进行模型优化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容