数据挖掘算法及软件使用

通过数据挖掘可以从大量有序或者杂乱无章的数据中发现潜在的规律,甚至通过训练学习还能通过已知的数据预测未来的发展变化。

挖掘算法

Bayes(常用)

贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

贝叶斯公式


贝叶斯公式

贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法想媲美,该算法能运用到大型数据库中,而且方法简单、分类准准确率高、速度快。

Clustering(常用)

聚类算法,即聚类分析,又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。

聚类分析简称聚类(clustering),是一个把数据集划分成子集的过程,每一个子集是一个簇(cluster),使得簇中的样本彼此相似,但与其他簇中的样本不相似。

聚类分析不需要事先知道样本的类别,甚至不用知道类别个数,因此它是一种无监督的学习算法,一般用于数据探索,比如群组发现和离群点检测,还可以作为其他算法的预处理步骤

聚类过程示意图

聚类过程示意图

常见聚类算法

  • K-Means(K均值)聚类
  • 均值漂移聚类
  • 基于密度的聚类方法(DBSCAN)
  • 用高斯混合模型(GMM)的最大期望(EM)聚类
  • 凝聚层次聚类
  • 图团体检测(Graph Community Detection)

K-means算法

K-means算法是一种著名的并且常用的聚类方法。K-means以 k 为参数,把 n 个对象分为 k 个簇(cluster),以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算是根据一个簇中对象的平均值(被看作簇的重心)来进行的。

K-means 算法是随机地选择 k 个对象,每个对象初始地代表了一个簇的平均值或中心,根据其与各个簇中心的距离,对剩余的每个对象赋给最近的簇,然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。

Rule Induction

Neural Network(常用)

神经网络就是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。在网络学习阶段,网络通过通过调整权重来实现输入样本与其相应(正确)类别的对应。

由于神经网络学习主要是针对其中的连接权重进行的,因此神经网络的学习有时也称为连接学习。

神经网络的优点就是对噪声数据有较好的适应能力,并且对未知数据也具有较好的预测分类能力。

Decision Tree(常用)

决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。

Decision Tree Ensemble

Misc Classifiers

Ensemble Learning

Item Sets / Association Rules(常用)

关联规则挖掘,关键规则模式属于描述型模式,发现关联规则的算法属于无监督学习方法。

考察一些涉及许多物品的事务:
事务1 中出现了物品甲,事务 2 中出现了物品乙,事务 3 中则同时出现了物品 甲 和 乙。那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?

Linear/Polynomial Regression(常用)

回归分析(regression analysis)是确定两种或两种以上变量相互依赖的定量关系的一种统计方法。

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。

Polynomial Regression
多项式回归

Linear Regression
线性回归

Logistic Regression(常用)

MDS

PCA

PMML

SVM

Feature Selection

Scoring(常用)

排序

数据挖掘软件 KNIME

这里主要介绍的是开源的数据挖掘软件KNIME。

KNIME是一个开源的数据集成、数据处理、数据分析和数据勘探平台。

KNIME采用的是类似数据流(data flow)的方式来建立分析挖掘流程。挖掘流程由一系列功能节点为(node)组成,每个节点为有输入/输出端口(port),用于接收数据或模型、导出结果。KNIME中每个节点都带有交通信号灯,用于指示节点的状态。

KNIME的特色功能HiLite允许用户在节点结果中标记感兴趣的记录,并进一步展开后续探索。

基本工作流程

  • 读取要分析的数据;
  • 对其中的一些数据进行转换;
  • 分析出其中的规律;
  • 部署到平台;

节点状态

  • 红灯,未连接、未配置、缺乏输入数据时为红灯;
  • 黄灯,准备执行为黄灯;
  • 绿灯,执行完毕后为绿灯;
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,784评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,745评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,702评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,229评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,245评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,376评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,798评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,471评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,655评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,485评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,535评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,235评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,793评论 3 304
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,863评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,096评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,654评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,233评论 2 341

推荐阅读更多精彩内容

  • 单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A...
    山的那边是什么_阅读 33,409评论 2 59
  • 本篇结构 简介 聚类算法的分类 K-Means聚类算法 DBSCAN聚类算法 本篇介绍了聚类算法的种类,重点关注K...
    w1992wishes阅读 7,402评论 0 14
  • 并不是说一样要你阿谀奉承的说违心话,而是有的时候,明明可以很愉快的交流下去,但是一些人的沟通方式真的让人不能继续了...
    倒计时的钟阅读 599评论 0 0
  • 2016已经过去这一年手机圈真的是热闹非凡啊,前置双摄、指纹识别心率检测、全面屏概念机等黑科技层出不穷,都受到了不...
    81f3d970f07f阅读 206评论 0 0
  • 所谓伊人,近在咫尺,遥不可及。所隔断的,便是青春,秋去冬来,青春易逝,伊人犹在。 我注定和你相遇,我不知道什么时候...
    青禾札记阅读 1,056评论 2 4