浅谈数据四-建模·分类与预测

很多企业需要通过数据分析来帮助他们了解具有某些特性的顾客的消费习惯,就类似连锁零售企业希望知道下个月的销售趋势、销量,从而去准备采购原材料数量、铺货等等的,这些都是分类与预测的例子。分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定变量对应的因变量的值。

处理过程

1. 分类
分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以更方便的计算,所以分类是属于有监督的学习。

2.预测
预测是指建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。

3.实现过程
分类算法有两步过程: 一是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;二是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集来进行预测。

预测模型的实现步骤也有两步,一是通过训练集建立预测属性(数值型的)的函数模型,第二步在模型通过检验后进行预测或控制。

常用分类和预测算法

算法 算法描述
回归分析 回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。
决策树 决策树采用自顶乡下的递归方式,在内部节点进行属性值比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类
人工神经网络 人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型
贝叶斯网络 贝叶斯网络又称信度网络,是Bayes方法的拓展,是目前不确定知识表达和推理领域最有效的理论模型之一
支持向量机 支持向量机是一种通过某种非线性映射,把低维的非线性可转化为高维度的线性可分,在高维空间进行线性分析的算法。

回归分析

回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态以及进行模型预测的一种有效工具。在数据挖掘的环境下,自变量与因变量是具有相关关系的,自变量的值是已知的,因变量是要预测的。

回归分析研究大概范围
模型 适用条件 算法描述
线性回归 因变量与自变量是线性关系 对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数
非线性回归 因变量与自变量不都是线性关系 对一个或多个自变量和因变量之间的非线性关系进行建模。如果非线性关系可以简单通过函数转化为线性关系,用线性回归的思想求解;如果不能转化,用非线性最小二乘法求解
Logistic回归 因变量一般有是否两种取值 是广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0~1间,表示取值为1的概率
岭回归 参与建模的自变量之间具有多重共线性 是一种改进最小二乘估计的方法
主成分回归 参与建模的自变量之间具有多成共线性 主成分回归是根据主成分分析的思想提出来的,是对最小二乘法的一种改进,他是参数估计的一种有偏估计。可以消除变量之间的多重共线性

决策树

决策树方法在分类、预测、规则提取等领域有广泛应用。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造决策树是自上而下,分而治之的过程。

算法 描述
ID3算法 以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。只适用于离散的描述属性
C4.5 相较于ID3算法,改进使用信息增益率来选择节点属性。 适用于离散的描述属性,也适用于处理连续的描述属性
CART算法 是一种十分有效的非参数分类和回归方法,通过构建树、修建树、评估树来构造一个二叉树。当终结点是连续变量时,为回归树,当终结点是分类变量,为分类树。

人工神经网络

人工神经网络,是模拟生活神经网络进行信息处理的一种数学模型。它以对大脑的胜利研究成果为基础,其目的在于模拟大脑的某些机理与机制,实现一些特定功能。其中人工神经元是人工神经网络操作的基本信息处理单位。
在人工神经网络发展过程中,提出了多种不同的学习机制,目前还没有一种特定的学习算法适用于所有的网络结构和具体问题。

算法 描述
LM神经网络 给予梯度下降发和牛顿法结合的多层前馈网络,迭代次数少,收敛速度快,精度高
RBF径向基神经网络 RBF网络能够以任意精度逼近任意连续函数,从输入层到隐含层的变换是非线性的,从而隐含层到输出层的变换是线性的,适用于解决分类问题
FNN模糊神经网络 具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,它汇聚了神经网络与模糊系统的优点,集联想、识别、自适应以及模糊信息处理于一体。
GMDH神经网络 也称为多项式网络,他是前馈神经网络中常用的一种用于预测的神经网络,特点是 网络结构不稳定,而且在训练过程不断改变
ANFIS自适应神经网络 神经网络镶嵌在一个全部模糊的结构中,在不知不觉中向训练数据学习,自动产生、修正并高度概括出最佳的输入和输出变量的隶属函数以及模糊规则;另外神经网络的各层结构与参数也都有了明确,易于理解的物理意义
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335