文章作者:Tyan博客:noahsnail.com[http://noahsnail.com] | CSDN[http://blog.csdn....
文章作者:Tyan博客:noahsnail.com[http://noahsnail.com] | CSDN[http://blog.csdn....
降维往往作为预处理步骤,其中独立成分分析、因子分析和主成分分析比较流行,主成分分析(PCA)最为广泛。 主成分分析会通过线性组合将多个原始变量合...
前言 在处理数据的时候,经常会遇到两个名词Scale和Normalization,这两个名词经常会被混杂着使用,让我在理解一些操作的时候经常会迷...
泊松分布 泊松分布是统计与概率中重要的离散分布之一,泊松分布表示在一定的时间或空间内出现的事件个数,比如某一服务设施在一定时间内受到的服务请求的...
核函数是能够将低维不可分的数据映射到高维空间进行线性可分时能够降低数据处理难度的重要手段。核函数的本质就是一种将一个空间转化为另一个空间的变化。...
基于模型的方法(Model-based methods)主要是指基于概率模型的方法和基于神经网络模型的方法。前者的代表是高斯混合模型(GMM,G...
基于划分的方法是用对象之间的距离进行聚类,这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难,因此有人提出了基于密度的另一类聚类方法,...
层次聚类方法是古老而且常用的聚类方法。层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节...
基于划分的方法(Partition-based Methods):其原理简单来说就是,想象你有一堆散点需要聚类,想要的聚类效果就是“类内的点都足...
一、概念 1、关联规则 关联规则是数据挖掘中的典型问题之一,又被称为购物篮分析,这是因为传统的关联规则案例大多发生在超市中,例如所谓的啤酒与尿布...
专题公告
数据分析中的数学原理是基础