什么是数据挖掘
数据库系统
--
机器学习:主要任务
机器学习:K 次交叉检验
K 次交叉检验(K-fold cross validation)。所谓 K 次交叉检验就是把所有能够搜集到的已知结果的数据,分成 K 份。
机器学习:常见算法
所谓贝叶斯法就是基于贝叶斯原理的一种概率统计算法。
WEKA:WEKA 中的术语
一款做数据挖掘的傻瓜级软件 WEKA(http://www.cs.waikato.ac.nz/ml/weka/)。
WEKA 的全名是怀卡托智能分析环境。WEKA 也是新西兰一种鸟的名字。WEKA 的主要开发者来自新西兰怀卡托大学。WEKA 是免费的,它可以完成各种各样的数据挖掘任务,就像傻瓜相机一样,算法的事儿完全不需要你操心,你只要输入数据,告诉 WEKA 你要完成什么样的挖掘任务,再选择现成的算法,WEKA 就会为你返回想要的结果模型。
要让 WEKA 替你完成挖掘任务,你需要先给 WEKA 你的数据。目前我们大多数人手里的数据可能都存储在 Excel 表格里。非常遗憾,WEKA 不能读取 Excel 数据。WEKA 的数据存储格式是 ARFF 格式。这种格式的文件其实就是一个纯文本文件,可以用写字板或记事本打开。在 WEKA 安装目录下的 data 文件夹里有许多 ARFF 文件。我们用记事本打开其中的weather_numeric.arff。
WEKA 读取 ARFF 文件的重要依据是分行和空格,因此不能在这种文件里随意的断行,以及随意加入空格。空行以及全是空格的行将被忽略。打开一个 ARFF文件,经常会看到大段%开头的内容,这些是关于数据的注释。WEKA 在读取文件时会自动忽略这些行。除去注释后,整个 ARFF 文件可以分为两个部分,第一部分头信息(headinformation)是对关系和属性的定义,第二部分数据信息(data information)就是数据值。