Scikit-Learn机器学习介绍(中文翻译)

Scikit-Learn机器学习介绍(中文翻译)2014-12-02 

转自:http://nanshu.wang/%E8%98%85%E8%8A%9C/scikit-learn-docs-translation-1/

翻译自:http://scikit-learn.org/stable/tutorial/basic/tutorial.html

本章内容

在本章中,我们会介绍在使用scikit-learn中遇到的机器学习(machine learning)术语,以及一个简单的机器学习例子。

机器学习:问题设定

一般来说,机器学习问题可以这样来理解:我们有n个样本(sample)的数据集,想要预测未知数据的属性。如果描述每个样本的数字不只一个,比如一个多维的条目(也叫做多变量数据(multivariate data)),那么这个样本就有多个属性或者特征

我们可以将学习问题分为以下几类:

有监督学习(unsupervised learning)是指数据中包括了我们想预测的属性,有监督学习问题有以下两类:

分类(classification):样本属于两个或多个类别,我们希望通过从已标记类别的数据学习,来预测未标记数据的分类。例如,识别手写数字就是一个分类问题,其目标是将每个输入向量对应到有穷的数字类别。从另一种角度来思考,分类是一种有监督学习的离散(相对于连续)形式,对于n个样本,一方有对应的有限个类别数量,另一方则试图标记样本并分配到正确的类别。

回归(regression):如果希望的输出是一个或多个连续的变量,那么这项任务被称作回归,比如用年龄和体重的函数来预测三文鱼的长度。

无监督学习(unsupervised learning)的训练数据包括了输入向量X的集合,但没有相对应的目标变量。这类问题的目标可以是发掘数据中相似样本的分组,被称作聚类(Clustering);也可以是确定输入样本空间中的数据分布,被称作密度估计(density estimation);还可以是将数据从高维空间投射到两维或三维空间,以便进行数据可视化。这里是Scikit-Learn的无监督学习主页。

加载样例数据集

scikit-learn有一些标准数据集,比如用于分类的irisdigits数据集,和用于回归的波士顿房价(boston house prices)数据集。

下面,我们会用shell里的Python解释器来加载iris和digits数据集。$表示shell提示符,>>>表示Python解释器提示符:

$ python

>>> from sklearn import datasets

>>> iris = datasets.load_iris()

>>> digits = datasets.load_digits()

数据集类似字典对象,包括了所有的数据和关于数据的元数据(metadata)。数据被存储在.data成员内,是一个n_samples*n_features的数组。在有监督问题的情形下,一个或多个因变量(response variables)被储存在.target成员中。有关不同数据集的更多细节可以在这里被找到。

例如,在digits数据集中,digits.data是可以用来分类数字样本的特征:

>>> print(digits.data)  # doctest: +NORMALIZE_WHITESPACE

[[  0.  0.  5. ...,  0.  0.  0.]

[  0.  0.  0. ...,  10.  0.  0.]

[  0.  0.  0. ...,  16.  9.  0.]

...,

[  0.  0.  1. ...,  6.  0.  0.]

[  0.  0.  2. ...,  12.  0.  0.]

[  0.  0.  10. ...,  12.  1.  0.]]

digits.target给出了digits数据集的真实值,即每个数字图案对应的我们想预测的真实数字:

>>> digits.target

array([0, 1, 2, ..., 8, 9, 8])

数据数组的形式

数据是一个2维n_samples*n_features的数组,尽管原始数据集可能会有不同的形式。在digits数据集中,每个原始样本是一个8*8的数组,可以用以下方式访问:

>>> digits.images[0]

array([[  0.,  0.,  5.,  13.,  9.,  1.,  0.,  0.],

[  0.,  0.,  13.,  15.,  10.,  15.,  5.,  0.],

[  0.,  3.,  15.,  2.,  0.,  11.,  8.,  0.],

[  0.,  4.,  12.,  0.,  0.,  8.,  8.,  0.],

[  0.,  5.,  8.,  0.,  0.,  9.,  8.,  0.],

[  0.,  4.,  11.,  0.,  1.,  12.,  7.,  0.],

[  0.,  2.,  14.,  5.,  10.,  12.,  0.,  0.],

[  0.,  0.,  6.,  13.,  10.,  0.,  0.,  0.]])

这个简单的例子说明了如何从原始问题里将数据形式化,以便scikit-learn使用。

学习和预测

在digits数据集中,我们的任务是给定一个图案,预测其表示的数字是什么。我们的样本有10个可能的分类(数字0到9),我们将匹配一个预测器(estimator)来预测(predict)未知样本所属的分类。

在scikit-learn中,分类的预测器是一个Python对象,来实现fit(X, y)和predict(T)方法。

下面这个预测器的例子是classsklearn.svm.SVC,实现了支持向量机分类。创建分类器需要模型参数,但现在,我们暂时先将预测器看作是一个黑盒:

>>> from sklearn import svm

>>> clf = svm.SVC(gamma=0.001, C=100.)

选择模型参数

在这个例子里我们手动设置了gamma值。可以通过这些工具例如网格搜索(grid search)和交叉验证(cross validation)来自动找到参数的最佳取值。

给预测器取个名字叫做clf(claasifier)。现在预测器必须来匹配(fit)模型,也就是说,它必须从模型中学习(learn)。这个过程是通过将训练集传递给fit方法来实现的。我们将除了最后一个样本的数据全部作为训练集。通过Python语法[:-1]来选择训练集,这会生成一个新的数组,包含了除最后一个条目的digits.data:

>>> clf.fit(digits.data[:-1], digits.target[:-1])  # doctest: +NORMALIZE_WHITESPACE

SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0, degree=3,

gamma=0.001, kernel='rbf', max_iter=-1, probability=False,

random_state=None, shrinking=True, tol=0.001, verbose=False)

现在你可以预测新值了,具体来说,我们可以询问分类器,digits数据集里最后一个图案所代表的数字是什么,我们并没有用最后一个数据来训练分类器。

>>> clf.predict(digits.data[-1])

array([8])

最一个图案如下:

如你所见,这项任务很具有挑战性:这个图案的分辨率很差。你能和分类器得到一致结果吗?

一个更复杂的分类问题的例子在这里:识别手写数字(Recognizing hand-written digits),供学习参考。

模型持久性(Model persistence)

可以采用Python内建的持久性模型pickle来保存scikit的模型:

>>> from sklearn import svm

>>> from sklearn import datasets

>>> clf = svm.SVC()

>>> iris = datasets.load_iris()

>>> X, y = iris.data, iris.target

>>> clf.fit(X, y)  # doctest: +NORMALIZE_WHITESPACE

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,

kernel='rbf', max_iter=-1, probability=False, random_state=None,

shrinking=True, tol=0.001, verbose=False)

>>> import pickle

>>> s = pickle.dumps(clf)

>>> clf2 = pickle.loads(s)

>>> clf2.predict(X[0])

array([0])

>>> y[0]

0

在scikit的特定情形下,用joblib’s来代替pickle(joblib.dump&joblib.load)会更吸引人,在大数据下效率更高,但只能pickle到磁盘而不是字符串:

>>> from sklearn.externals import joblib

>>> joblib.dump(clf, 'filename.pkl') # doctest: +SKIP

你可以在之后重新加载pickled模型(可以在另一个Python程序里):

>>> clf = joblib.load('filename.pkl') # doctest:+SKIP

注意:

joblib.dump返回一个文件名列表。每个包含在clf对象中独立的numpy数组是在文件系统中是按顺序排列的一个独立文件。当用joblib.load重新加载模型时,所有文件必须在同一个目录下。

注意pickle有一些安全性和维护性问题。请参考模型持久性章节获得更多关于scikit-learn模型持久性的信息。

machine-learning,Scikit-Learn,机器学习

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 201,681评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,710评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,623评论 0 334
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,202评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,232评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,368评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,795评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,461评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,647评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,476评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,525评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,226评论 3 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,785评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,857评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,090评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,647评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,215评论 2 341

推荐阅读更多精彩内容