简介
自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。
sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上。利用这几大模块的优势,可以大大提高机器学习的效率。
sklearn拥有着完善的文档,上手容易,具有着丰富的API,在学术界颇受欢迎。sklearn已经封装了大量的机器学习算法,包括LIBSVM和LIBINEAR。同时sklearn内置了大量数据集,节省了获取和整理数据集的时间。
sklearn安装
- python
- Numpy
- scipy
由于我是运行在window,直接pip不能安装scipy,所以得先把之前安装的numpy卸了,在网上下载一个 numpy+mkl的whl包以及scipy的whl包,然后
pip install numpy-1.12.0+mkl-cp35-cp35m-win_amd64.whl
pip install scipy-0.18.1-cp35-cp35m-win_amd64.whl
pip install sklearn
决策树训练
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
m1 = DecisionTreeClassifier(min_samples_leaf=10,max_depth=10) # 实例化决策树分类器,并设置最小叶子树10,最大深度为10
m1.fit(x1,y1) #训练分类器,x1:参数集,y1,结果集
y_ = m1.predict(x_test) #测试
score = pd.crosstab(y,y_,margins=True).apply(lambda x : x/x[-1],axis=1)
score = (100 * score .astype(np.float)).round(decimals=2)
score = applymap(lambda x : str(x)+'%')
print (score)
"""
final 坏人 好人 All
用户标签
坏人 66.63% 33.37% 100.0%
好人 42.59% 57.41% 100.0%
All 46.87% 53.13% 100.0%
"""
生成决策树图
先利用 export_graphviz 把决策树导出为DOT格式。
from sklearn.tree import export_graphviz
export_graphviz(m1
,'./tree1.dot'
,filled=True
,leaves_parallel=True
,class_names=m1.classes_)
,feature_names=x1.columns)
该函数生成决策树的GraphViz表示,然后将其写入out_file。导出后,可以使用例如以下方式生成图形渲染:
$ dot -Tps tree1.dot -o tree.ps(PostScript格式)
$ dot -Tpng tree1.dot -o tree.png(PNG格式)
$ dot -Tpdf tree1.dot -o tree.pdf(PDF格式)
如果生成的图中文乱码的话,需要修改一下dot文件,用记事本打开dot文件,加上fontname;
edge [fontname="SimHei"];
node [shape=box, style="filled", color="black",fontname="SimHei"] ;
最后晒一下图的其中一部分: