-
plt.rcParams['font.sans-serif'] = ['SimHei'] 设置字体为SimHei显示中文
plt.rcParams['axes.unicode_minus'] = False 设置正常显示字符 负号
plt.rcParams['figure.figsize'] = (10, 6) 设置输出图片大小
%matplotlib inline是一个魔法函数(Magic Functions),你可以通过命令行的语法形式来访问它们。使用%matplotlib命令可以将matplotlib的图表直接嵌入到Notebook之中,或者使用指定的界面库显示图表,它有一个参数指定matplotlib图表的显示方式。inline表示将图表嵌入到Notebook中。(参考:https://www.cnblogs.com/emanlee/p/12358088.html)
任务一:切割训练集和测试集
- shape函数是numpy.core.fromnumeric中的函数,它的功能是查看矩阵或者数组的维数
1)将数据集分为自变量和因变量
2)按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
3)使用分层抽样
4)设置随机种子以便结果能复现
通常将数据集的80%作为训练集,20%作为测试集;
通常需要在开始构建模型之前把数据集进行划分,防止数据窥探偏误;
通常我们在构建模型的时候需要将数据进行处理,包括一些数据的清洗,数据的特征缩放(标准化或者归一化)
- 比如:我们得到的属性中可能有缺失值,因为在这些操作之前,我们已经把数据集分成了训练集和测试集,通常的做法是通过计算属性值的中位数来填充缺失值;
由于测试集作为对泛化误差的近似,所以可以通过训练两个模型,然后对比他们在测试数据上的泛化误差,选择泛化能力强的模型。
(来源:https://blog.csdn.net/haoji007/article/details/106165488)
X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)
train_data:所要划分的样本特征集
train_target:所要划分的样本结果
test_size:样本占比,如果是整数的话就是样本的数量
random_state:是随机数的种子。
随机数种子:在需要重复试验的时候,保证得到一组一样的随机数。每次都填1,其他参数一样的情况下你得到的随机数组是一样的;但填0或不填,每次都会不一样。
stratify是为了保持split前类的分布。用了stratify参数,training集和testing集的类的比例是 A:B= 4:1,等同于split前的比例(80:20)。通常在这种类分布不平衡的情况下会用到stratify。
将stratify=X就是按照X中的比例分配
将stratify=y就是按照y中的比例分配
(来源:https://www.cnblogs.com/Yanjy-OnlyOne/p/11288098.html)
任务二:模型创建
1)创建基于线性模型的分类模型(逻辑回归)
2)创建基于树的分类模型(决策树、随机森林)
3)分别使用这些模型进行训练,分别的到训练集和测试集的得分
4)查看模型的参数,并更改参数值,观察模型变化
图片展示如何选择合适模型:分类,回归,聚类,降维
回归问题通常是用来预测一个值 (预测的结果是连续的,例如预测明天的温度,23,24,25度)
分类问题是用于将事物打上一个标签,通常结果为离散值 (预测的结果是离散的,例如预测明天天气-阴,晴,雨)
参考:https://blog.csdn.net/u011630575/article/details/58676160
- penalty参数可选择的值为”l1”和”l2”.分别对应L1的正则化和L2的正则化,默认是L2的正则化
- multi_class参数决定了我们分类方式的选择,有 ovr(one-vs-rest)和multinomial(many-vs-many)。
- class_weight参数用于标示分类模型中各种类型的权重,可以不输入,即所有类型的权重一样。如果选择balanced让类库自己计算类型权重,那么类库会根据训练样本量来计算权重。某种类型样本量越多,则权重越低,样本量越少,则权重越高;或者我们自己输入各个类型的权重,比如对于0,1的二元模型,我们可以定义class_weight={0:0.9, 1:0.1},这样类型0的权重为90%,而类型1的权重为10%。
ovr即前面提到的one-vs-rest(OvR),而multinomial即前面提到的many-vs-many(MvM)。
来源: https://andy1314chen.github.io/2017/09/07/sklearn%E5%BA%93LogisticRegression%E4%BD%BF%E7%94%A8%E5%8F%8A%E7%AE%80%E5%8D%95%E8%B0%83%E5%8F%82/
逻辑回归
决策树
随即森林
任务三:输出模型预测结果
- predict:训练后返回预测结果,显示标签值
predict_proba:返回一个 n 行 k 列的数组, 第 i 行 第 j 列上的数值是模型预测 第 i 个预测样本为某个标签的概率,并且每一行的概率和为1
(来源:https://zhuanlan.zhihu.com/p/112450587)
任务4:交叉验证
- from sklearn.model_selection import cross_val_score 十折交叉验证
- lr = LogisticRegression(C=100)
scores = cross_val_score(lr, X_train, y_train, cv=10)
k越大,训练集在整个原始训练集的占比就越多
任务5:混淆矩阵
混淆矩阵是ROC曲线绘制的基础,分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来;最终需要判断样本的结果是0还是1,或者说是positive还是negative
参考:https://blog.csdn.net/weixin_37641832/article/details/104434509
任务6:ROC曲线
- ROC曲线上的一组组(FPR,TPR)值是通过改变阈值得到,用来反应某分析方法特异性和敏感性的关系
pos_label:label中被认定为正样本的标签。若label=[1,2,2,1]且pos_label=2,则2为positive,其他为negative。
参考:https://blog.csdn.net/hesongzefairy/article/details/104302499