在算法选型的时候经常要把相关算法在数据集训练看一下效果,有时候想有空的时候一定要把这些工作封装在一起,快速调用。
事实证明,只要拖的久,大牛们总会把让人心仪的包封装好。
本次重点推荐调包侠的机器学习神器—pycaret。
1、初始化
pycaret在初始化setup阶段自动完成机器学习必需的数据预处理步骤,例如缺失值插补,分类变量编码,标签编码(将yes或no转换为1或0)和训练、测试集拆分(train-test-split)
from pycaret.classification import setup
# 首先初始化,传入数据集,Class variable为label信息
exp1 = setup(diabetes, target = 'Class variable')
例如diabetes这份数据集是二分类场景,数据结构为(768,9),无缺失值情况,特征处理后有23个特征,拆分训练集
2、模型比较
# 一行代码解决模型比较
from pycaret.classification import compare_models
compare_models()
比较这份数据集使用不同模型的效果
3、模型搭建与参数调优
选择最优的算法训练数据集,并进行参数调优
from pycaret.classification import create_model, tune_model
# 模型搭建
adaboost = create_model('ada')
# 参数调优
tuned_adaboost = tune_model('ada')
小结
其他内容懒得写了,总之就是pycaret可以用很少的代码替换原来的数百行代码,简化工作量。
觉得有时间可以看一看源码,看看特征工程、参数调优等方面大牛们是怎么打造的
参考资料
[1] https://github.com/pycaret/pycaret
[2] 机器学习建模神器PyCaret已开源:https://blog.csdn.net/Datawhale/article/details/106009984