本篇为spark上的第一个机器学习简单实例
spark上机器学习库分为spark mllib和spark ml,我们这里主要使用spark ml
spark mllib针对对象RDD,spark ml针对对象dataframe。如果用过python pandas包,应该对dataframe数据类型比较了解。
ok 上代码
简单解释下模型流程(需要了解逻辑回归算法,以及一些自然语言处理基础):
1 创建一个dataframe对象training。
2 tokenizer转换器,用于分词,得到分词结果。
3 hashingTF转换器,用于计算词频,形成词袋模型
4 logisticRegression评估器,用逻辑回归进行分类(maxIter:最大迭代次数,regparm:学习率)
5 将转换器,评估器加入pipeline,形成管道机制
6 后续代码用于训练模型,以及输出结果的预测值,概率。
总体而言,目前看来,spark ml的使用和sklean对比,差别不大。
好了,基于spark的第一个机器学习demo圆满完成=。=