Spark性能优化指南——基础篇: https://tech.meituan.com/spark-tuning-basic.html Spark性能优化指南——高级篇: ht...
Spark性能优化指南——基础篇: https://tech.meituan.com/spark-tuning-basic.html Spark性能优化指南——高级篇: ht...
Logistic Regression 本质论 发表于2016-07-08| 分类于机器学习| LR essential in one sentence 关于Logisti...
转:http://whuhan2013.github.io/blog/2016/12/14/exception-and-recommd/
url:https://www.qcloud.com/community/article/622182
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的...
Matrix Factorization: A Simple Tutorial and Implementation in Python url:http://www.quu...
当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特...
参考:http://www.52caml.com/head_first_ml/ml-chapter9-factorization-family/#
一.互联网广告特征工程 博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练...
1. 比rdd更省内存 2. 执行效率更高 3.接口友好,使用方便 mark: https://databricks.com/blog/2016/01/04/introduc...
自定义聚合函数实例: mark:https://docs.databricks.com/spark/latest/spark-sql/udaf-scala.html
yourSparkConf.set("spark.hadoop.validateOutputSpecs", "false") val sc = SparkContext(yo...
Python内存释放 python话说会自己管理内存,实际上,对于占用很大内存的对象,并不会马上释放。举例,a=range(10000*10000),会发现内存飙升一个多G,...
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数 cat /p...
Python更新后yum报错 mark:http://www.jianshu.com/p/9a5449166f57
Spark: Custom UDAF Example mark:https://ragrawal.wordpress.com/2015/11/03/spark-custom-...
需求: 将数据表格中的单列拆分成多行 解决方法: 在dataframe使用explode,explode可将array类型的列拆分成行,udf可将自定义行数定制数据的处理逻辑...