jlinleung - 简书

发简信

0
关注
6
粉丝
17
文章
12275

字数
18

收获喜欢
1

总资产

IP属地：江西

jlinleung

spark 性能调优
Spark性能优化指南——基础篇： https://tech.meituan.com/spark-tuning-basic.html Spark性能优化指南——高级篇： ht...

246 0 0
jlinleung

[转]逻辑回归本质
Logistic Regression 本质论发表于2016-07-08| 分类于机器学习| LR essential in one sentence 关于Logisti...

947 0 1

jlinleung

机器学习——异常检测
转：http://whuhan2013.github.io/blog/2016/12/14/exception-and-recommd/

217 0 0
jlinleung

【转】点击率预测综述
url：https://www.qcloud.com/community/article/622182

158 0 0
jlinleung

【转】特征工程-连续特征离散化达到更好的效果,特征选择的工程方法
连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？ Q:CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的...

769 0 7
jlinleung

【转】mf模型
Matrix Factorization: A Simple Tutorial and Implementation in Python url：http://www.quu...

578 0 0
jlinleung

[转]特征工程七种常用方法
当在做数据挖掘和数据分析时，数据是所有问题的基础，并且会影响整个工程的流程。相比一些复杂的算法，如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特...

1336 0 4

jlinleung

FM&FFM
参考：http://www.52caml.com/head_first_ml/ml-chapter9-factorization-family/#

334 0 0
jlinleung

【转】对于特征离散化，特征交叉，连续特征离散化非常经典的解释
一．互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统，可以看到，其中的logistic regression模型是比较简单而且实用的，其训练...

799 0 6
jlinleung

spark datasets 优势
1. 比rdd更省内存 2. 执行效率更高 3.接口友好，使用方便 mark： https://databricks.com/blog/2016/01/04/introduc...

162 0 0
jlinleung

User Defined Aggregate Functions - Scala
自定义聚合函数实例： mark：https://docs.databricks.com/spark/latest/spark-sql/udaf-scala.html

267 0 0
jlinleung

spark savaAsTextFile overwrite
yourSparkConf.set("spark.hadoop.validateOutputSpecs", "false") val sc = SparkContext(yo...

646 0 0

jlinleung

python内存释放
Python内存释放 python话说会自己管理内存，实际上，对于占用很大内存的对象，并不会马上释放。举例，a=range(10000*10000)，会发现内存飙升一个多G，...

9840 0 0
jlinleung

linux 查看cpu信息
# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数 cat /p...

252 0 0
jlinleung

Python更新后yum报错
Python更新后yum报错 mark:http://www.jianshu.com/p/9a5449166f57

95 0 0
jlinleung

Spark: Custom UDAF Example
Spark: Custom UDAF Example mark:https://ragrawal.wordpress.com/2015/11/03/spark-custom-...

171 0 0
jlinleung

sparkSQL-dataframe 单列拆分成多行
需求: 将数据表格中的单列拆分成多行解决方法：在dataframe使用explode，explode可将array类型的列拆分成行，udf可将自定义行数定制数据的处理逻辑...

5091 0 0

jlinleung

暂无个人介绍