囧囧侠道 - 简书

囧囧侠道

IP属地：北京

推荐系统正负样本构造
推荐系统正负样本构造在feed场景中，使用曝光（展示）日志时，应该选择APP的SDK埋点的日志，而不是服务器Web接口返回的日志，因为Web接...

1942 0 0
模型调优-过拟合篇
过拟合在训练数据不够多时，或者overtraining时，常常会导致overfitting（过拟合）。其直观的表现如下图所示，随着训练过程的进...

1266 0 0

局部敏感哈希LSH
LSH局部敏感哈希问题场景：快速的从海量高维数据集合中找到与某个数据最相似（距离最近）的一个数据或多个数据局部敏感：指样本越相似，经过哈...

901 0 0
推荐系统-隐语义模型
我们描述一个人的喜好一般是在一个低维空间来说的，比如：小明喜欢看武侠小说，听摇滚等等。而不需要一一去列出具体的小说名字或者是歌曲名字。隐语义模型...

342 0 0
ALS交替最小二乘算法
ALS交替最小二乘算法 ALS指使用交替最小二乘法求解的协同过滤算法。通过观察到的所有用户给产品打分，来推断每个用户的喜好并向用户推荐合适的...

780 0 0
偏差与方差
原文链接机器学习面试之偏差方差在机器学习的面试中，能不能讲清楚偏差方差，经常被用来考察面试者的理论基础。偏差方差看似很简单，但真要彻底地说明...

243 0 0
spark调优篇(充分利用集群资源)
资源利用角度 - 基本概念：这里先简单介绍一下partition与core的概念。core为最小的计算单元，partition为最小的文件对象...

250 0 0

spark dataframe操作大全
取某一列的分位数取出a_df中有，b_df中没有的行 spark json array string spark sql在读取hive表数据结...

1396 0 0
频繁项集挖掘（单机版本 + 分布式版本）
频繁项集挖掘的基本概念请直接看我参考的文章，我这里只给出频繁项集单机版和分布式版本的实现。通过单机版本熟悉算法的基本思想，分布式版本则是用于工业...

444 0 0