240 发简信
IP属地:北京
  • 推荐系统正负样本构造

    推荐系统正负样本构造 在feed场景中,使用曝光(展示)日志时,应该选择APP的SDK埋点的日志,而不是服务器Web接口返回的日志,因为Web接...

  • Resize,w 360,h 240
    模型调优-过拟合篇

    过拟合 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进...

  • Resize,w 360,h 240
    局部敏感哈希LSH

    LSH局部敏感哈希 问题场景: 快速的从海量高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据 局部敏感: 指样本越相似,经过哈...

  • Resize,w 360,h 240
    推荐系统-隐语义模型

    我们描述一个人的喜好一般是在一个低维空间来说的,比如:小明喜欢看武侠小说,听摇滚等等。而不需要一一去列出具体的小说名字或者是歌曲名字。隐语义模型...

  • ALS交替最小二乘算法

    ALS交替最小二乘算法   ALS指使用交替最小二乘法求解的协同过滤算法。通过观察到的所有用户给产品打分,来推断每个用户的喜好并向用户推荐合适的...

  • 偏差与方差

    原文链接 机器学习面试之偏差方差 在机器学习的面试中,能不能讲清楚偏差方差,经常被用来考察面试者的理论基础。偏差方差看似很简单,但真要彻底地说明...

  • spark调优篇(充分利用集群资源)

    资源利用角度 - 基本概念: 这里先简单介绍一下partition与core的概念。core为最小的计算单元,partition为最小的文件对象...

  • spark dataframe操作大全

    取某一列的分位数 取出a_df中有,b_df中没有的行 spark json array string spark sql在读取hive表数据结...

  • 频繁项集挖掘(单机版本 + 分布式版本)

    频繁项集挖掘的基本概念请直接看我参考的文章,我这里只给出频繁项集单机版和分布式版本的实现。通过单机版本熟悉算法的基本思想,分布式版本则是用于工业...