推荐系统正负样本构造 在feed场景中,使用曝光(展示)日志时,应该选择APP的SDK埋点的日志,而不是服务器Web接口返回的日志,因为Web接口返回的日志中的后果是会增加很...
过拟合 在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在trai...
LSH局部敏感哈希 问题场景: 快速的从海量高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据 局部敏感: 指样本越相似,经过哈希后的值越可能一样。 通过建立...
我们描述一个人的喜好一般是在一个低维空间来说的,比如:小明喜欢看武侠小说,听摇滚等等。而不需要一一去列出具体的小说名字或者是歌曲名字。隐语义模型就是根据用户对物品的偏好信息,...
ALS交替最小二乘算法 ALS指使用交替最小二乘法求解的协同过滤算法。通过观察到的所有用户给产品打分,来推断每个用户的喜好并向用户推荐合适的产品。 具体推荐是 通过用户...
原文链接 机器学习面试之偏差方差 在机器学习的面试中,能不能讲清楚偏差方差,经常被用来考察面试者的理论基础。偏差方差看似很简单,但真要彻底地说明白,却有一定难度。比如,为什么...
生成模型和判别模型是机器学习中两类基本的模型,在机器学习面试中,经常会被问到。能否清晰简明地说明二者的不同,直接影响到面试官对求职者基础知识掌握程度的判断。本文试图给出一个回...
逻辑回归作为被广泛使用的二分类模型,面试中自然是不可缺少的。但要深刻理解逻辑回归又不是那么容易的,比如说,逻辑回归输出的值是0到1之间的值,这个值是真实的概率吗?逻辑回归为什...
在前面我们学习了一种有监督的降维方法——线性判别分析(Linear Dscriminant Analysis,LDA)。LDA不仅是一种数据压缩方法还是一种分类算法,LDA将...