16篇文章 · 6741字 · 4人关注
一、为什么用余弦相似度,而不是欧式距离? 余弦相似度:取值范围[-1,1]余弦距离=1-余弦相似度:取值范围[0,2] 余弦相似度在高维的情况下...
“逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的” 上面这句话是对逻辑回归的一个高度...
缺失值的处理办法: 删除法: 简单删除法:此方法将存在缺失值的数据条目(对象,元组,记录)进行删除 权重法:当缺失值的类型为非完全随机缺失的时候...
classifier.coef_
箱线图五要素: 最大值 四分之三分位数 中位数 (图中红线) 四分之一分位数 最小值
异常点检测-孤立森林Isolation Forest 1.基于划分的思想:假设我们用一个随机超平面来切割(split)数据空间(data spa...
手肘法 - 核心指标:SSE(sum of the squared errors,误差平方和) Ci是第i个簇 p是Ci中的样本点 mi是Ci的...
ID3 C4.5 CART 随机森林 bagging boosting Adaboost GBDT xgboost
损失函数简要介绍 0-1损失 绝对值损失 log对数损失函数 平方损失函数 指数损失函数 Hinge损失函数 损失函数 用来评价模型的预测值和真...
文集作者