监督学习对于有标签的特定数据集(训练集)是非常有效的,但是它需要对于其他的距离进行预测。 无监督学习对于在给定未标记的数据集(目标没有提前指定)...
HDFS 分布式文件系统 按块存储支持大规模文件存储简化系统设计数据备份 名称节点,整个HDFS集群的管家。FsImage和editlog通过s...
第五章 模型评价方法 5.1 模型的评价方法介绍 5.1.1~5 accuracy,precision,recall,F1-score,ROC曲...
面试的时候回答的不清楚,学习&总结如下。参考link 1.ROC曲线 对于二值分类器,评价指标主要有precision,recall,F-sco...
协同过滤推荐系统可以分为基于用户的推荐和基于项目的推荐。 基本数据是用户对项目的评分表,预测稀疏矩阵中空缺项的值。越稀疏越难。 计算相似度:co...
步骤: 数据与输出重排打散 bag-of-words词袋模型词袋模型 n-gram模型将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了...
词向量 重点在于把符号数字化,nlp中最直观的方法是one-hot representation,每个词表示为一个向量,长度为词表大小,只有一个...
一开始提出的是LOOCV方法:每次取出一个数据作为测试集的唯一元素,其他n-1个元素作为训练集哟用于训练模型和调参。经过n个模型,每次一个MSE...
百度 一面 TCP协议C++里继承的多态 概率题,6位数倒过来还是一样的概率 从袋子里拿红黑球 2xN的大方块,用1x2和2x1填满有多少种方法...