IP属地:浙江
KNN的基本思想 根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本距离最小的K个样本作为X的K个最近邻,最后...
PageRank 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高;如果一个PageRank值很高的...
聚类:将数据自动的分成有紧密关系的子集或簇。 k-means:对于给定样本集,分为k个簇。簇内点尽量紧密,簇间距离尽量大。 k-means是一个...
1.经验熵 随机变量X概率分布:P(X =xi) =pi, i =l,2, ... ,n(n为X的类别数) 随机变量X的熵(信息熵): 2...
数据降维 降维,即通过某种数学变换将原始高维的数据转变成低维的数据。
数据清洗 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理异常值,处理缺失值,光滑噪声和去重等。 1.一致性...
基于锁的并发控制方法 什么是锁? “锁“是一种控制对数据项的并发访问的机制1.每一数据项都有一唯一的锁2.每一事务读写数据项前,要获得锁3.如果...
事务的概念 访问并可能更新各种数据项的一个程序执行单元。事务由事务开始【begin transaction】和事务结束【end transact...