KNN的基本思想 根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本距离最小的K个样本作为X的K个最近邻,最后以X的K个最近邻中的大多数所属...
Markdown是什么? Markdown是一种「标记语言」,通常为程序员群体所用。除此之外,Markdown也是国际杂志编辑以及许多写作者都广泛使用的标记语言。小源博客的所...
PageRank 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高;如果一个PageRank值很高的网页链接到一个其他的网页,那么...
聚类:将数据自动的分成有紧密关系的子集或簇。 k-means:对于给定样本集,分为k个簇。簇内点尽量紧密,簇间距离尽量大。 k-means是一个迭代方法,每次迭代做两件事: ...
1.经验熵 随机变量X概率分布:P(X =xi) =pi, i =l,2, ... ,n(n为X的类别数) 随机变量X的熵(信息熵): 2.经验条件熵 条件熵H(Y|X...
数据降维 降维,即通过某种数学变换将原始高维的数据转变成低维的数据。
数据清洗 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理异常值,处理缺失值,光滑噪声和去重等。 1.一致性检查 一致性检查是根据每个变量...
基于锁的并发控制方法 什么是锁? “锁“是一种控制对数据项的并发访问的机制1.每一数据项都有一唯一的锁2.每一事务读写数据项前,要获得锁3.如果被其他事务持有该数据项的锁,则...
事务的概念 访问并可能更新各种数据项的一个程序执行单元。事务由事务开始【begin transaction】和事务结束【end transaction】之间执行的全部操作组成...
索引 索引是定义在存储表(Table)基础之上,有助于 无需检查所有记录而快速定位所需记录的一种辅助存储结构,由一系列存储在磁盘上的索引项组成。索引项由两部分构成:1.索引字...
一个数据库映射到不同的文件上,文件储存在磁盘上。 一个文件在逻辑上组织成为记录的一个序列。每个文件又分成定长的存储单元,称为块(block,一般数据库都为4~8kb)。一个块...
RAID技术 Redundant Array of Indenpendent Disks(独立磁盘冗余阵列),简称磁盘阵列,使用几个硬盘组成一个硬盘阵列组,使读写性能增强,容...
磁盘的构造 盘片:承载数据存储的介质,由坚硬金属材料制成,涂以磁性介质。有两面,第一个盘片的正面为0面,反面为1面;第二个盘片的正面为2面......依次类推。 磁头:通过反...