第一章 绪论
数据:网络空间的任何事物。
结构化数据、半结构化数据与无结构数据:后两者是研究的主要内容。
大数据定义:狭义指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,广义上指基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。
数据挖掘是统计模型的构建过程。
人工智能:究重心在机器学习和推理机制。算法的理论性强,追求理论的正确性。
数据挖掘: 强调算法的实用性,不关心理论问题的解决,而是关心实际问题的解决
第二章:数据与处理
数据集的类型:记录数据,图和网络数据,有序数据,多媒体数据。
数据预处理任务:是为了提高数据挖掘效率与质量进行的预处理工作,包括数据清理,数据集成,数据变换,数据规约,数据离散化等。
处理噪声数据的方法:分箱---用临近数据进行光滑,如箱均值,中位数,箱边界;回归---将缺失值通过回归函数进行预测。
处理离群点数据:通过聚类进行检测,数据光滑处理,通过外部手段纠正等,有时根据具体情况不需要处理。
数据集成:合并来自多个数据源的数据。
相关系数:线性相关程度
图片: https://uploader.shimo.im/f/KCTf39hcJLM9It7m.png
卡方检验(相关分析):
图片: https://uploader.shimo.im/f/TboWeCcY5fgfg9Xa.png
数据变换:数据的光滑、聚集、泛5化(离散化与分层)、规范化、特征构造等。
第三章 链接分析
PageRank算法(网页的重要程度仅由指向它的网页决定):
转移矩阵是个n*n列的方阵,用来描述随机冲浪者的下一步访问行为
• 如果网页j有k条出链,那么对每条出边链向的网页i,m_ij=1/k
• 其他网页的i对应的矩阵元素mij=0
随机冲浪的过程:
基本算法思想
随机冲浪者位置的概率分布可以用一个n维列向量表示,其中分量j代表位于网页j的概率。该概率即PageRank值,初始n个网页的初始概率都为V_0。
Web的转移矩阵为M。第一步之后,冲浪者的概率分布向量是Mv0,第二步为M^2v0,i步后为M^iv_0.
收敛前提条件:1.图为强连通图 2.不存在终止节点
算法终止条件:M^(i+1)v_0 = M^iv_0 ----迭代前后结果差异足够小,一般50~75次即可收敛
算法优化
处理终止点问题:
将其行列从图中剔除,若产生新的终止点,则迭代删除,直至无终止点。
修改随机冲浪者在Web上的冲浪过程
终止点的PageRank值:
对删除终止点之后的图G,计算出各节点的PageRank值
恢复到原图,但仍然保留G中各节点的PageRank值
对不在G中的终止点及伪终止点:
若所有指向它的网页PageRank都已算出,则它的PageRank=∑这些网页的PageRank/出链数,否则等待其他终止点网页计算PageRank。即按照终止点删除顺序的逆序进行节点的PageRank计算。
采集器陷阱及“抽税法”:采集器陷阱指的是一系列节点,它们可能互相链接,但是却不会链接集合以外的节点,即没有出链指向集合之外。当采集器(爬虫程序)一旦进入采集器陷阱,将无法跳出。
solution:抽税机制--进行随机跳转:允许随机冲浪者以一个较小的概率随机跳转到一个随机网页,而不一定沿着当前网页的出链前进。
图片: https://uploader.shimo.im/f/jHWyyeqxeqkCT1f5.png
其中,β是选定的常数,通常取值在0.8到0.9之间。e是一个所有分量都为1、维数为n的向量,n是Web图中所有节点的数目。
PageRank优点:由于M的稀疏性计算快速,且避免了磁盘的大量使用。可以将稀疏矩阵压缩表示(方法如下,转移矩阵是特殊的稀疏矩阵)
图片: https://uploader.shimo.im/f/ydit1i6wJrgo4lx4.png
图片: https://uploader.shimo.im/f/gjdVDmaSf80NM8bC.png
面向主题的Page Rank
有偏的随机游走模型:识别特定主题的网页集合,作为随机跳转集合的范围,只有该集合中的网页才能共享抽税部分所占的PageRank值。
假定整数集合S由已知属于某个主题的网页,e_s是一个向量,若其分量对应的网页属于S,则该分量置为1,否则为0,面向主题S的PageRank值是图片: https://uploader.shimo.im/f/th4Ni0EDHxkUACgA.png的极限。其中,︱S︱是集合S的大小
链接作弊及应对
人工增加某个特定网页PageRank的方法称为链接作弊,由此得到的信息统称为垃圾
不可达网页(Inaccessible pages),作弊者无法影响的网页,Web中的绝大多数网页
可达网页(Accessible pages),不受作弊者控制,但可以影响的网页
如评论网页,作弊者可以在其上粘贴指向自有网页的链接
自有网页(Own pages),被作弊者完全控制的网页
可能跨越多个域名
垃圾农场:目标是最大化目标网页的PageRank值,技术:在可达网页上尽可能多的构造指向目标网页的链接、构造“链接农场”来形成PageRank值的倍增效应
垃圾农场放大效果计算:令X为所有可达网页为垃圾农场提供的PageRank总量,m为自由网页数量,则目标网页PageRank值y为图片: https://uploader.shimo.im/f/fhCCyQHyzfkF5wtE.png
Solution:
Trust Rank和垃圾质量: 思想是可靠网页不太可能指向垃圾网页。
垃圾质量=(PageRank-TrustRank)/PageRank, 越大越可能是垃圾网页,负数或小正数可能是正常网页
Timed-PageRank: PageRank算法+时效性,引入时间函数f(t)∈[0,1], t为距上次更新的时间,表示冲浪者沿所在网页的链接继续冲浪的概率,1-f(t) 为跳转到随机网页的概率。
HITS算法(网页的重要程度由与它关联的所有网页共同决定,包含出链和入链)
权威页(authority):某些网页提供了有关某个主题的信息,因此它们具有非常重要的价值,这些网页被称为权威页 例如:课程主页、汽车制造商的网页等
权威度(a=authority):该网页充当权威页的良好程度,通过累加所有链入网页的导航度来估算当前页的权威度。
导航页(h=hub):链向权威页的网页,它们虽然并不提供有关任何主题的信息,但是却可以给出找到关于该主题的网页的信息,因此它们也具有重要价值 例如:院系门户网页、汽车制造商列表等
导航度:该网页充当导航页的良好程度,通过累加所有链出网页的权威度来估算当前页的导航度
Web链接矩阵L:若有n个网页,那么L就是一个n*n的矩阵,如果网页i到j存在一个链接,则Lij=1,否则Lij=0
导航度 h = λLa ,权威度a = μL^Th ,其中λ和μ是代表归一化因子的常数,两个式子通过迭代进行计算,并将每次结果进行最大分量归一化,直至收敛。
第四章 发现相似项
近邻搜索的应用(寻找相似的集合)
如检测抄袭文档,Web镜像检测
集合的Jaccard相似度图片: https://uploader.shimo.im/f/APHprmWnxO0JYd4k.png 计算时注意包和集合的区分 https://www.cnblogs.com/chenxiangzhen/p/10648503.html 链接为各种距离度量
如果数据存在“分数膨胀“问题,就使用皮尔逊相关系数
如果数据比较密集,变量之间基本都存在共有值,且这些距离数据都是非常重要的,那就使用欧几里得或者曼哈顿距离
如果数据是稀疏的,就使用余弦相似度
TF.IDF---- 词项频率乘以逆文档频率
-是对给定词语在少数文档中反复出现程度的形式化度量,正相关于某词在该篇文档的出现频率 和 该词在其他文档的未出现次数。
图片: https://uploader.shimo.im/f/PUQwGlgfwd4AtNQ5.png
K-shingling 算法 (将文档看成一个字符串,K表示划分粒度,可以是k长的子串,也可以是k个单词 等,将文档都用一个或多个k-Shingle集合表示)
k的选择:5-9.太小会造成文档相似性太高,太大也会造成不准确。
shingle的压缩处理:可以将k长字符串通过哈希映射到定长(如四字节)桶编号,将桶编号作为最终的shingle,文档即被表示成桶编号的集合。
将9-shingles映射到4字节整数进行处理,与直接使用4-shingles来表示文档的区别?
答:从适用范围看,4字节的桶编号范围为[0,2^32-1], 9shingles映射到四字节桶编号能够比较充分地保留较长shingles的差异性,即能够较好地进行长文本相似性对比,而4-shingles更适合短文本的差异性比较。但从存储角度来看,由于桶编号是4字节,单篇文本用第一种方法存储shingles约需要四倍文档大小的存储空间,与4shingles的存储大约相同。
基于词的shingle
最小哈希Minhashing:映射到四个字节的shingle集合约为文档4倍大小,还是很大。当文档数增大时不能直接装入内存。该技术用较小的“签名”表示shingle集合,可以较好地估计集合相似度。
集合构造签名包含大量计算,每次计算是特征矩阵的minhashing过程:– 首先选择行号的一个排列进行行变换,每列的最小哈希值为变换后的1所在行的最小行号。
经过随机行打乱后,两个集合的最小哈希值相等的概率等于这两个集合的Jaccard相似度
最小哈希签名:对于表示集合S的特征矩阵M,随机选择n(几百个)个排列转换用于行排列,则每列对应有各自的n个最小哈希值,每列的这些值作为该列的最小哈希签名向量,这些向量构成了一个n行*M的列数 列的签名矩阵,空间更小。
计算过程:显式的排列转换不适用大规模矩阵,通过哈希函数模拟排列的效果。将行号映射到与行数目大致相等数量的桶中,数量很大且哈希结果冲突不频繁时,可以假设r行放在H(r)位置。这样选择n个哈希函数模拟行排列。
具体算法过程参考ppt,签名向量的相似度一定程度上能反映特征向量的相似度。
局部敏感哈希算法(LSH)或近邻搜索:只关注相似的文档,不用分析所有文档时使用。
算法思路:使用函数f(x,y)判断文档相似度,将哈希矩阵中每一列哈希映射到桶中,对每个桶中文档进行相似判断。进行多次哈希操作,尽可能使只有最相似的列在一个桶,将桶中集合作为候选对进行相似判断。目标是尽可能减小伪正例和伪反例
计算过程:
M划分为b个行条,每个r行
行条中每一列哈希映射到k个桶中(k足够大)
候选列对为至少在一个行条中被映射到同一桶中的列对
调整b和r,获得尽可能多的相似对与尽可能少的非相似对
第五章 频繁模式挖掘、关联和相关性
频繁模式:数据集中频繁出现的模式。
k项集:包含k个项的集合。
项的支持频度(支持度计数或计数),项的相对支持度(支持度/全体事务)
频繁项集:项集支持度满足预定义的最小支持度阈值
图片: https://uploader.shimo.im/f/BkbRUd2ClasT4HEV.png
关联规则挖掘:找出频繁项集(满足最小支持度),产生强关联规则(同时满足最小置信度)
X在D中是闭的:不存在真超项集Y,使Y与X在D中具有相同的支持度计数
闭频繁项集:X是闭的和频繁的
极大频繁项集:X在D中频繁,且不存在超项集Y且Y在D中也是频繁的。称X是极大频繁项集。
图片: https://uploader.shimo.im/f/Hvjc16cxMYQiXlSM.png
频繁项集的挖掘策略:
减少候选集的数量(减小M)(剪枝策略)
减少事务的数量(减小N)(不包含任何k项集的事务在候选k+1时删除)
减少比较的数量(减小NM)
先验性质:频繁项集的所有非空子集也一定频繁,即非频繁项的所有超集都是非频繁的。
Apriori算法(思想):
连接步:通过将Lk与自身连接,产生候选(k+1)项集Ck+1
剪枝:扫描数据库,确定Ck+1中每个项的计数,从而确定Lk+1
当没有频繁项集L或候选项集产生时算法终止。
图片: https://uploader.shimo.im/f/51D61kUzgKcbUJBI.png
图片: https://uploader.shimo.im/f/8IrWuOtOa8kGWhyE.png
图片: https://uploader.shimo.im/f/2JgmCbCQNHExTJRD.png
项的表示优化:
将字符串项哈希转化为整数
三角矩阵:用一位数组存储作为二项集的映射(ij映射为数组下标)
用三元组存储项对
2-项集计数内存优化:无法在内存中对所有项集计数,减少需要计数的2-项集数目,扫描两遍
第一遍扫描:建立项名与整数映射表,建立计数数组,下标为对应的项集映射整数,扫描并计数。
第一遍扫描后:检查项的计数值,确定频繁1项集,将其按照数量m进行1-m编号,在计数数组中将对应值改为编号。
第二遍扫描:用三角矩阵法,空间为2m^2,也可用三元组方法
PCY算法:第一次扫描时,将每个事务产生的二项集散列到不同桶中,并增加桶计数,扫描结束后用bitmap来记录哪个是频繁桶,生成候选项集选择时,留下在频繁桶中的候选集,不在候选集的则删除。
效果: 如果大部分桶都是非频繁的,那么第二次扫描需要计数的项对数目会显著降低。与Apriori相比,项对的表示只能采用三元组法,只减少了2-项集的计算,如果不能减少至少2/3的频繁对,则PCY并不比Apriori算法更好。
多阶段算法:第一遍扫描同SPY,在第二次扫描时用里一个哈希函数建立第二张哈希表,第二张哈希表与第一张桶数目接近,进行第二次扫描时进行哈希的项对{i,j}:i,j都是频繁项,且{i,j}
在第一遍扫描中被哈希到一个频繁桶。两个bitmap。
候选二项集的条件:i和j都是频繁项,{i,j}哈希到第一张表的某个频繁桶中,同时也哈希到第二张表的某个频繁桶中
效果:第二张哈希表的计数值之和,显著低于第一张哈希表的计数值之和,期望第二张表中频繁桶的数目远低于第一张表。
多哈希算法:在第一次扫描时同时使用两个哈希函数和两张独立的哈希表,就得到了多阶段扫描的好处。
风险:使用两张哈希表,但每张表的桶只有PCY的一半。
期望:只要PCY中每个桶的平均计数值远小于支持度阈值,就可以使用两张一半大小的表并期望大部分桶都是非频繁的。
Apriori的进一步改进:
较少比较次数,不再将每个事务与每个候选项集进行比较,而是将事务与存在哈希桶中的候选项进行比较
构造哈希树,可以明显减少比较次数
频繁模式增长:
• 将代表频繁项集的数据压缩到一棵频繁模式树(FP-树),• 建立频繁模式树之后,采用递归的分治方法直接挖掘频繁项集
方法:扫描第一次并计数,由长度为1的频繁模式开始,构造条件模式基并排序。
扫描第二次,将事务也同序排序并构建FP树。。。。。
保持了用于频繁模式挖掘的全部信息,没有打断任何事务中的长模式。简洁性。
垂直数据格式:• 确定k-项集的支持度:对它的任意(k-1)子集求交集
图片: https://uploader.shimo.im/f/BLUHHjw79O81Jm9h.png图片: https://uploader.shimo.im/f/BQCT63MEf4QTWMzg.png
优点:计算快,无需扫描数据库
缺点:不适合大规模TID列表
图片: https://uploader.shimo.im/f/9UfE6ImUgekTg1o5.png
有限扫描算法:只选择购物篮的随机子集看做数据集。
伪正例:再做一次扫描去除。
伪反例:放松支持度阈值减小数量。
SON算法:两次扫描去掉所有伪正例和伪反例。
方法:先分块,计算后将各块的频繁项集合并,第二遍扫描确定最终的频繁项集。
产生关联规则:• 给定频繁项集L,找出L的所有非空子集f(f⊂L) ,且满足规则f→{L–f}满⾜足最小置信度阈值要求
图片: https://uploader.shimo.im/f/Y9jdC9K2v34JBWUf.png
按照该原则可以优化剪枝方法。
候选规则的生成:
合并两条在规则的后件中有共享前缀的规则。连接(CD=>AB,BD=>AC)可以生成候选规则D => ABC,
删除规则D=>ABC,若其子集CD=>AB不不具有高置信度的话
模式评价:
置信度的局限性。各种度量都有其局限性。
度量的对称性与非对称性。
序列数据:
子序列:序列列 <a1 a2 … an>包含于另一个序列列 <b1 b2 … bm> (m ≥ n) ,如果i
存在整数i1 < i2 < … < in 使得 a1 ⊆ bi1 , a2 ⊆ bi2, …, an ⊆ bin
GSP算法
第六章 聚类分析
无监督学习,即无先验类划分。可以单独用来了解数据分布,也可以作为其他数据挖掘任务的与处理过程。
簇的中心:
质心点:平均。
中心点:最有代表性的点。
评价聚类的质量:
相异/相似矩阵 ,距离函数的定义
聚类方法:层次聚类和划分聚类。
层次聚类:–创建给定数据集的层次分解。 形成一系列嵌套的簇,组合成层次树。
划分聚类:– 将数据对象分解为不重叠的子集(簇)。 每个数据对象都在唯一的子集中。
簇间的距离
• 单链:一个簇中的对象与另一个簇中对象距离的最小值
• 全链:一个簇中的对象与另一个簇中对象距离的最⼤大值
• 均值:一个簇中的对象与另一个簇中对象距离的平均值
基于质心的距离或基于中心(主观选择)的距离
簇的半径:簇中成员对象到质心的平均距离
簇的直径:簇中逐对对象的平均距离
层次聚类的优点:不需假设簇的数量,数量由树状图的切割方式得到
缺点:不不同的方法都会遇到下列列的⼀一个或多个问题:
–对噪声和离群点比较敏敏感
–难以处理理不不同规模的簇或者凸形状的簇
–将较大的簇分开了了
凝聚聚类算法:
计算相似矩阵
每个点看做独立的簇
重复以下过程:合并最近的两个类,更新相似矩阵,直到只有一个类
空间复杂度为O(N方),相似度矩阵存储为n方大小,时间复杂度是O(n3)或O(n2logn)相似矩阵进行n步查询。
距离度量方法:
使用单链(MIN)度量方法的优点与缺点:能够处理非椭圆形状的簇,但对噪声和孤立点非常敏感.
使用全链(MAX)度量方法的优点与缺点:对噪声和离群点不敏感,但可能使较大的簇破裂,偏好形成球形的簇
使用均值度量:两个簇的相似度是两个簇间所有点对相似度的平均值。是全链和单链的折中,对噪声和离群点不敏感,但也倾向于形成规则的图形。
birth算法
是一种能够高效处理大数据聚类的基于树的层次聚类算法
线性扩展:通过一次扫描发现较好的簇结构,并且通过少数几次新的扫描提⾼高簇的质量量
缺点:对插⼊入数据顺序是敏敏感的
– 限制了了叶节点的规模,⽣生成的簇不够⾃自然
– 倾向于形成球形的簇
– 只适合于数值数据
K-means聚类
图片: https://uploader.shimo.im/f/wfzsOSiUclE5Jo68.png
质心初始随机化,通常在计算中将簇中点的均值作为下次迭代的质心
评价标准为SSE:每个点到最近簇的距离的平方和
图片: https://uploader.shimo.im/f/polmcnnAT2sG48Wf.png
K-means对初始点选择十分敏感
解决方法:
多运行几次
抽样,使用层次聚类确定初始质心
选择多于K个初始质心,从中选择合适的质心
二分K-means
空簇的处理:
选取一个新的质心点替代,可以是对SSE贡献最大的点,即离质心最远的点,也可以在具有最大SSE的簇中选择点,这可以导致簇的分裂从而降低SSE。
预处理与后处理
预处理:数据规范化,删除离群点
后处理:排除可能代表离群点的小簇,分裂松散的簇与合并较近的簇
二分K-means
首先将所有点作为一个簇,然后将该簇一分为二。之后选择一个簇继续进行划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。而划分就是上面提到的K-均值的思想了,利用上面的函数k设为2来划分。通过不断重复的操作,直到达到需要的簇数量。
通过测量量不不同k值情况下聚类结果的质量,通常可以分析出正确的k值
K-means的缺点:
当簇有着不不同的 规模 密度 不不规则形状,数据包括离群点时,k-means可能出现问题
BFR算法:
在高位空间进行聚类,思想是假设簇的行状满足以质心为期望的正态分布。
CURE算法(欧式空间):可以处理不同形状的类
点分配的大规模聚类算法,
1.抽取一部分数据在内存中进⾏行行聚类
- 理理论上,可以采⽤任何的内存聚类算法
- 由于簇可以是任意形状,通常采用层次聚类的⽅方法
- CURE算法的特点是能够处理理形状古怪的簇
2.从每个簇中,选择一小部分点作为簇的代表点,选出的点之间尽量量相距较远
3.将每个代表点移动一段距离
- 距离其位置到簇质心的距离乘以一定比例,如20%
- 这一步必须在欧式空间下进行,否则“两点间线段”没有定义
1.当两个簇的某对代表点(分别来自不不同的簇)之间足够接近,就将两个簇合并;
- “接近”的距离可以自行定义;
- 重复该过程,直到没有⾜够接近的簇为止;
2.进行点分配。
费欧式空间的聚类:
基于密度的聚类方法:
两个参数:
Eps:每个对象邻域的半径
MinPts 稠密区域的密度阈值,一个对象邻域内点的最小数量。
图片: https://uploader.shimo.im/f/q0202pMDPnExujTz.png
• 核心点:一个数据点的𝛆-邻域中至少包含MinPts个数据点
• 边界点:一个数据点的𝛆-邻域中包含的数据点的数量量少于MinPts,但是数据点位于某个核心点的𝛆-邻域中
噪声点:既不是核心点,也不是边界点的数据点
直接密度可达:对于核心点q和数据点p,p是从q直接密度可达的,如果p在q的𝛆-邻域内。
密度可达:数据点p是从q(关于𝛆和MinPts)密度可达的,如果存在一个对象链,p1, …, pn, p1 = q, pn = p ,并且对于pi ,pi+1 是从pi 直接密度可达的。图左图片: https://uploader.shimo.im/f/lGSKBE3mWhs0KpQT.png图片: https://uploader.shimo.im/f/ci9RPy1pHKsA51Yi.png
密度相连:数据点p和q是(关于𝛆和MinPts)密度相连的,如果存在一个数据点o,使得p和q都是从o(关于𝛆和MinPts)密度可达的。
依靠与基于密度的簇的定义:一个簇是密度相连的数据点的最大集合
这样的定义可以在有噪声的空间中发现任意形状的簇
DBSCAN算法:
能有效的处理理噪声数据
• 能有效处理理不不同形状和规模的簇
不适合同簇密度不同的数据与高维数据
去除噪声点:
图片: https://uploader.shimo.im/f/n0QbSJeaRoUm6tM5.png
聚类评估的主要任务:估计聚类趋势,确定簇的数量,评价聚类质量。
深度学习两章
图片: https://uploader.shimo.im/f/RmlzM0SAxaY9MDLq.png
图片: https://uploader.shimo.im/f/mh10DAcZpzoDZfpM.png
图片: https://uploader.shimo.im/f/6Zgj2WzbI4sBOH4K.png
通用逼近定理:神经网络能以任意精度逼近功的连续函数,即使对于只有一个隐藏层的神经网络,这结论依然成立。
损失函数:如平方误差SSE,交叉熵等
梯度下降图片: https://uploader.shimo.im/f/osA2n3zBKQAOnysH.png,达到局部最小值
可采用自适应学习率,如随迭代次数不断减小学习率
AdaGrad算法 每个参数在各自维度上收敛速度不相同,根据不同收敛情况分别设置学习率,即每次迭代自适应地调整每个参数的学习率。
反向传播算法:利用输出误差估 计层的直接前导,再其利用其估计更前一层误差,逐反传下去直至获得所有其他各层的误差估计,基于此修正权值。
收敛判定:误差最小,一般取误差函数局部梯度零点。
数据集拆分:留出法,k-折交叉验证
CNN三大特点:局部连接,权值共享,池化算法(maxpooling或meanpooling)
通过kernel近似卷积的计算,CNN具有参数更少,收敛更快,能进行区域特征识别的优势。
第二部分
第一章 多元数据的数学表达与统计描述
随机变量与随机(变量)向量 参见随机过程
总体期望与方差,协方差矩阵图片: https://uploader.shimo.im/f/kpJD7RfyajUpNDxe.png
二阶距存在才有方差哦
图片: https://uploader.shimo.im/f/Ld1x5emyudEPvBlT.png
图片: https://uploader.shimo.im/f/P09cCzkiFU4FnCpR.png
相互独立:联合分布等于边缘分布乘积,密度函数同理图片: https://uploader.shimo.im/f/HzyxJ1k35AIZzaPP.png
不相关:相关系数为0
图片: https://uploader.shimo.im/f/M82godBiRR0ZKviY.png
图片: https://uploader.shimo.im/f/XusevrfvKygmFPeD.png
图片: https://uploader.shimo.im/f/TBcHGkI81Co3lrG4.png
图片: https://uploader.shimo.im/f/YIVXbchsa5c3jGot.png
图片: https://uploader.shimo.im/f/TOjsx1QzeTourYKA.png
图片: https://uploader.shimo.im/f/oNQkGn5AoTMbs6iV.png
样本协方差与样本协方阵
图片: https://uploader.shimo.im/f/5inoqF4EFWsRVImD.png
图片: https://uploader.shimo.im/f/h2MxcondUtI5zIjL.png
图片: https://uploader.shimo.im/f/fqwoaX0QoBsQ80mk.png
图片: https://uploader.shimo.im/f/JFAcPMPwMGM8vbM8.png
数据的基本统计描述:
中心趋势度量:均值、中位数、众数、中列数
数据的散布:极差、四分位极差(Q3-Q1)、方差、标准差d
图形化表示:盒图(五数概括)、分位图、直方图、分位数分位数图、散点图
均值与加权平均:对极端值敏感,可以丢弃极端值
数据的相似性与相异性:
相异性矩阵
标称属性比较:
图片: https://uploader.shimo.im/f/6Qlj0cprdT0WqyEn.png
二元相异性:
图片: https://uploader.shimo.im/f/liTCkUEUG84jr4bt.png距离度量:
图片: https://uploader.shimo.im/f/qckc5tbXJa4MY9r0.png