登录注册写文章

大数据分析总结

大数据分析总结

第一章绪论

数据：网络空间的任何事物。

结构化数据、半结构化数据与无结构数据：后两者是研究的主要内容。

大数据定义:狭义指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，广义上指基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。

数据挖掘是统计模型的构建过程。

人工智能：究重心在机器学习和推理机制。算法的理论性强，追求理论的正确性。

数据挖掘：强调算法的实用性，不关心理论问题的解决，而是关心实际问题的解决

第二章：数据与处理

数据集的类型：记录数据，图和网络数据，有序数据，多媒体数据。

数据预处理任务：是为了提高数据挖掘效率与质量进行的预处理工作，包括数据清理，数据集成，数据变换，数据规约，数据离散化等。

处理噪声数据的方法：分箱---用临近数据进行光滑，如箱均值，中位数，箱边界；回归---将缺失值通过回归函数进行预测。

处理离群点数据：通过聚类进行检测，数据光滑处理，通过外部手段纠正等，有时根据具体情况不需要处理。

数据集成：合并来自多个数据源的数据。

相关系数：线性相关程度

图片: https://uploader.shimo.im/f/KCTf39hcJLM9It7m.png

卡方检验（相关分析）：

图片: https://uploader.shimo.im/f/TboWeCcY5fgfg9Xa.png

数据变换：数据的光滑、聚集、泛5化（离散化与分层）、规范化、特征构造等。

第三章链接分析

PageRank算法（网页的重要程度仅由指向它的网页决定）：

转移矩阵是个n*n列的方阵，用来描述随机冲浪者的下一步访问行为

• 如果网页j有k条出链，那么对每条出边链向的网页i，m_ij=1/k

• 其他网页的i对应的矩阵元素mij=0

随机冲浪的过程：

基本算法思想

随机冲浪者位置的概率分布可以用一个n维列向量表示，其中分量j代表位于网页j的概率。该概率即PageRank值，初始n个网页的初始概率都为V_0。

Web的转移矩阵为M。第一步之后，冲浪者的概率分布向量是Mv0，第二步为M^2v0，i步后为M^iv_0.

收敛前提条件：1.图为强连通图 2.不存在终止节点

算法终止条件：M^（i+1）v_0 = M^iv_0 ----迭代前后结果差异足够小，一般50~75次即可收敛

算法优化

处理终止点问题：

将其行列从图中剔除，若产生新的终止点，则迭代删除，直至无终止点。

修改随机冲浪者在Web上的冲浪过程

终止点的PageRank值：

对删除终止点之后的图G，计算出各节点的PageRank值

恢复到原图，但仍然保留G中各节点的PageRank值

对不在G中的终止点及伪终止点：

若所有指向它的网页PageRank都已算出，则它的PageRank=∑这些网页的PageRank/出链数，否则等待其他终止点网页计算PageRank。即按照终止点删除顺序的逆序进行节点的PageRank计算。

采集器陷阱及“抽税法”：采集器陷阱指的是一系列节点，它们可能互相链接，但是却不会链接集合以外的节点，即没有出链指向集合之外。当采集器（爬虫程序）一旦进入采集器陷阱，将无法跳出。

solution：抽税机制--进行随机跳转：允许随机冲浪者以一个较小的概率随机跳转到一个随机网页，而不一定沿着当前网页的出链前进。

图片: https://uploader.shimo.im/f/jHWyyeqxeqkCT1f5.png

其中，β是选定的常数，通常取值在0.8到0.9之间。e是一个所有分量都为1、维数为n的向量，n是Web图中所有节点的数目。

PageRank优点：由于M的稀疏性计算快速，且避免了磁盘的大量使用。可以将稀疏矩阵压缩表示（方法如下，转移矩阵是特殊的稀疏矩阵）

图片: https://uploader.shimo.im/f/ydit1i6wJrgo4lx4.png

图片: https://uploader.shimo.im/f/gjdVDmaSf80NM8bC.png

面向主题的Page Rank

有偏的随机游走模型：识别特定主题的网页集合，作为随机跳转集合的范围，只有该集合中的网页才能共享抽税部分所占的PageRank值。

假定整数集合S由已知属于某个主题的网页，e_s是一个向量，若其分量对应的网页属于S，则该分量置为1，否则为0，面向主题S的PageRank值是图片: https://uploader.shimo.im/f/th4Ni0EDHxkUACgA.png的极限。其中，︱S︱是集合S的大小

链接作弊及应对

人工增加某个特定网页PageRank的方法称为链接作弊，由此得到的信息统称为垃圾

不可达网页（Inaccessible pages），作弊者无法影响的网页，Web中的绝大多数网页

可达网页（Accessible pages），不受作弊者控制，但可以影响的网页

如评论网页，作弊者可以在其上粘贴指向自有网页的链接

自有网页（Own pages），被作弊者完全控制的网页

可能跨越多个域名

垃圾农场：目标是最大化目标网页的PageRank值，技术：在可达网页上尽可能多的构造指向目标网页的链接、构造“链接农场”来形成PageRank值的倍增效应

垃圾农场放大效果计算：令X为所有可达网页为垃圾农场提供的PageRank总量，m为自由网页数量，则目标网页PageRank值y为图片: https://uploader.shimo.im/f/fhCCyQHyzfkF5wtE.png

Solution：

Trust Rank和垃圾质量：思想是可靠网页不太可能指向垃圾网页。

垃圾质量=（PageRank-TrustRank）/PageRank, 越大越可能是垃圾网页，负数或小正数可能是正常网页

Timed-PageRank: PageRank算法+时效性，引入时间函数f(t)∈[0,1], t为距上次更新的时间，表示冲浪者沿所在网页的链接继续冲浪的概率，1-f(t) 为跳转到随机网页的概率。

HITS算法（网页的重要程度由与它关联的所有网页共同决定，包含出链和入链）

权威页（authority）：某些网页提供了有关某个主题的信息，因此它们具有非常重要的价值，这些网页被称为权威页例如：课程主页、汽车制造商的网页等

权威度(a=authority)：该网页充当权威页的良好程度，通过累加所有链入网页的导航度来估算当前页的权威度。

导航页（h=hub）：链向权威页的网页，它们虽然并不提供有关任何主题的信息，但是却可以给出找到关于该主题的网页的信息，因此它们也具有重要价值例如：院系门户网页、汽车制造商列表等

导航度：该网页充当导航页的良好程度，通过累加所有链出网页的权威度来估算当前页的导航度

Web链接矩阵L：若有n个网页，那么L就是一个n*n的矩阵，如果网页i到j存在一个链接，则Lij=1，否则Lij=0

导航度 h = λLa ，权威度a = μL^Th ,其中λ和μ是代表归一化因子的常数，两个式子通过迭代进行计算，并将每次结果进行最大分量归一化，直至收敛。

第四章发现相似项

近邻搜索的应用（寻找相似的集合）

如检测抄袭文档，Web镜像检测

集合的Jaccard相似度图片: https://uploader.shimo.im/f/APHprmWnxO0JYd4k.png 计算时注意包和集合的区分 https://www.cnblogs.com/chenxiangzhen/p/10648503.html 链接为各种距离度量

如果数据存在“分数膨胀“问题，就使用皮尔逊相关系数

如果数据比较密集，变量之间基本都存在共有值，且这些距离数据都是非常重要的，那就使用欧几里得或者曼哈顿距离

如果数据是稀疏的，就使用余弦相似度

TF.IDF---- 词项频率乘以逆文档频率

-是对给定词语在少数文档中反复出现程度的形式化度量，正相关于某词在该篇文档的出现频率和该词在其他文档的未出现次数。

图片: https://uploader.shimo.im/f/PUQwGlgfwd4AtNQ5.png

K-shingling 算法（将文档看成一个字符串，K表示划分粒度，可以是k长的子串，也可以是k个单词等，将文档都用一个或多个k-Shingle集合表示）

k的选择：5-9.太小会造成文档相似性太高，太大也会造成不准确。

shingle的压缩处理：可以将k长字符串通过哈希映射到定长（如四字节）桶编号，将桶编号作为最终的shingle，文档即被表示成桶编号的集合。

将9-shingles映射到4字节整数进行处理，与直接使用4-shingles来表示文档的区别？

答：从适用范围看，4字节的桶编号范围为[0,2^32-1], 9shingles映射到四字节桶编号能够比较充分地保留较长shingles的差异性，即能够较好地进行长文本相似性对比，而4-shingles更适合短文本的差异性比较。但从存储角度来看，由于桶编号是4字节，单篇文本用第一种方法存储shingles约需要四倍文档大小的存储空间，与4shingles的存储大约相同。

基于词的shingle

最小哈希Minhashing：映射到四个字节的shingle集合约为文档4倍大小，还是很大。当文档数增大时不能直接装入内存。该技术用较小的“签名”表示shingle集合，可以较好地估计集合相似度。

集合构造签名包含大量计算，每次计算是特征矩阵的minhashing过程：– 首先选择行号的一个排列进行行变换，每列的最小哈希值为变换后的1所在行的最小行号。

经过随机行打乱后，两个集合的最小哈希值相等的概率等于这两个集合的Jaccard相似度

最小哈希签名：对于表示集合S的特征矩阵M，随机选择n（几百个）个排列转换用于行排列，则每列对应有各自的n个最小哈希值，每列的这些值作为该列的最小哈希签名向量，这些向量构成了一个n行*M的列数列的签名矩阵，空间更小。

计算过程：显式的排列转换不适用大规模矩阵，通过哈希函数模拟排列的效果。将行号映射到与行数目大致相等数量的桶中，数量很大且哈希结果冲突不频繁时，可以假设r行放在H（r）位置。这样选择n个哈希函数模拟行排列。

具体算法过程参考ppt，签名向量的相似度一定程度上能反映特征向量的相似度。

局部敏感哈希算法（LSH）或近邻搜索：只关注相似的文档，不用分析所有文档时使用。

算法思路：使用函数f（x，y）判断文档相似度，将哈希矩阵中每一列哈希映射到桶中，对每个桶中文档进行相似判断。进行多次哈希操作，尽可能使只有最相似的列在一个桶，将桶中集合作为候选对进行相似判断。目标是尽可能减小伪正例和伪反例

计算过程：

M划分为b个行条，每个r行

行条中每一列哈希映射到k个桶中（k足够大）

候选列对为至少在一个行条中被映射到同一桶中的列对

调整b和r，获得尽可能多的相似对与尽可能少的非相似对

第五章频繁模式挖掘、关联和相关性

频繁模式：数据集中频繁出现的模式。

k项集：包含k个项的集合。

项的支持频度（支持度计数或计数），项的相对支持度（支持度/全体事务）

频繁项集：项集支持度满足预定义的最小支持度阈值

图片: https://uploader.shimo.im/f/BkbRUd2ClasT4HEV.png

关联规则挖掘：找出频繁项集（满足最小支持度），产生强关联规则（同时满足最小置信度）

X在D中是闭的：不存在真超项集Y，使Y与X在D中具有相同的支持度计数

闭频繁项集：X是闭的和频繁的

极大频繁项集：X在D中频繁，且不存在超项集Y且Y在D中也是频繁的。称X是极大频繁项集。

图片: https://uploader.shimo.im/f/Hvjc16cxMYQiXlSM.png

频繁项集的挖掘策略：

减少候选集的数量（减小M）（剪枝策略）

减少事务的数量（减小N）（不包含任何k项集的事务在候选k+1时删除）

减少比较的数量（减小NM）

先验性质：频繁项集的所有非空子集也一定频繁，即非频繁项的所有超集都是非频繁的。

Apriori算法（思想）：

连接步：通过将Lk与自身连接，产生候选（k+1）项集Ck+1

剪枝：扫描数据库,确定Ck+1中每个项的计数，从而确定Lk+1

当没有频繁项集L或候选项集产生时算法终止。

图片: https://uploader.shimo.im/f/51D61kUzgKcbUJBI.png

图片: https://uploader.shimo.im/f/8IrWuOtOa8kGWhyE.png

图片: https://uploader.shimo.im/f/2JgmCbCQNHExTJRD.png

项的表示优化：

将字符串项哈希转化为整数

三角矩阵：用一位数组存储作为二项集的映射（ij映射为数组下标）

用三元组存储项对

2-项集计数内存优化：无法在内存中对所有项集计数，减少需要计数的2-项集数目，扫描两遍

第一遍扫描：建立项名与整数映射表，建立计数数组，下标为对应的项集映射整数，扫描并计数。

第一遍扫描后：检查项的计数值，确定频繁1项集，将其按照数量m进行1-m编号，在计数数组中将对应值改为编号。

第二遍扫描：用三角矩阵法，空间为2m^2，也可用三元组方法

PCY算法：第一次扫描时，将每个事务产生的二项集散列到不同桶中，并增加桶计数，扫描结束后用bitmap来记录哪个是频繁桶，生成候选项集选择时，留下在频繁桶中的候选集，不在候选集的则删除。

效果：如果大部分桶都是非频繁的，那么第二次扫描需要计数的项对数目会显著降低。与Apriori相比，项对的表示只能采用三元组法，只减少了2-项集的计算，如果不能减少至少2/3的频繁对，则PCY并不比Apriori算法更好。

多阶段算法：第一遍扫描同SPY，在第二次扫描时用里一个哈希函数建立第二张哈希表，第二张哈希表与第一张桶数目接近，进行第二次扫描时进行哈希的项对{i，j}：i，j都是频繁项，且{i，j}

在第一遍扫描中被哈希到一个频繁桶。两个bitmap。

候选二项集的条件：i和j都是频繁项，{i,j}哈希到第一张表的某个频繁桶中，同时也哈希到第二张表的某个频繁桶中

效果：第二张哈希表的计数值之和，显著低于第一张哈希表的计数值之和，期望第二张表中频繁桶的数目远低于第一张表。

多哈希算法：在第一次扫描时同时使用两个哈希函数和两张独立的哈希表，就得到了多阶段扫描的好处。

风险：使用两张哈希表，但每张表的桶只有PCY的一半。

期望：只要PCY中每个桶的平均计数值远小于支持度阈值，就可以使用两张一半大小的表并期望大部分桶都是非频繁的。

Apriori的进一步改进：

较少比较次数，不再将每个事务与每个候选项集进行比较，而是将事务与存在哈希桶中的候选项进行比较

构造哈希树，可以明显减少比较次数

频繁模式增长：

• 将代表频繁项集的数据压缩到一棵频繁模式树（FP-树），• 建立频繁模式树之后，采用递归的分治方法直接挖掘频繁项集

方法：扫描第一次并计数，由长度为1的频繁模式开始，构造条件模式基并排序。

扫描第二次，将事务也同序排序并构建FP树。。。。。

保持了用于频繁模式挖掘的全部信息，没有打断任何事务中的长模式。简洁性。

垂直数据格式：• 确定k-项集的支持度：对它的任意（k-1)子集求交集

图片: https://uploader.shimo.im/f/BLUHHjw79O81Jm9h.png图片: https://uploader.shimo.im/f/BQCT63MEf4QTWMzg.png

优点：计算快，无需扫描数据库

缺点：不适合大规模TID列表

图片: https://uploader.shimo.im/f/9UfE6ImUgekTg1o5.png

有限扫描算法：只选择购物篮的随机子集看做数据集。

伪正例：再做一次扫描去除。

伪反例：放松支持度阈值减小数量。

SON算法：两次扫描去掉所有伪正例和伪反例。

方法：先分块，计算后将各块的频繁项集合并，第二遍扫描确定最终的频繁项集。

产生关联规则：• 给定频繁项集L，找出L的所有非空子集f（f⊂L），且满足规则f→{L–f}满⾜足最小置信度阈值要求

图片: https://uploader.shimo.im/f/Y9jdC9K2v34JBWUf.png

按照该原则可以优化剪枝方法。

候选规则的生成：

合并两条在规则的后件中有共享前缀的规则。连接(CD=>AB,BD=>AC)可以生成候选规则D => ABC，

删除规则D=>ABC，若其子集CD=>AB不不具有高置信度的话

模式评价：

置信度的局限性。各种度量都有其局限性。

度量的对称性与非对称性。

序列数据：

子序列：序列列 <a1 a2 … an>包含于另一个序列列 <b1 b2 … bm> (m ≥ n) ，如果i

存在整数i1 < i2 < … < in 使得 a1 ⊆ bi1 , a2 ⊆ bi2, …, an ⊆ bin

GSP算法

第六章聚类分析

无监督学习，即无先验类划分。可以单独用来了解数据分布，也可以作为其他数据挖掘任务的与处理过程。

簇的中心：

质心点：平均。

中心点：最有代表性的点。

评价聚类的质量：

相异/相似矩阵，距离函数的定义

聚类方法：层次聚类和划分聚类。

层次聚类：–创建给定数据集的层次分解。形成一系列嵌套的簇，组合成层次树。

划分聚类：– 将数据对象分解为不重叠的子集（簇）。每个数据对象都在唯一的子集中。

簇间的距离

• 单链：一个簇中的对象与另一个簇中对象距离的最小值

• 全链：一个簇中的对象与另一个簇中对象距离的最⼤大值

• 均值：一个簇中的对象与另一个簇中对象距离的平均值

基于质心的距离或基于中心（主观选择）的距离

簇的半径：簇中成员对象到质心的平均距离

簇的直径：簇中逐对对象的平均距离

层次聚类的优点：不需假设簇的数量，数量由树状图的切割方式得到

缺点：不不同的方法都会遇到下列列的⼀一个或多个问题：

–对噪声和离群点比较敏敏感

–难以处理理不不同规模的簇或者凸形状的簇

–将较大的簇分开了了

凝聚聚类算法：

计算相似矩阵

每个点看做独立的簇

重复以下过程：合并最近的两个类，更新相似矩阵，直到只有一个类

空间复杂度为O（N方），相似度矩阵存储为n方大小，时间复杂度是O(n3）或O（n2logn）相似矩阵进行n步查询。

距离度量方法：

使用单链（MIN）度量方法的优点与缺点：能够处理非椭圆形状的簇，但对噪声和孤立点非常敏感.

使用全链（MAX）度量方法的优点与缺点：对噪声和离群点不敏感，但可能使较大的簇破裂，偏好形成球形的簇

使用均值度量：两个簇的相似度是两个簇间所有点对相似度的平均值。是全链和单链的折中，对噪声和离群点不敏感，但也倾向于形成规则的图形。

birth算法

是一种能够高效处理大数据聚类的基于树的层次聚类算法

线性扩展：通过一次扫描发现较好的簇结构，并且通过少数几次新的扫描提⾼高簇的质量量

缺点：对插⼊入数据顺序是敏敏感的

– 限制了了叶节点的规模，⽣生成的簇不够⾃自然

– 倾向于形成球形的簇

– 只适合于数值数据

K-means聚类

图片: https://uploader.shimo.im/f/wfzsOSiUclE5Jo68.png

质心初始随机化，通常在计算中将簇中点的均值作为下次迭代的质心

评价标准为SSE：每个点到最近簇的距离的平方和

图片: https://uploader.shimo.im/f/polmcnnAT2sG48Wf.png

K-means对初始点选择十分敏感

解决方法：

多运行几次

抽样，使用层次聚类确定初始质心

选择多于K个初始质心，从中选择合适的质心

二分K-means

空簇的处理：

选取一个新的质心点替代，可以是对SSE贡献最大的点，即离质心最远的点，也可以在具有最大SSE的簇中选择点，这可以导致簇的分裂从而降低SSE。

预处理与后处理

预处理：数据规范化，删除离群点

后处理：排除可能代表离群点的小簇，分裂松散的簇与合并较近的簇

二分K-means

首先将所有点作为一个簇，然后将该簇一分为二。之后选择一个簇继续进行划分，选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。而划分就是上面提到的K-均值的思想了，利用上面的函数k设为2来划分。通过不断重复的操作，直到达到需要的簇数量。

通过测量量不不同k值情况下聚类结果的质量，通常可以分析出正确的k值

K-means的缺点：

当簇有着不不同的规模密度不不规则形状，数据包括离群点时，k-means可能出现问题

BFR算法：

在高位空间进行聚类，思想是假设簇的行状满足以质心为期望的正态分布。

CURE算法（欧式空间）：可以处理不同形状的类

点分配的大规模聚类算法，

1.抽取一部分数据在内存中进⾏行行聚类

- 理理论上，可以采⽤任何的内存聚类算法

- 由于簇可以是任意形状，通常采用层次聚类的⽅方法

- CURE算法的特点是能够处理理形状古怪的簇

2.从每个簇中，选择一小部分点作为簇的代表点，选出的点之间尽量量相距较远

3.将每个代表点移动一段距离

- 距离其位置到簇质心的距离乘以一定比例，如20%

- 这一步必须在欧式空间下进行，否则“两点间线段”没有定义

1.当两个簇的某对代表点（分别来自不不同的簇）之间足够接近，就将两个簇合并；

- “接近”的距离可以自行定义；

- 重复该过程，直到没有⾜够接近的簇为止；

2.进行点分配。

费欧式空间的聚类：

基于密度的聚类方法：

两个参数：

Eps：每个对象邻域的半径

MinPts 稠密区域的密度阈值，一个对象邻域内点的最小数量。

图片: https://uploader.shimo.im/f/q0202pMDPnExujTz.png

• 核心点：一个数据点的𝛆-邻域中至少包含MinPts个数据点

• 边界点：一个数据点的𝛆-邻域中包含的数据点的数量量少于MinPts，但是数据点位于某个核心点的𝛆-邻域中

噪声点：既不是核心点，也不是边界点的数据点

直接密度可达：对于核心点q和数据点p，p是从q直接密度可达的，如果p在q的𝛆-邻域内。

密度可达：数据点p是从q（关于𝛆和MinPts）密度可达的，如果存在一个对象链，p1, …, pn, p1 = q, pn = p ，并且对于pi ，pi+1 是从pi 直接密度可达的。图左图片: https://uploader.shimo.im/f/lGSKBE3mWhs0KpQT.png图片: https://uploader.shimo.im/f/ci9RPy1pHKsA51Yi.png

密度相连：数据点p和q是（关于𝛆和MinPts）密度相连的，如果存在一个数据点o，使得p和q都是从o（关于𝛆和MinPts）密度可达的。

依靠与基于密度的簇的定义：一个簇是密度相连的数据点的最大集合

这样的定义可以在有噪声的空间中发现任意形状的簇

DBSCAN算法：

能有效的处理理噪声数据

• 能有效处理理不不同形状和规模的簇

不适合同簇密度不同的数据与高维数据

去除噪声点：

图片: https://uploader.shimo.im/f/n0QbSJeaRoUm6tM5.png

聚类评估的主要任务：估计聚类趋势，确定簇的数量，评价聚类质量。

深度学习两章

图片: https://uploader.shimo.im/f/RmlzM0SAxaY9MDLq.png

图片: https://uploader.shimo.im/f/mh10DAcZpzoDZfpM.png

图片: https://uploader.shimo.im/f/6Zgj2WzbI4sBOH4K.png

通用逼近定理：神经网络能以任意精度逼近功的连续函数，即使对于只有一个隐藏层的神经网络，这结论依然成立。

损失函数：如平方误差SSE，交叉熵等

梯度下降图片: https://uploader.shimo.im/f/osA2n3zBKQAOnysH.png，达到局部最小值

可采用自适应学习率，如随迭代次数不断减小学习率

AdaGrad算法每个参数在各自维度上收敛速度不相同，根据不同收敛情况分别设置学习率，即每次迭代自适应地调整每个参数的学习率。

反向传播算法：利用输出误差估计层的直接前导，再其利用其估计更前一层误差，逐反传下去直至获得所有其他各层的误差估计，基于此修正权值。

收敛判定：误差最小，一般取误差函数局部梯度零点。

数据集拆分：留出法，k-折交叉验证

CNN三大特点：局部连接，权值共享，池化算法（maxpooling或meanpooling）

通过kernel近似卷积的计算，CNN具有参数更少，收敛更快，能进行区域特征识别的优势。

第二部分

第一章多元数据的数学表达与统计描述

随机变量与随机（变量）向量参见随机过程

总体期望与方差，协方差矩阵图片: https://uploader.shimo.im/f/kpJD7RfyajUpNDxe.png

二阶距存在才有方差哦

图片: https://uploader.shimo.im/f/Ld1x5emyudEPvBlT.png

图片: https://uploader.shimo.im/f/P09cCzkiFU4FnCpR.png

相互独立：联合分布等于边缘分布乘积，密度函数同理图片: https://uploader.shimo.im/f/HzyxJ1k35AIZzaPP.png

不相关：相关系数为0

图片: https://uploader.shimo.im/f/M82godBiRR0ZKviY.png

图片: https://uploader.shimo.im/f/XusevrfvKygmFPeD.png

图片: https://uploader.shimo.im/f/TBcHGkI81Co3lrG4.png

图片: https://uploader.shimo.im/f/YIVXbchsa5c3jGot.png

图片: https://uploader.shimo.im/f/TOjsx1QzeTourYKA.png

图片: https://uploader.shimo.im/f/oNQkGn5AoTMbs6iV.png

样本协方差与样本协方阵

图片: https://uploader.shimo.im/f/5inoqF4EFWsRVImD.png

图片: https://uploader.shimo.im/f/h2MxcondUtI5zIjL.png

图片: https://uploader.shimo.im/f/fqwoaX0QoBsQ80mk.png

图片: https://uploader.shimo.im/f/JFAcPMPwMGM8vbM8.png

数据的基本统计描述：

中心趋势度量：均值、中位数、众数、中列数

数据的散布：极差、四分位极差（Q3-Q1）、方差、标准差d

图形化表示：盒图（五数概括）、分位图、直方图、分位数分位数图、散点图

均值与加权平均：对极端值敏感，可以丢弃极端值

数据的相似性与相异性：

相异性矩阵

标称属性比较：

图片: https://uploader.shimo.im/f/6Qlj0cprdT0WqyEn.png

二元相异性：

图片: https://uploader.shimo.im/f/liTCkUEUG84jr4bt.png距离度量：

图片: https://uploader.shimo.im/f/qckc5tbXJa4MY9r0.png

©著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,552评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,666评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,519评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,180评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,205评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,344评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,781评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,449评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,635评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,467评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,515评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,217评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,775评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,851评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,084评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,637评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,204评论 2赞 341

推荐阅读更多精彩内容

通过大数据分析总结如何写一本畅销玄幻小说
看过大概50本玄幻小说之后，基本可以总结出一些规律了，结合计算机编程技术，来看看如何写一本畅销的玄幻小说。大概分...
学哥量化交易学习阅读 3,926评论 4赞 15
2019-10-22，242H组刘佳月度检视
没有反思的人生不值得过--苏格拉底如何过一天，就是如何过一生--叶武滨老师【2019年度目标及检视完成情况】 ...
雅皓牙科谈伟阅读 377评论 0赞 0
洋葱数学
核心业务逻辑洋葱数学做的比较成功的地方就是，利用游戏化设计，段位，pk等为学生的学习提供了除了实际能力提升以外的...
婼夢阅读 3,266评论 0赞 4
表情与形体管理
如果不是美到某种程度，完全做自己都能时刻展现最美风采几乎不可能，至少，被捕捉到的最美丽的那些瞬间，多数人都不是在做...
崔叶原阅读 1,680评论 0赞 0
《你只是看起来很专注》思维导图
吴林煊阅读 334评论 0赞 0

5赞6赞

赞赏

手机看全文