剪枝是树类算法防止过拟合的重要方法,而且其思想非常有启发,可以在其他算法中参考使用。而且,(树的)过拟合本身就是重要的内容,所以单列出来。不过这里简单一说思路即可。 剪枝 在...
剪枝是树类算法防止过拟合的重要方法,而且其思想非常有启发,可以在其他算法中参考使用。而且,(树的)过拟合本身就是重要的内容,所以单列出来。不过这里简单一说思路即可。 剪枝 在...
冥思之时,总是想表达些什么东西;但当提起笔来,却觉得没什么想要表达。 今天想聊一下自我的认知。 古语有之:知人者智,自知者明。 八个字,很简单,可是你真的能做到自知吗? 在生...
一.简介 Kolmogorov-Smirnov是比较一个累计分布(cumulative distribution function)函数与经验分布函数(empirical d...
Mann-Kendall检验是一种非参数检验(无分布检验),其优点是不要求样本遵从一定的分布,也不受少数异常值的干扰。常用于对降水、径流、气温和水质等要素时间序列变化趋势和突...
一.背景 在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,DBSCAN,OPTICS)。这些方法都有一些不完美的地方: ...
一.简介 所谓魔法函数(Magic Methods),是Python的一种高级语法,允许你在类中自定义函数(函数名格式一般为__xx__),并绑定到类的特殊方法中。比如在类A...
STL (Seasonal-Trend decomposition procedure based on Loess) 为时序分解中一种常见的算法,基于LOESS[http:...
一.简介 一个好的距离衡量方法应该可以很好地表示数据之间的相似性,即距离近点的数据拥有更高的相似性。当数据以向量进行表示,每个维度的值代表不同属性时,好的数据表示应该: 1)...
一.算法思想 局部加权回归(Lowess)的大致思路是:以一个点为中心,向前后截取一段长度为的数据,对于该段数据用权值函数做一个加权的线性回归,记为该回归线的中心值,其中为拟...
一.梯度下降算法简介 1. 批量梯度下降法 [BGD: Batch Gradient Descent] 批量梯度下降法,是梯度下降法最常用的形式,具体做法也就是在更新参数时使...
一.概述 在本篇文章中将对四种聚类算法(K-means,K-means++,ISODATA和Kernel K-means)进行详细介绍,并利用数据集来真实地反映这四种算法之...
一.简介 孤立森林(Isolation Forest)于2008年由西瓜书作者周志华团队提出,凭借其线性的时间复杂度与优秀的准确率被广泛应用于工业界中结构化数据的异常检测。 ...
一.简介 PCA(Principal Component Analysis)主成分分析(Principal Component Analysis)是一种常用的数据分析方法,它...
一.简介 ELMo是Embeddings from Language Models的缩写,意思就是语言模型得到的(句子)Embedding。另外Elmo是美国儿童教育电视节目...
一.背景 RNN的缺陷 在没有Transformer以前,大家做神经机器翻译用的最多的是基于RNN的Encoder-Decoder模型: Encoder-Decoder模型当...
一.简介 Bert是什么? BERT,全称是 Bidirectional Encoder Representation from Transformers,基于语义理解的深度...
一.背景 RNN的多种结构 首先从RNN的结构说起,根据输出和输入序列不同数量RNN可以有多种不同的结构,不同结构自然就有不同的引用场合。 one to one结构,仅仅只是...
一.简介 Word2Vec是google在2013年推出的一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联...
一.简介 N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。 每一个字节片段称为gra...