一、常用的特征缩放算法有两种: 归一化(normalization)和标准化(standardization) 二、归一化(normalization) 1、什么是归一化 归...
标准差 在统计中,标准差是一种用于量化一组数据值的变化或分散程度的度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。 ...
讲到统计学,终究会谈到假设检验的问题,做过数据分析的人也都是耳熟能详, 但如果让你具体讲讲假设检验的原理, 什么是P值,为什么用t检验,为什么用F检验,估计能问倒一操场。 作...
两个值均应用于假设检验中。显著性水平为实验之前人为确定的值,如0.05、0.1等,用α表示。表示原假设为真时,拒绝原假设的概率,即犯错误的概率。 根据α,可以求出相应的分位数...
网上搜罗一圈,感觉资料有些乱,稍微总结了一下。 斯皮尔曼补充(图片节选自wikipidia):
前言 PCA是一种线性降维算法,不能解释特征之间的复杂多项式关系。如果特征与特征之间的关系是非线性的话,用PCA可能会导致欠拟合的情形发生。 线性降维算法的一个主要问题是它们...
本文结构: 学习曲线是什么? 怎么解读? 怎么画? 学习曲线是什么? 学习曲线就是通过画出不同训练集大小时训练集和交叉验证的准确率,可以看到模型在新数据上的表现,进而来判断模...
使用sklearn的DecisionTreeClassifier解决分类问题实例。 数据集描述 数据集存放在一个csv文件中,其中11列特征变量,1列目标变量。特征变量的类型...
针对二元分类结果,常用的评估指标有如下三个:查准率(Precision)、查全率(Recall)以及F-score。这篇文章将讨论这些指标的含义、设计初衷以及局限性。 一、二...
本文内容均来自吴恩达的《机器学习训练秘籍》,算是对其的概括以及自身对该书的理解感悟 很多开发工程师会嘲笑搞算法的,你们的工作不就是调调参吗?你们用的模型都是20年前的,只不过...
在当下互联网盛行的时代下,Python成为了一种全民都在学Python的编程语言,每天都会有前仆后继的人去学习。 相信绝大部分零基础小白学Python的时候,都会抱有这样的疑...
如何选择超参数: 交叉验证: 如图, 大训练集分块,使用不同的分块方法分成N对小训练集和验证集。 使用小训练集进行训练,使用验证集进行验证,得到准确率,求N个验证集上的平均正...
t-SNE是一种降维后可视化算法,但降维后的数据是无法放入模型中的,仅仅是起到肉眼评估作用。 PCA的降维方式是线性的,而t-SEN的降维方式是非线性的。 t-SEN的距离是...
本文是对多个内容的整理,不是原创,在此声明 1. 基本原理 支持向量机(SVM, support vector machine)SVM详解[https://zhuanlan....
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的...