间隔与支持向量支持向量机(Support Vector Machine)是最常用的机器学习算法之一.首先我们从最简单的SVM开始回顾. 假设一个特征空间中有若干二分类样本, ...
间隔与支持向量支持向量机(Support Vector Machine)是最常用的机器学习算法之一.首先我们从最简单的SVM开始回顾. 假设一个特征空间中有若干二分类样本, ...
神经元模型 神经网络 由具有适应性的简单单元组成的广泛、并行、互连的网络,它的组织能够模拟生物神经系统,对真实世界物体所作出的交互反应神经元模型(简单单元) M-P 神经元模...
定义:一颗[决策树]包含一个根节点、若干个内部节点和若干个叶节点;叶节点:对应决策结果,即样本的label根 + 内部节点:对应一个分割[数据集]方法,根据该方法将节点对应的...
定义:一颗[决策树]包含一个根节点、若干个内部节点和若干个叶节点;叶节点:对应决策结果,即样本的label根 + 内部节点:对应一个分割[数据集]方法,根据该方法将节点对应的...
一、基本形式 “线性模型”(linear model) 试图学得一个通过属性得线性组合来进行预测的函数 向量形式 其中 w = ( w 1 ; w 2 ; . . . ; w...
第一章:基本分类和概念 第二章
路径操作 os.path.relpath(path,start):返回从start路径到path的相对路径的字符串。如果没提供start,就使用当前工作目录作为开始路径。 o...
蒸汽量预测1.特征工程一般流程:1.去掉无用特征2.去掉冗余特征3.利用存在的特征、特征转换、内容中的特征以及其他数据源生成新特征4.特征转换(数值化、类别转换、归一化)5....
.dataframe tbody tr th:only-of-type {vertical-align: middle;} id survey_type province...
Stacking相比Linear Blending来说,更加强大,然而也更容易过拟合。 Stacking做法和Linear Blending类似,首先从数据集中训练出初级学习...
Stacking. Blending 层次融合的思想,使用不相交的数据,将样本集分为训练集train和测试集test,再将训练集train数据划分为两部分(d1,d2),用对...
Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。显然,Boosting思想提高最终的预测效果是...
Ensemble methods 组合模型的方式大致为四个:/bagging / boosting / voting / stacking ,今天主要简单叙述 bagging...
投票法思路:对于回归模型来说,投票法最终的预测结果是多个其他回归模型预测结果的平均值。对于分类模型,硬投票法的预测结果是多个模型预测结果中出现次数最多的类别,软投票对各类预测...
用管道简化工作流使用k折交叉验证评估模型性能使用学习和验证曲线调试算法通过网格搜索进行超参数调优比较不同的性能评估指标 管道 在建立逻辑回归之前,我们可能需要先对数据进行标准...
选用鸢尾花做case 选择度量模型的指标:这个问题是分类问题。真阳性TP:预测值和真实值都为正例;真阴性TN:预测值与真实值都为正例;假阳性FP:预测值为正,实际值为负;假阴...
对模型超参的调整 类似w,使用最小二乘法或者梯度下降法等最优化算法优化出来的数我们称为参数, 类似于 𝜆 一样,我们无法使用最小二乘法或者梯度下降法等最优化算法优化出来的数我...
直播记录: 判断是监督学习还是非监督学习 判断是分类问题 还是回归问题 线性回归原理推理。 最小二乘法算得最小 几何解释: 真实值Y 与预测值y的差距最小的点:Y-y的向量垂...
一个完整的机器学习流程: 明确项目任务:回归/分类 收集数据集并选择合适的特征。 选择度量模型性能的指标。 选择具体的模型并进行训练以优化模型。 评估模型的性能并调参。 1....
机器学习基础 有监督学习:给定某些特征去估计因变量,即因变量存在的时候。回归:因变量是连续型变量,如:房价,体重等。分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏...