240 发简信
IP属地:西藏
  • Pytorch 数据加载器: Dataset 和 DataLoader

    为什么要用? 习惯于自己实现业务逻辑的每一步,以至于没有意识去寻找框架本身自有的数据预处理方法,Pytorch的Dataset 和 DataLoader便于加载和迭代处理数据...

  • 这部分未上传到简书,之前是用过的,效果优于xgb或lgmb。大致做法是每个时间步包含n个统计值即可,最后seq2seq直接输出,也可单点预测,看你数据组织形式吧

    天池---智慧交通预测挑战赛总结(一)

    2017/07 -- 2017/09 天池智慧交通预测赛思路及模型总结(一) 说在前面的话 ML的建模方法和数据处理方法看来是一个CS专业学生必备的技能了,但是课余时间单纯的...

  • Boosting

    序 boosting是集成学习中的一个大家族,本次记录boosting的相关概念以及与bagging的区别。 boosting思想 Boosting是一族可以将若学习器提升为...

  • 120
    随机森林如何评估特征重要性

    序 集成学习模型的一大特点是可以输出特征重要性,特征重要性能够在一定程度上辅助我们对特征进行筛选,从而使得模型的鲁棒性更好。 随机森林中进行特征重要性的评估思想为:判断每个特...

  • 随机森林如何处理缺失值

    序 RF中有相应的缺失值处理方法,本次记录其两种缺失值处理技巧 暴力填补 Python中的na.roughfix包提供简单的缺失值填补策略:对于训练集中处于同一个类别下的数据...

  • Bagging与随机森林

    序 集成学习大类中常见的有两个子类:Bagging和Boosting。本次记录一下Bagging以及其代表模型RandomForest。 Bagging思想 Bagging是...

  • 模型方差与偏差

    序 面试过程中经常会被问到关于方差和偏差的概念以及比对。 偏差 偏差度量了学习算法的期望预测值与真实结果间的偏离程度,也就是刻画了模型本身的拟合能力,也就是偏差越大,意味着预...

  • 集成学习

    序 本次以及后续几次博客将陆续记录关于集成学习模型的相关知识点。 Ensemble概述 集成学习 就是构造若干模型并用它们的(加权预测/投票)值用于对新样本的预测。类似于多个...

  • 120
    决策树剪枝

    为何要剪枝 决策树递归地构建树,直到不能继续分裂下去为止,这样的树对于训练集可能拟合的较好,但对于训练集可能产生过拟合现象,原因是过多的考虑对训练集的划分精确度,从而构建出了...

  • 120
    ID3、C4.5、CART

    序 其实不同的决策树学习算法只是它们选择特征的依据不同,决策树的生成过程都是一样的(根据当前环境对特征进行贪婪的选择)。 ID3算法的核心是在决策树各个节点上应用信息增益准则...

  • 120
    信息熵与基尼指数的关系

    序 熵的概念中有信息熵、信息增益、信息增益比、基尼指数,这些统统作为决策树分裂的依据,其中,我们需要知道信息熵与基尼指数的关系。 信息熵与基尼指数的关系 首先看二者的定义:将...

  • 120
    决策树

    序 本次记录一下决策树的相关概念以及思想,后面博客再贴上具体的算法原理 一句话介绍 决策树是一种基本的分类与回归的判别式模式,在分类问题中,表示基于特征对实例进行分类的过程,...

  • 120
    朴素贝叶斯

    序 本次记录朴素贝叶斯的相关原理,并上一张手写的面试级推导过程 朴素贝叶斯模型是什么? 朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的数据集,首先基于特征...

  • 120
    几种距离计算方法

    序 本次记录:1、闵可夫斯基距离2、马氏距离3、内积4、汉明距离5、杰卡德距离6、编辑距离7、KL散度距离 闵可夫斯基距离 假设数值点P和Q的坐标如下: 当p趋近于无穷大时,...

  • 120
    评估聚类模型的兰德指数

    序 聚类模型的好坏如何评价,本次记录其中一种方法--兰德指数 兰德指数

  • 120
    层次聚类

    层次聚类分支 1)分裂法从上到下对大类别进行分割2)凝聚法从下到上对小类别进行聚合 层次聚类优点 kmeans中需要人工确定聚类类别K基于初始化聚类中心,这将会很大程度上影响...

  • 120
    DBSCAN

    算法介绍 该聚类算法是具有噪声的基于密度可达关系的聚类方法,它将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。 ...

  • 120
    KNN

    一句话介绍KNN KNN是一种可用于分类和回归的方法。一般情况下用其进行分类任务。 KNN三要素 1)模型,即对特征空间的划分;2)距离度量,欧氏距离等;3)分裂决策规则,即...