目录 RNN 发生梯度消失的原因是什么? RNN中使用ReLU可以解决梯度消失问题吗? LSTM为什么能解决梯度消失/爆炸的问题? LSTM和G...
目录 简述K-Means算法的基本流程 Kmeans对异常值是否敏感?为什么? 如何评估聚类的效果 超参数k如何选择? Kmeans算法的优缺点...
目录 为什么要对特征做归一化 (easy) 什么是组合特征(Categorical Feature的组合)?如何处理高维组合特征 (medium...
上一节我们介绍了SVM在处理二分类问题时的经典概念,但是现实场景中的数据往往有很多噪音,这个时候如何处理才能让模型更鲁棒呢? 松弛变量(Slac...
超平面 定义: 对于处在超平面两侧的两个点 和 ,分别有: 某样本到超平面的单位法向量为:某样本点到超平面的距离可以表示为: 所以可以看到图中原...
1. 均方差损失 MSE Loss (L2 Loss) 针对回归问题 MSE也称为L2 loss:随着预测与真实值的绝对误差的增加,均方差损失...
nn.DataParallel DataParallel只能实现单个主机多GPU的训练,下图是由HuggingFace 制作的DataParal...
Learning Discriminative Feature with Multiple Granularities for Person R...
ResNeSt: Split-Attention NetworksGithub: https://github.com/zhanghang198...