需要翻墙 安装: demo: 报错: 更改下载 google_trans_new 包中的代码文件 google_trans_new.py 151 行如下 问题解决,运行结果,
标签平滑:Label Smoothing(标签平滑)是一个经典的正则化方法,机器学习的样本中通常会存在少量错误标签,这些错误标签会影响到预测的效果。标签平滑采用如下思路解决这...
1.移动到新的目录 mv /old_path/anaconda3 /new_path/ # 很久之后 2. 修改新路径下 anaconda3 中的这些文件...
torch model.eval()1. model.train() 作用:启用 Batch Normalization 和 Dropout,如果模型中有BN层(Batch Normalization)和Dro...
part1:特征稳定性 特征稳定性,就是关注该特征的取值随着时间的推移会不会发生大的波动, 对特征稳定性的关注,一定要在建模之前完成,从一开始就避免将那些本身不太稳定的特征选...
linux 免密登录: windows 机器:首先查看自己电脑的私钥: C:\Users\用户名.ssh 记事本打开 id_rsa.pub ,复制出私钥 如果没有这个文件,命...
先验知识:交叉熵 - 简书 (jianshu.com)[https://www.jianshu.com/p/bebd799f1c73] 理解: 针对类别不均衡问题,作者提出一...
1. weight: a manual rescaling weight given to the loss of each batch element. If given,...
下面是具体的参数: 1. pos_weight: 处理样本不均衡问题torch.nn.BCEWithLogitsLoss(weight=None, size_average=...
计算多标签分类时候的损失函数一般选择BCELoss和BCEWithLogitsLoss,这两者的区别在于: BCELoss 是处理经过Sigmoid之后输出的概率值 BCEW...
多标签 V/S 多分类多类分类(Multiclass classification):表示分类任务中有多个类别, 比如对一堆水果图片分类, 它们可能是橘子、苹果、梨等. 多类...
模型加载参数不匹配 出现场景,使用transformers包的预训练模型 from_pretrained加载huggingface 模型,然后在这基础上继续训练,由于模型参数...
主题: 最近的研究证明了生成性预训练对英语自然语言理解的有效性,我们讲这种方法扩展到多语言,并且展现了跨语言预训练的有效性 两种方法 for cross-lingual la...
Tools——>Deployment——> Configuration 新建一个SFTP服务,配置connection,填写远程服务器地址和用户名密码,然后点击Text Co...
主题:少样本跨语言迁移学习比基于多语言预训练模型在无样本学习上迁移效果更好,但是这项工作目前没有标准化的实验流程,可解释性欠缺,于是这篇论文设计实验深入分析了,少样本跨语言迁...
主要内容: 文章提出用 Dice Loss 替代 交叉熵(standard cross-entropy loss) 在数据不平衡的 NLP 任务上面提升效果 1. 数据不平衡...
算法基本思想: 将复杂问题分解为若干子问题 先求解子问题,重复利用子问题的解求得原问题的解 基本要素: 最优子结构性质 重叠子问题 基本步骤: 建立状态转移方程 -> 存储并...
相比较bert,RoBERTa有以下几个改进: 模型参数:RoBERTa采用更大模型参数(1024 块 V100 GPU 训练了 1 天的时间)。 Batch Size:Ro...
因为Bert本身参数量大,所以上线的过程中会碰到需求大空间和速度慢等问题。当前对Bert瘦身有三个思路,分别是Distillation(蒸馏)、Quantization(量化...