Jason雨 - 简书

发简信

Jason雨

127
关注
4
粉丝
0
文章
0

字数
0

收获喜欢
7

总资产

IP属地：天津

吃醋不吃辣的雷儿

python中range np.linspace np.arange torch.range torch.arange的区别
表示整数：皆可range, np.arange, torch.arange不包含终点np.linspace, torch.range包含终点np.linspace第三个参数表...

697 0 7
孙庚辛

Transformer 的注意力头越多越好么
多头注意力机制的目的是通过捕捉不同的注意力信息来提升 AI 模型的表达能力。利用多头矩阵的子空间从不同的视角或者说维度来表达输入的数据。从贝叶斯神经网络的角度，多头注意力机...

4144 0 2
马小李23

pytorch实现t-SNE
pytorch版本实现的t-SNE，可以支持cuda加速，根据作者的python版本修改获得MNIST数据集在pytorch版本下的结果对比原来python版本实现的结果 ...

7359 0 1
锦绣拾年

Multi-head attention 多头注意力机制
Multi-head attention 本文基于《dive into deep learning》-pytorch 代码参考《dive into deep learnin...

10838 0 4
小菜鸡

Python刷题的时候编写测试用例的输入重定向
如题，刷题的时候程序需要从标准（input()）输入获取数据，如果每次运行代码都需要手动的在console复制题目的样例输入就很费事，输入重定向可以解决这个问题，实行起来有两...

815 0 1
top_小酱油

训练集/验证集/测试集的区别
深度学习模型的参数分为普通参数和超参数：普通参数：在模型训练的过程中可以被梯度下降所更新的，也就是训练集所更新的参数。超参数：比如网络层数、网络节点数、迭代次数、学习率等...

1365 0 2
Jachin111

69自然语言处理预训练技术实践--BERT 预训练模型及文本分类
BERT 预训练模型及文本分类 BERT[https://arxiv.org/abs/1810.04805] 全称为 Bidirectional Encoder Repres...

1996 0 8
土豆干锅

用Python去计算：方差var、协方差cov、相关系数
方差[https://baike.baidu.com/item/%E6%96%B9%E5%B7%AE/3108412?fr=aladdin] 定义方差是在概率论和统计方差衡...

8550 0 5
taobao

梯度下降
摘抄：https://www.cnblogs.com/shixiangwan/p/7532830.html[https://www.cnblogs.com/shixiangw...

860 0 4