江河浩瀚 - 简书

发简信

2
关注
0
粉丝
0
文章
0

字数
0

收获喜欢

IP属地：浙江

加油11dd23

transformer、bert、ViT常见面试题总结
1.Transformer为何使用多头注意力机制？（为什么不使用一个头）答案解析参考这里：为什么Transformer 需要进行 Multi-head Attention？...

19326 3 20 1
加油11dd23

常见深度学习问题一
最近在做文本聚类和小样本图像分割，跑代码时，碰到了一些问题。总结如下: 1、loss 不收敛将学习率改为指数衰减 2、冻结网络出现无参数可求导观察冻结网络是否正确冻结 3...

201 0 2

暂无个人介绍