RNN的结构
RNN的缺点
ref:https://blog.csdn.net/jizhidexiaoming/article/details/81743584
梯度消失
梯度爆炸
梯度消失:一句话,RNN梯度消失是因为激活函数tanh函数的倒数在0到1之间,反向传播时更新前面时刻的参数时,当参数W初始化为小于1的数,则多个(tanh函数’ * W)相乘,将导致求得的偏导极小(小于1的数连乘),从而导致梯度消失。
梯度爆炸:当参数初始化为足够大,使得tanh函数的倒数乘以W大于1,则将导致偏导极大(大于1的数连乘),从而导致梯度爆炸。
RNN的不同结构
one to one:常常用在图像分类,没有循环结构比较简单
one to many:常常用在图片描述,输入一张图片输出一堆文字
many to one:常常用在文本的情感分析,(yej:时序预测也可以)。
第四个和第五个有什么区别?
many to many:一般做机器翻译,输入和输出不同(Seq2Seq)。
many to many:输入和输出的个数是一样的,往往做视频分类。
考虑上下文
精度更高,但是计算量更多。
LSTM
缓解RNN的梯度消失和梯度爆炸