视频字幕
LSTM是长短期记忆网络的简称,是一种特殊的循环神经网络。它能够学习长期依赖关系,解决了传统RNN的梯度消失问题。LSTM通过门控机制来控制信息的流动,包括输入、输出和遗忘三个门。
遗忘门是LSTM的第一个门控机制。它接收上一时刻的隐藏状态h_{t-1}和当前输入x_t,将它们拼接后通过权重矩阵变换,再经过Sigmoid激活函数,输出一个0到1之间的向量f_t。这个向量决定了从上一个细胞状态中保留多少信息。
输入门和候选状态是LSTM的第二个重要步骤。输入门通过Sigmoid函数决定哪些新信息需要存储,而候选状态通过tanh函数创建新的候选值向量。输入门的输出i_t和候选状态tilde_c_t将在下一步中结合使用,来更新细胞状态。
更新细胞状态是LSTM的核心步骤。首先,遗忘门f_t与上一个细胞状态c_{t-1}逐元素相乘,决定保留哪些旧信息。然后,输入门i_t与候选状态tilde_c_t逐元素相乘,决定添加哪些新信息。最后,将这两部分相加得到新的细胞状态c_t。
最后一步是通过输出门生成隐藏状态。输出门接收h_{t-1}和x_t,通过Sigmoid函数输出o_t,决定输出细胞状态的哪些部分。同时,将更新后的细胞状态c_t通过tanh函数处理,然后与输出门o_t逐元素相乘,得到最终的隐藏状态h_t。这样,LSTM完成了一个时间步的计算过程。