视频字幕
Transformer是一种革命性的深度学习架构,完全基于注意力机制。与传统的RNN和CNN不同,Transformer能够并行处理序列数据,有效捕获长距离依赖关系。其核心结构包括编码器和解码器,每个都由多个相同的层堆叠而成。编码器负责理解输入序列,解码器则生成输出序列。
自注意力机制是Transformer的核心。它通过Query、Key、Value三个向量来计算注意力权重。公式为softmax(QK转置除以根号dk)乘以V。以'我爱北京天安门'为例,当处理'爱'这个词时,模型会计算它与所有词的相关性,发现'爱'与'北京'有较强关联,从而分配更高的注意力权重。
多头注意力机制使用多个注意力头并行处理输入。每个头都有自己的Query、Key、Value权重矩阵,能够关注不同类型的关系。比如第一个头关注语法关系,第二个头关注语义关系,第三个头关注位置关系,第四个头关注上下文关系。最后将所有头的输出拼接起来,通过输出权重矩阵得到最终结果。
位置编码解决了注意力机制无法感知位置信息的问题。Transformer使用正弦和余弦函数来编码位置信息,不同频率的波形能够唯一标识每个位置。位置编码向量与词嵌入向量相加,形成包含位置信息的最终输入表示。这种设计使模型能够理解词语在序列中的相对位置关系。
Transformer层还包含前馈神经网络和残差连接。前馈网络由两层全连接层组成,中间使用ReLU激活函数,增加模型的非线性表达能力。残差连接将子层的输入直接加到输出上,然后进行层归一化,这有助于梯度传播和训练稳定性。完整的数据流程是:输入经过多头注意力,加上残差连接和层归一化,再通过前馈网络,最后再次进行残差连接和层归一化得到输出。