视频字幕
Transformer是现代自然语言处理的核心架构,它革命性地采用了完全基于注意力机制的设计。该架构包含编码器和解码器两大部分,每一层都包含多头注意力机制和多层感知器。注意力机制负责捕获序列中不同位置之间的依赖关系,而MLP则对每个位置的特征进行非线性变换。这种设计使得Transformer能够并行处理序列,大大提高了训练效率。
多层感知器是深度学习的基础组件,由多个全连接层组成。它的工作原理是先通过线性变换将输入映射到隐藏空间,然后应用非线性激活函数如ReLU,最后再通过另一个线性层输出结果。MLP的关键特点是对输入的每个位置进行独立处理,不考虑位置之间的相互关系。这种逐元素的处理方式使得MLP能够学习复杂的非线性映射,但无法直接建模序列中的依赖关系。
在Transformer架构中,MLP层有着特定的设计模式。它通常包含两个线性层,中间层的维度会扩展到输入维度的4倍,比如从512维扩展到2048维,然后再压缩回512维。这种设计被称为前馈网络。激活函数通常使用GELU而不是ReLU,因为GELU能提供更平滑的梯度。每个MLP层都配有残差连接和层归一化,这有助于训练深层网络。MLP层的参数量通常占整个Transformer模型的很大比例。
注意力机制是Transformer的核心创新,它通过Query、Key、Value三个矩阵来计算序列中不同位置之间的关联度。具体过程是:首先计算Query和Key的点积得到注意力分数,然后通过softmax函数将分数转换为概率分布,形成注意力权重矩阵。最后用这个权重矩阵对Value进行加权求和,得到最终输出。这种机制使得模型能够动态地关注序列中的重要信息,捕获长距离依赖关系。
MLP和注意力机制在处理方式上有根本差异。MLP对每个位置独立处理,所有位置共享相同的参数,具有位置无关性,计算复杂度为O(n·d²)。而注意力机制则通过全局位置交互,动态计算权重,具有位置相关性,计算复杂度为O(n²·d)。MLP擅长学习位置内的特征变换,注意力机制擅长捕获位置间的依赖关系。两者在Transformer中互补工作,共同实现强大的序列建模能力。