视频字幕
传统的词表示方法使用one-hot向量,存在维度灾难问题,无法表达词汇间的语义相似度。我们需要稠密、低维且可计算的词向量表示,将高维稀疏的词汇空间映射到低维稠密空间中。
Word2Vec包含两种主要架构:CBOW和Skip-gram。CBOW通过上下文词预测中心词,而Skip-gram则相反,用中心词预测上下文。两种模型都采用三层神经网络结构,通过共享权重矩阵W学习词向量表示。
CBOW模型的前向传播过程包括四个步骤:首先将上下文窗口内的词向量求和取平均得到隐藏向量h,然后乘以权重矩阵W得到上下文表示,再乘以输出矩阵W'得到输出logits,最后通过softmax函数得到目标词的预测概率分布。
Skip-gram模型采用一对多的预测机制。中心词向量分别与输出矩阵W'的每一列进行点积运算,生成多个独立的softmax概率分布。每个上下文位置都有独立的预测概率,形成多条概率分布曲线,突出了Skip-gram的并行预测特性。
传统Softmax计算需要遍历整个词汇表,计算复杂度为O(|V|),在大词汇表下效率很低。负采样优化将多分类问题转化为二分类问题,只需计算正样本和少量负样本的sigmoid函数,将复杂度降低到O(k),显著提升了训练效率。