视频字幕
Word2Vec是一种革命性的词语向量化技术。传统的one-hot编码方法存在维度过高、无法表示语义关系等问题。Word2Vec通过神经网络训练,将词语转换为低维稠密向量,能够有效捕获词语间的语义相似性。例如,苹果和橙子这两个水果词的向量会比较相似,而与汽车这类词的向量差异较大。
Word2Vec的核心思想基于分布式假设理论,即'通过一个词的伙伴来了解这个词'。这意味着在相似上下文中出现的词语往往具有相似的含义。例如,'国王'、'皇帝'和'君主'这些词经常出现在类似的语境中,如与'统治'、'管理'、'领导'等动词搭配,与'王国'、'帝国'、'臣民'等名词关联。Word2Vec正是利用这种统计规律,通过分析大量文本中词语的共现模式,学习出能够反映语义相似性的词向量表示。
Word2Vec有两种主要的训练模型:CBOW和Skip-gram。CBOW模型,即连续词袋模型,通过周围的上下文词来预测中心词。它将多个上下文词的向量作为输入,经过隐藏层处理后,输出中心词的概率分布。CBOW模型训练速度较快,适合处理小规模数据集。相反,Skip-gram模型则是通过中心词来预测其上下文词。它以单个中心词作为输入,预测周围多个位置的词语。Skip-gram模型在大数据集上表现更好,能够更好地处理低频词,是目前更常用的方法。
Word2Vec的数学原理基于最大似然估计。对于Skip-gram模型,目标是最大化给定中心词条件下上下文词的概率。原始的softmax计算复杂度很高,因此引入了两种优化技术。负采样通过随机选择少量负样本来近似原始目标函数,大大减少了计算量。层次softmax则使用二叉树结构,将复杂度从线性降低到对数级别。在训练过程中,通过梯度下降不断更新词向量,使得语义相似的词在向量空间中逐渐靠近,而语义不同的词则相互远离。
Word2Vec生成的词向量具有令人惊讶的线性关系特性。最著名的例子是'king减去man加上woman约等于queen',这表明词向量能够捕获抽象的语义关系。类似的关系还包括国家与首都、动词时态变化、形容词比较级等。在向量空间中,语义相似的词会自然地聚集在一起,形成不同的语义簇。我们可以通过计算向量间的余弦相似度来衡量词语的语义相似程度,余弦值越接近1表示越相似,接近0表示无关,接近负1则表示相反的含义。