视频字幕
FM和FFM是用于CTR预估的经典算法。CTR预估的任务是将用户信息、物品信息和上下文信息转化为特征向量,然后预测用户点击的概率。这些特征通常是高维且稀疏的,比如使用独热编码表示的用户ID和物品ID。
线性模型只能学习每个特征的独立贡献,无法捕捉特征之间的联合效应。比如,男性用户可能更喜欢运动鞋,这种偏好需要通过特征交叉来建模。因此我们需要在模型中引入交叉项,将原来的线性模型扩展为包含二阶交叉项的模型。
传统的特征交叉方法需要为每一对特征直接学习交叉权重,这导致参数量呈平方增长,且存在严重的稀疏性问题。FM通过隐向量分解巧妙地解决了这个问题。FM为每个特征学习一个k维的隐向量,两个特征的交叉权重通过它们隐向量的点积来计算。这样参数量从O(n²)降低到O(nk),大大减少了模型复杂度。
FFM是FM的改进版本,它引入了域的概念。在FFM中,特征被分为不同的域,比如用户ID域、商品ID域、类别域等。每个特征不再只有一个隐向量,而是针对每个可能交互的域都有一个专门的隐向量。这样,特征i与属于域fj的特征交互时,使用的是特征i针对域fj的隐向量。这种域感知的设计使得模型能够更精细地建模不同域之间的交互关系。
总结一下,FM和FFM通过隐向量交叉机制有效解决了高维稀疏特征的交互建模问题。FM将参数量从O(n²)降低到O(nk),而FFM进一步引入域感知机制,使得交互建模更加精细。这两个算法在推荐系统、广告点击率预测等领域得到了广泛应用,为现代深度学习CTR模型奠定了重要基础。隐向量交叉的核心思想至今仍在许多先进模型中发挥重要作用。