视频字幕
交叉熵损失函数是机器学习中二分类问题的核心工具。它通过衡量模型预测概率与真实标签之间的差异来指导模型训练。当真实标签为1时,损失随着预测概率p的减小而急剧增加。当真实标签为0时,损失随着预测概率p的增加而急剧增加。这种设计确保模型对错误预测给予重罚。
交叉熵损失函数的数学表达式为:L等于负的y乘以log p加上1减y乘以log 1减p。这个公式可以分两种情况理解:当真实标签y等于1时,公式简化为负log p;当真实标签y等于0时,公式简化为负log 1减p。从示例表格可以看出,当预测概率与真实标签一致时损失较小,不一致时损失较大。
从几何角度看,交叉熵损失函数展现出优美的数学性质。当模型预测概率p在0到1之间变化时,我们可以观察到损失函数的行为。对于正类样本,当p接近1时损失很小,当p接近0时损失急剧增大。对于负类样本则相反。这种设计使得模型能够快速学习并收敛到正确的预测。
交叉熵损失函数的一个重要优势是其梯度计算简洁。对概率p的偏导数为负y除以p加上1减y除以1减p。当使用sigmoid激活函数时,梯度进一步简化为p减y,这使得反向传播算法非常高效。在优化过程中,我们可以看到损失函数随着迭代次数增加而逐渐收敛,梯度指向损失减小的方向。
交叉熵损失函数在机器学习中有着广泛的应用。它是逻辑回归的标准损失函数,也是神经网络二分类任务的首选。在深度学习中,从简单的全连接网络到复杂的卷积神经网络,交叉熵都发挥着重要作用。其优良的数学性质、简洁的梯度形式和快速的收敛特性,使其成为二分类问题的理想选择。通过本次学习,我们深入理解了交叉熵损失函数的原理和应用。