视频字幕
多分类交叉熵是机器学习中最重要的损失函数之一。当我们面对有多个类别的分类问题时,比如识别图片中的动物是猫、狗还是鸟,模型会输出每个类别的预测概率。多分类交叉熵就是用来衡量这些预测概率与真实标签之间差异的工具。
在多分类问题中,真实标签通常用One-Hot编码表示。比如有三个类别猫、狗、鸟,如果真实答案是狗,那么编码就是[0,1,0],只有狗对应的位置是1,其他都是0。而模型通过Softmax函数输出概率分布,比如[0.1,0.7,0.2],表示模型认为是猫的概率10%,是狗的概率70%,是鸟的概率20%。
多分类交叉熵的数学公式是负的求和,对所有类别i,真实标签y_i乘以预测概率的对数。由于真实标签使用One-Hot编码,只有真实类别对应的项不为零,所以公式简化为负的真实类别预测概率的对数。比如真实标签是[0,1,0],预测概率是[0.1,0.7,0.2],那么损失就是负log(0.7)等于0.357。
交叉熵损失函数有一个重要特性:它对预测错误的惩罚非常严厉。当模型对真实类别的预测概率很高时,比如0.9,损失只有0.11,很小。但当预测概率降到0.1时,损失急剧上升到2.30。这种特性促使模型努力提高对真实类别的预测概率,从而获得更好的分类效果。
多分类交叉熵广泛应用于各种机器学习任务,包括图像分类、文本分类、语音识别等。在模型训练过程中,我们输入数据,模型进行预测,然后用交叉熵计算损失,最后通过梯度下降等优化算法更新模型参数。这个过程不断重复,直到模型达到满意的性能。交叉熵作为损失函数,有效地指导了模型学习过程。