视频字幕
KL散度,全称Kullback-Leibler散度,是信息论中用来衡量两个概率分布差异的重要工具。对于离散分布,KL散度定义为真实分布P与近似分布Q的对数比值的期望。对于连续分布,则使用积分形式。KL散度的值越小,说明两个分布越相似。右图展示了两个不同的概率分布,蓝色代表分布P,红色代表分布Q,我们可以通过KL散度来量化它们之间的差异。
KL散度具有三个重要的数学性质。首先是非负性,KL散度的值总是大于等于零,这保证了它作为距离度量的合理性。其次是非对称性,从P到Q的KL散度通常不等于从Q到P的KL散度,这意味着KL散度不是真正的距离度量。最后是零值条件,当且仅当两个分布完全相同时,KL散度才等于零。右图展示了非对称性的例子,蓝色分布P和红色分布Q互换后,KL散度的值是不同的。
现在我们通过一个具体例子来学习离散分布KL散度的计算。假设我们有两个离散分布P和Q,P的概率为0.5、0.3、0.2,Q的概率为0.3、0.4、0.3。根据KL散度的定义公式,我们需要计算每一项的贡献。第一项贡献为0.256,第二项为负0.086,第三项为负0.081。将这三项相加,得到最终的KL散度值为0.089。右图显示了两个分布的对比,绿色数字表示每一项对总KL散度的贡献。
对于连续分布,KL散度使用积分形式计算。我们以高斯分布为例来演示计算过程。假设P服从均值为0、方差为1的标准正态分布,Q服从均值为1、方差为2.25的正态分布。两个高斯分布之间的KL散度有闭式解,公式包含方差比的对数项、方差和均值差的平方项。代入具体数值计算,得到KL散度为0.811。右图显示了两个高斯分布的概率密度函数,黄色区域表示积分计算的范围。
KL散度在实际应用中发挥着重要作用。在变分推断中,KL散度用于衡量近似后验分布与真实后验分布的差异,是证据下界的关键组成部分。在神经网络训练中,交叉熵损失函数本质上就是KL散度的特殊形式。在模型选择中,我们可以通过比较不同模型预测分布的KL散度来选择最优模型。在信息检索领域,KL散度被用于计算文档之间的相似度。右图展示了训练过程中KL损失的下降曲线,以及两个模型的KL散度比较,体现了KL散度在实际应用中的价值。