KL divergence

相对熵

衡量两个分布之间差异的核心指标

公式

  • 非对称性:p 对 q 的 KL散度和 q 对 p 的KL散度不是相等的
  • 非负性:只能取正数

几个等效

极大似然估计:最小化 KL 散度等价于最大化似然,就是极大似然估计

交叉熵:KL散度是交叉熵和熵之间的差值

最小化交叉熵,就是最小化 KL 散度。

总结一下,交叉熵衡量不同分布的差异,减小交叉熵就是减小KL散度。