KL divergence,相对熵,衡量两个分布之间差异的核心指标 公式 DKL(p∣∣q)=i=1∑np(xi)log(q(xi)p(xi)) 非对称性:p 对 q 的 KL散度和 q 对 p 的KL散度不是相等的 非负性:只能取正数 等效为 MLE 最小化 KL 散度等价于最大化似然,等效为极大似然估计。 原理是用一个带参数的 q(x∣θ) 去逼近 p(x)。使用 MLE 可以求 θ 。 即为: KL(p∥q)≈N1n=1∑N[−lnq(xn∣θ)+lnp(xn)] −lnq(xn∣θ) 为负对数似然 等效为 交叉熵 KL散度是交叉熵和熵之间的差值 DKL(P∣∣Q)=H(P,Q)−H(P) 最小化交叉熵,就是最小化 KL 散度。 总结一下,交叉熵衡量不同分布的差异,减小交叉熵就是减小KL散度。