KL divergence 相对熵 衡量两个分布之间差异的核心指标 公式 DKL(p∣∣q)=i=1∑np(xi)log(q(xi)p(xi)) 非对称性:p 对 q 的 KL散度和 q 对 p 的KL散度不是相等的 非负性:只能取正数 几个等效 极大似然估计:最小化 KL 散度等价于最大化似然,就是极大似然估计 交叉熵:KL散度是交叉熵和熵之间的差值 DKL(P∣∣Q)=H(P,Q)−H(P) 最小化交叉熵,就是最小化 KL 散度。 总结一下,交叉熵衡量不同分布的差异,减小交叉熵就是减小KL散度。