KL散度公式详解

发布时间：2023-11-12 12:30

文章目录

- Jensen's inequality
- 讲解KL散度（又名relative entropy）
- mutual information

Jensen’s inequality

$f(\int\mathrm{x}p(x)dx)\leqslant\int\mathbb{f}(x)p(x)dx$ ,根据 $f(E(x))\leqslant\mathbb{E}(f(x))$ Jensen’s inequality推。
$\mathrm{KL}(p \| q)=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x} \geqslant-\ln \int q(\mathbf{x}) \mathrm{d} \mathbf{x}=0$ ，只有当 $p (x)$ , $q (x)$ 相等时等号成立。

讲解KL散度（又名relative entropy）

定义 $\mathrm{KL}(p \| q)=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x}$
$- l n x$ 是严格的凸函数，由Jensen’s inequality有 $\mathrm{KL}(p \| q)=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x} \geqslant-\ln \int q(\mathbf{x}) \mathrm{d} \mathbf{x}=0$
在实际应用中 $\mathrm{KL}(p \| q) \simeq \sum_{n=1}^{N}\left\{-\ln q\left(\mathbf{x}_{n} | \boldsymbol{\theta}\right)+\ln p\left(\mathbf{x}_{n}\right)\right\}$
- 注释：对于前面KL定义可知用的样本点服从 $p (x)$ ，故原来积分可等于上式，例如 $E(x)=\int\mathrm{x}f(x)dx\simeq\frac{1}{N}\sum\mathrm{f}(x_{i})$ ，重要性采样等方法都用到这个方法。

mutual information

1.如果数据集变量x与y不独立，就考虑 $p (x) p (y)$ 去近似，就可得到mutual information：

$\begin{aligned} \mathrm{I}[\mathbf{x}, \mathbf{y}] & \equiv \mathrm{KL}(p(\mathbf{x},\mathbf{y})\|p(\mathbf{x})p(\mathbf{y})) \\ &=-\iint p(\mathbf{x}, \mathbf{y})\ln\left(\frac{p(\mathbf{x}) p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}\right) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{y} \end{aligned}$

2.利用概率的和法则和乘积法则，可以得出互信息与条件熵的关系：

$\mathrm{I}[\mathbf{x}, \mathbf{y}]=\mathrm{H}[\mathbf{x}]-\mathrm{H}[\mathbf{x} | \mathbf{y}]=\mathrm{H}[\mathbf{y}]-\mathrm{H}[\mathbf{y} | \mathbf{x}]$

KL散度公式详解

文章目录

Jensen’s inequality

讲解KL散度（又名relative entropy）

mutual information

相关推荐