深層学習や機械学習などの論文を読んでいると、多変量正規分布のKL情報量について、あたかも知ってて当然かのような書き振りで、結論だけを提示されており、途方に暮れる人も多いのではないでしょうか。
今回は、2つの異なる多変量正規分布のKL情報量について、よく知られている結論とその証明についてまとめます。
VAE(Variational Auto Encoder)などの理解にもこの事実は必須ですので、できる限り理解するようにしましょう。
KL情報量について詳しく知りたい人は、まず先にこちらの記事をご覧ください。
情報理論や確率変数のKLダイバージェンス(カルバック・ライブラー情報量)を解説
KLダイバージェンス(Kullback-Leibler divergence, KL情報量)は、2つの確率分布の距離を表す統計量として、統計学や機械学習分野で頻出の統計量となっています。 KLダイバージェンスを$D_{K […]
多変量ガウス分布(多変量正規分布)のKL情報量
まず最初に結論を示します。
2つの多変量ガウス分布$p(x), q(x)$がそれぞれ、次の多変量ガウス分布で表現されているとします。
ここで、$\bm{\mu_1}, \bm{\mu_2} \in \mathbb{R}^D, \bm{\Sigma_1}, \bm{\Sigma_2} \in \mathbb{R}^{D \times D}$とします。
\begin{equation} \begin{split} p(x) &= \mathcal{N}(\bm{\mu_1}, \bm{\Sigma_1} ) \\ q(x) &= \mathcal{N}(\bm{\mu_2}, \bm{\Sigma_2} ) \end{split} \end{equation}
この時、この2つの多変量ガウス分布のKL情報量$\operatorname{KL}[p(x) | q(x)]$は次のようになります。
2つの多変量ガウス分布のKL情報量
\begin{equation} \begin{split} \operatorname{KL}&[p(x) | q(x)] = \\ &\frac{1}{2} \biggl \{ ln\frac{|\bm{\Sigma_2}|}{|\bm{\Sigma_1}|} + \operatorname{Tr}(\bm{\Sigma_2}^{-1}\bm{\Sigma_1}) + (\bm{\mu_1} - \bm{\mu_1})^T \bm{\Sigma_2}^{-1}(\bm{\mu_1} - \bm{\mu_1}) - D \biggr \} \end{split} \end{equation}
この(2)の結論が論文等では当たり前に登場するんですよね…。
(2)を証明するには、かなり労力がかかるので、この辺りの証明は後日追加したいと思います。