深層学習や機械学習などの論文を読んでいると、多変量正規分布のKL情報量について、あたかも知ってて当然かのような書き振りで、結論だけを提示されており、途方に暮れる人も多いのではないでしょうか。
今回は、2つの異なる多変量正規分布のKL情報量について、よく知られている結論とその証明についてまとめます。
VAE(Variational Auto Encoder)などの理解にもこの事実は必須ですので、できる限り理解するようにしましょう。
KL情報量について詳しく知りたい人は、まず先にこちらの記事をご覧ください。

情報理論や確率変数のKLダイバージェンス(カルバック・ライブラー情報量)を解説
KLダイバージェンス(Kullback-Leibler divergence, ...
多変量ガウス分布(多変量正規分布)のKL情報量
まず最初に結論を示します。
2つの多変量ガウス分布$p(x), q(x)$がそれぞれ、次の多変量ガウス分布で表現されているとします。
ここで、$\bm{\mu_1}, \bm{\mu_2} \in \mathbb{R}^D, \bm{\Sigma_1}, \bm{\Sigma_2} \in \mathbb{R}^{D \times D}$とします。
\begin{equation}
\begin{split}
p(x) &= \mathcal{N}(\bm{\mu_1}, \bm{\Sigma_1} ) \\
q(x) &= \mathcal{N}(\bm{\mu_2}, \bm{\Sigma_2} )
\end{split}
\end{equation}この時、この2つの多変量ガウス分布のKL情報量$\operatorname{KL}[p(x) | q(x)]$は次のようになります。
2つの多変量ガウス分布のKL情報量
\begin{equation}
\begin{split}
\operatorname{KL}&[p(x) | q(x)] = \\
&\frac{1}{2}
\biggl \{
ln\frac{|\bm{\Sigma_2}|}{|\bm{\Sigma_1}|} + \operatorname{Tr}(\bm{\Sigma_2}^{-1}\bm{\Sigma_1})
+ (\bm{\mu_1} - \bm{\mu_1})^T
\bm{\Sigma_2}^{-1}(\bm{\mu_1} - \bm{\mu_1}) - D
\biggr \}
\end{split}
\end{equation}この(2)の結論が論文等では当たり前に登場するんですよね…。
(2)を証明するには、かなり労力がかかるので、この辺りの証明は後日追加したいと思います。