多変量ガウス分布のKL情報量(KLダイバージェンス)を理解する

Posted: , Category: ベイズ統計 , 機械学習 , 統計学

深層学習や機械学習などの論文を読んでいると、多変量正規分布のKL情報量について、あたかも知ってて当然かのような書き振りで、結論だけを提示されており、途方に暮れる人も多いのではないでしょうか。

今回は、2つの異なる多変量正規分布のKL情報量について、よく知られている結論とその証明についてまとめます。

VAE(Variational Auto Encoder)などの理解にもこの事実は必須ですので、できる限り理解するようにしましょう。

KL情報量について詳しく知りたい人は、まず先にこちらの記事をご覧ください。

情報理論や確率変数のKLダイバージェンス(カルバック・ライブラー情報量)を解説
KLダイバージェンス(Kullback-Leibler divergence, KL情報量)は、2つの確率分布の距離を表す統計量として、統計学や機械学習分野で頻出の統計量となっています。 KLダイバージェンスを$D_{K […]

多変量ガウス分布(多変量正規分布)のKL情報量

まず最初に結論を示します。

2つの多変量ガウス分布$p(x), q(x)$がそれぞれ、次の多変量ガウス分布で表現されているとします。

ここで、$\bm{\mu_1}, \bm{\mu_2} \in \mathbb{R}^D, \bm{\Sigma_1}, \bm{\Sigma_2} \in \mathbb{R}^{D \times D}$とします。

\begin{equation}
\begin{split}
p(x) &= \mathcal{N}(\bm{\mu_1}, \bm{\Sigma_1} ) \\ 
q(x) &= \mathcal{N}(\bm{\mu_2}, \bm{\Sigma_2} ) 
\end{split}
\end{equation}

この時、この2つの多変量ガウス分布のKL情報量$\operatorname{KL}[p(x) | q(x)]$は次のようになります。

2つの多変量ガウス分布のKL情報量
\begin{equation}
\begin{split}
\operatorname{KL}&[p(x) | q(x)] = \\ 
&\frac{1}{2}
\biggl \{
ln\frac{|\bm{\Sigma_2}|}{|\bm{\Sigma_1}|} + \operatorname{Tr}(\bm{\Sigma_2}^{-1}\bm{\Sigma_1})
+ (\bm{\mu_1} - \bm{\mu_1})^T
\bm{\Sigma_2}^{-1}(\bm{\mu_1} - \bm{\mu_1}) - D
\biggr \}

\end{split}
\end{equation}

この(2)の結論が論文等では当たり前に登場するんですよね…。

(2)を証明するには、かなり労力がかかるので、この辺りの証明は後日追加したいと思います。

【広告】
統計学的にあなたの悩みを解決します。
仕事やプライベートでお悩みの方は、ベテラン占い師 蓮若菜にご相談ください。

機械学習と情報技術