ベイズ推定の枠組みの中で度々登場する、周辺尤度(marginal likelihood)という概念ですが、実際には統計力学や情報理論の中でも登場する概念です。
ベイズ推定の勉強の初期の項では、周辺尤度は、定数扱いになることも多いですが、より深くベイズ推定の勉強を進めていくと、経験ベイズ法などでは周辺尤度を最大化することで、ハイパーパラメータ の最適化を行うこともします。
今回は周辺尤度について簡単にまとめて見ます。
ベイズの定理の復習
周辺尤度に入る前に、機械学習や統計学におけるベイズの定理を復習します。
今、得られているデータが$\mathcal{D}$とし、パラメータのベクトルを$\bm{\theta}$とした時、ベイズの定理によって以下のように、事後分布$p(\bm{\theta}|\mathcal{D})$を得ることができます。関係式が成り立ちます。
\begin{equation} p(\bm{\theta}|\mathcal{D}) = \frac{p(\bm{\theta}) p(\mathcal{D} | \bm{\theta})}{p(\mathcal{D})} \end{equation}
ここで、(1)式を構成する確率には、それぞれ名前が付いています。
(1)式の左辺は事後分布といい、右辺分子の$p(\bm{\theta})$は事前分布、$p(\mathcal{D} | \bm{\theta})$は尤度、右辺分母の$p(\mathcal{D})$は周辺尤度 と呼ばれています。
わかりやすくかくと、(1)式は次のようになります。
\begin{equation} 事後分布 = \frac{事前分布 × 尤度}{周辺尤度} \end{equation}
(2)式にあるように、周辺尤度はベイズの定理の分母に登場する、$p(\mathcal{D})$となります。
周辺尤度を変形する
周辺尤度に関しては、$p(\mathcal{D})$と簡単に書きましたが、少し式変形をして見ます。
\begin{equation} p(\mathcal{D}) = \int_{\theta} p(\bm{\theta}) p(\mathcal{D} | \bm{\theta}) d \bm{\theta} \end{equation}
周辺尤度は、(3)のように書くことができます。この式変形は、条件付き確率の式と、確率密度関数の周辺化を行っています。
(3)式をよくみると、尤度$p(\mathcal{D} | \bm{\theta})$を確率変数$p(\bm{\theta})$で、周辺化していることがわかります。このことから、(3)式は周辺尤度と呼ばれています。
(3)式では、変数$\bm{\theta})$で積分消去を行なっているので、関数系の形としては$\bm{\theta})$に依存しない形になっています。
このように、周辺尤度は、尤度関数をモデルパラメータで周辺化しているため、モデルパラメータ$\bm{\theta})$に依存しないという事実は、覚えておいた方が良いと思います。
よく、最尤推定やMAP推定などによって、最適なパラメータを決定することがあると思いますが、この事実により、(1)式の右辺における分母の周辺尤度を無視して、計算することができます。