【ベイズ推定】周辺尤度とは何か、分かりやすく解説

Posted: , Category: ベイズ統計

ベイズ推定の枠組みの中で度々登場する、周辺尤度(marginal likelihood)という概念ですが、実際には統計力学や情報理論の中でも登場する概念です。

ベイズ推定の勉強の初期の項では、周辺尤度は、定数扱いになることも多いですが、より深くベイズ推定の勉強を進めていくと、経験ベイズ法などでは周辺尤度を最大化することで、ハイパーパラメータ の最適化を行うこともします。

今回は周辺尤度について簡単にまとめて見ます。

ベイズの定理の復習

周辺尤度に入る前に、機械学習や統計学におけるベイズの定理を復習します。

今、得られているデータが$\mathcal{D}$とし、パラメータのベクトルを$\bm{\theta}$とした時、ベイズの定理によって以下のように、事後分布$p(\bm{\theta}|\mathcal{D})$を得ることができます。関係式が成り立ちます。

ベイズの定理を利用した事後分布の導出
\begin{equation}
p(\bm{\theta}|\mathcal{D}) = 
\frac{p(\bm{\theta}) p(\mathcal{D} | \bm{\theta})}{p(\mathcal{D})}
\end{equation}

ここで、(1)式を構成する確率には、それぞれ名前が付いています。

(1)式の左辺は事後分布といい、右辺分子の$p(\bm{\theta})$は事前分布、$p(\mathcal{D} | \bm{\theta})$は尤度、右辺分母の$p(\mathcal{D})$は周辺尤度 と呼ばれています。

わかりやすくかくと、(1)式は次のようになります。

\begin{equation}
事後分布 = 
\frac{事前分布 × 尤度}{周辺尤度}
\end{equation}

(2)式にあるように、周辺尤度はベイズの定理の分母に登場する、$p(\mathcal{D})$となります。

周辺尤度を変形する

周辺尤度に関しては、$p(\mathcal{D})$と簡単に書きましたが、少し式変形をして見ます。

\begin{equation}
p(\mathcal{D}) = \int_{\theta} p(\bm{\theta}) p(\mathcal{D} | \bm{\theta})  d \bm{\theta}
\end{equation}

周辺尤度は、(3)のように書くことができます。この式変形は、条件付き確率の式と、確率密度関数の周辺化を行っています。

(3)式をよくみると、尤度$p(\mathcal{D} | \bm{\theta})$を確率変数$p(\bm{\theta})$で、周辺化していることがわかります。このことから、(3)式は周辺尤度と呼ばれています。

(3)式では、変数$\bm{\theta})$で積分消去を行なっているので、関数系の形としては$\bm{\theta})$に依存しない形になっています。

このように、周辺尤度は、尤度関数をモデルパラメータで周辺化しているため、モデルパラメータ$\bm{\theta})$に依存しないという事実は、覚えておいた方が良いと思います。

よく、最尤推定やMAP推定などによって、最適なパラメータを決定することがあると思いますが、この事実により、(1)式の右辺における分母の周辺尤度を無視して、計算することができます。

【広告】
統計学的にあなたの悩みを解決します。
仕事やプライベートでお悩みの方は、ベテラン占い師 蓮若菜にご相談ください。

機械学習と情報技術