統計学や確率の勉強を始めると、周辺化(marginalization)や周辺分布(周辺確立分布, marginal probability distribution)という概念がしばしば登場します。
確率や統計学を扱うテキストであれば、周辺化について扱っていないテキストはほとんどないと思うくらい、超重要な概念ですが、実際理解するのは結構難しいと思います。
今回はできる限り、この周辺化や周辺分布について分かりやすく解説していきます。
- 周辺化(marginalization)の計算(操作)について解説
- 離散的確率分布の周辺化
- 連続的確率分布の周辺化
確率変数の周辺化と周辺分布
まず、確率変数の周辺化と周辺分布の定義を先に示します。
確率変数の周辺化とは、同時確率分布から、ある確率変数を削除して、その確率変数の入らない新しい確率分布を作る操作のことをいいます。また周辺化によって得られた新しい確率分布を、周辺分布と呼びます。
、、、と言っても、この言葉だけで理解できる人は、100人いて1人もいないと思います。
確率や統計における周辺化を理解するためには、具体例から理解するのが最も早いので、具体例で説明します。

ちなみに、この記事で解説する内容は、上の図の内容になっています。同時確率分布や周辺確立分布について元々知っていて、ざっくり確認したかった人は、下記の図を見て、思い出してください。
しっかりとこれらについて確認したい人は、以降の解説に入ってください。
周辺化や周辺分布を理解するための具体例
100人に、以下のようなアンケートを取って集計したとします。

アンケートの内容は、今最も使っているSNSは何かを、Twitter, Youtube, Instagramの中から選んでください!という内容のアンケートだったとします。
アンケートは、街頭で行って、そのアンケートを答えた人が男性なのか、女性なのか、という情報も一緒に入手できた状況です。
そして、100人にアンケートをして得られた結果が次のようになったとしましょう。

これが、今回周辺化を考えるにあたっての具体的な例です。続いて、周辺化はどのような操作なのかについて、みていきましょう。
まず、周辺化は確率の世界での操作なので、上の人数単位で集計されているデータを確率に変換しましょう。全体の母数が100人なので、全ての数字を100で割ってあげます。

このようなマトリックスになりました。ここで確率の世界を考えているので、確率変数を導入しておきましょう。どのSNSが選ばれたかの確率変数を$x$とし、その確率を$p(x)$と表現します。また、アンケートに答えた性別の確率変数を$y$年、その確率を$p(y)$と表現します。
また、$p(x)$と$p(y)$の同時確率分布を$p(x, y)$と表現します。
ここまでで、周辺化を考える土台ができました。ここから周辺化や周辺分布を考えていきます。
ここで改めて、周辺化と周辺分布の定義を記載します。
確率変数の周辺化とは、同時確率分布から、ある確率変数を削除して、その確率変数の入らない新しい確率分布を作る操作のことを言う。また周辺化によって得られた新しい確率分布を、周辺分布と呼ぶ。
ハイライトしている箇所、つまり、周辺化について考えるときは、まず同時確率分布について考える必要があります。同時確率分布とは、2つの確率変数が同時に起こる確率のことを指します。
今回の例だと、下の図の部分が同時確率分布に相当します。

なんとなくわかりますよね。
例えば上の図のマトリクスから、男性で、SNSの中で最もTwitterを利用している人の確率は、$1 / 5$であることがわかります。性別の確率変数とどのSNSかの確率変数の2つの確率変数を同時に考えるので、同時確率分布と言います。
では、同時確率分布に対し、周辺分布や周辺化はどのような確率や操作に相当するかというと、下の図のような操作に相当します。

つまり、合計と書かれている欄の確率が周辺確率であり、その分布が周辺分布になります。また、周辺分布を得るための操作を周辺化と言います。
上の図の例だと、周辺化によって、douzikakuritubunpu$p(x, y)$から、どのSNSを最も利用しているかの分布、つまり$p(x)$を作り出すことができました。そして、この周辺分布には、性別の分布の情報は消えてしまっています。
これがまさに、この記事の冒頭に周辺化の定義で書いた定義そのものの操作になっています。
ちなみに今回の操作では、性別の確率変数$p(y)$の情報が消えました。このように、同時確率分布$p(x, y)$から$p(y)$の情報を消去して、$p(x)$を得た場合には、$p(y)$で周辺化した、と言うような表現になります。
つまり考えていた同時確率分布から、消えた確率変数に対して周辺化した、と言うことになります。
逆に、今回は$p(x, y)$を$p(y)$で周辺化しましたが、$p(x, y)$を$p(x)$で周辺化することもできます。

同じ同時確率分布でも、どの確率変数によって周辺化したかによって、得られる周辺分布は異なることに注意してください。
このような操作が周辺化になります。
離散確率分布の周辺化
ここまで、具体例を通して周辺化や周辺分布について解説してきました。最後に、周辺化について数式できっちりと示したいと思います。ここから先は発展的な話題なので、必要ない人はそんなもんなんだ〜くらいの理解で良いと思います。
確率変数$x$, $y$が離散確率変数であり、いま同時確率分布$p(x, y)$が与えられているとき、下記の操作を$y$による周辺化と呼ぶ。
\begin{equation} \sum_{y} p(x, y) = p(x) \end{equation}
連続確率分布の周辺化
確率変数$x$, $y$が連続的な確率変数であり、同時確率分布$p(x, y)$が与えられているとき、下記の操作を$y$による周辺化と呼ぶ。
\begin{equation} \int p(x, y) dy = p(x) \end{equation}
離散確率分布は今回具体例を通して理解できたかもしれませんが、連続確率分布の周辺化についてはいまいち理解できないかもしれません。
しかし、実際にやっていることは、今回具体例を通して解説したような離散確率変数の場合と全く同じなので、うまくアナロジーして周辺化でやっている内容についてイメージできるようになってもらえればと思います。