確率変数の期待値は、機械学習の学習をする中で、非常によく登場する概念です。確率変数のモーメントとも繋がりがあり、統計学や機械学習の基本書を読んでも、最新の論文を読んでも登場するので、期待値の概念について正しく理解することは非常に重要です。
また確率変数$X$そのものの期待値を考えることも多いですが、勉強を進めていくと$X^2$の期待値や、$X + Y$の期待値なども登場しますが、これらは実際なんなのか、頭を悩ませることも多いと思います。
今回は、機械学習や統計学で頻繁の登場する重要概念である期待値について、分かりやすく説明していいきます。
- 確率変数$X$の期待値$\mathbb{E}[X]$の定義や意味を理解する
- 確率変数$X$の確率変数$X^2$や確率変数$X+X^2$といった、関数系の期待値を理解する
確率変数の期待値のざっくりした定義
冒頭で、$X^2$といった、確率変数$X$の関数系の期待値を考える前に、ある確率変数$X$の期待値について考えていきましょう。
確率変数の期待値とは、確率分布の性質を表す指標の一つであり、よく確率変数が取るであろうと期待される値やら、確率変数の平均値 なんかと表現されます。
より直感的に理解しやすい表現としては、その確率変数から無限に取得したサンプルの平均の値 ともいうことができます。
確率変数の数学的な定義
離散的な確率変数の場合
まず、1~6の出目があるような、サイコロのような離散的な確率分布の場合を考えます。
まず、ある離散的な確率変数$X$があった時に、この期待値$\mathbb{E}[X]$の定義は下記のようになります。
\begin{equation} \mathbb{E}[X] = \sum_{n=1}^N p(x_n) x_n \end{equation}
ここで、$N$個の離散的な値を取りうる、確率変数$X$における$n$番目の要素を$x_n$、その取る確率を $p(x_n)$とした。
サイコロの例で理解する
X = 1 | X = 2 | X = 3 | X = 4 | X = 5 | X = 6 |
$\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ | $\frac{1}{6}$ |
このような全ての出目が等しく出るようなサイコロを考える時、この確率分布$X$の期待値(=つまり、無限にサイコロを振った時の出目の平均)は、
\begin{split} \mathbb{E}[X] &= \frac{1}{6} × 1 + \frac{1}{6} × 2 + \frac{1}{6} × 3 + \frac{1}{6} × 4 + \frac{1}{6} × 5 + \frac{1}{6} × 6 \\ &= \frac{1}{6} (1 + 2 + 3 + 4 + 5 + 6) \\ &= \frac{7}{2} \end{split}
となり、その期待値は$\frac{7}{2}$となります。
つまり、無限にサイコロを降った時の期待される平均値はおよそ$\frac{7}{2} = 3.5$ くらいになるということです。
連続的な確率分布の場合
先ほどは離散的な確率変数の場合を扱ったが、連続的な確率分布における期待値E[X]の定義はこのようになります。
\begin{equation} \mathbb{E}[X] = \int x p(x) dx \end{equation}
連続的な確率分布の場合も、離散的な確率分布の場合とほとんど変わりはありません。
確率変数の関数の期待値
ここまで、ある確率変数$X$の期待値について考えてきました。しかし、実際には、$X^2$や確率変数$X+X^2$といった期待値を扱う場合も多くあります。
先ほどの期待値の例を拡張して、確率変数$X$の関数系の期待値について考えていきましょう。
実は、確率変数の期待値の一般的な表現は次にようになっています。
確率変数$X$において、その確率変数の値$x$の関数$f(x)$の、確率分布p(x)のもとでの平均値を、f(x)の期待値$\mathbb{E}[f]$と呼び、下記のように定義する。
離散的な確率分布の場合
\begin{equation} \mathbb{E} [f ] = \sum_x p(x ) f(x) \end{equation}
連続的確率分布の場合
\begin{equation} \mathbb{E} [f ] = \int p(x ) f(x) dx \end{equation}
(3)式と(4)式が、確率分布の期待値を一般化したものです。