確率変数の期待値について徹底解説

確率変数の期待値は、機械学習の学習をする中で、非常によく登場する概念です。確率変数のモーメントとも繋がりがあり、統計学や機械学習の基本書を読んでも、最新の論文を読んでも登場するので、期待値の概念について正しく理解することは非常に重要です。

また確率変数$X$そのものの期待値を考えることも多いですが、勉強を進めていくと$X^2$の期待値や、$X + Y$の期待値なども登場しますが、これらは実際なんなのか、頭を悩ませることも多いと思います。

今回は、機械学習や統計学で頻繁の登場する重要概念である期待値について、分かりやすく説明していいきます。

本記事の内容

確率変数の期待値のざっくりした定義

冒頭で、$X^2$といった、確率変数$X$の関数系の期待値を考える前に、ある確率変数$X$の期待値について考えていきましょう。

確率変数の期待値とは、確率分布の性質を表す指標の一つであり、よく確率変数が取るであろうと期待される値やら、確率変数の平均値 なんかと表現されます。

より直感的に理解しやすい表現としては、その確率変数から無限に取得したサンプルの平均の値 ともいうことができます。

まず、1~6の出目があるような、サイコロのような離散的な確率分布の場合を考えます。

まず、ある離散的な確率変数$X$があった時に、この期待値$\mathbb{E}[X]$の定義は下記のようになります。

離散的な確率変数の期待値の定義

\begin{equation} \mathbb{E}[X] = \sum_{n=1}^N p(x_n) x_n \end{equation}

ここで、$N$個の離散的な値を取りうる、確率変数$X$における$n$番目の要素を$x_n$、その取る確率を $p(x_n)$とした。

X = 1	X = 2	X = 3	X = 4	X = 5	X = 6
$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$

このような全ての出目が等しく出るようなサイコロを考える時、この確率分布$X$の期待値(=つまり、無限にサイコロを振った時の出目の平均)は、

\begin{split} \mathbb{E}[X] &= \frac{1}{6} × 1 + \frac{1}{6} × 2 + \frac{1}{6} × 3 + \frac{1}{6} × 4 + \frac{1}{6} × 5 + \frac{1}{6} × 6 \\ &= \frac{1}{6} (1 + 2 + 3 + 4 + 5 + 6) \\ &= \frac{7}{2} \end{split}

となり、その期待値は$\frac{7}{2}$となります。

つまり、無限にサイコロを降った時の期待される平均値はおよそ$\frac{7}{2} = 3.5$ くらいになるということです。

先ほどは離散的な確率変数の場合を扱ったが、連続的な確率分布における期待値E[X]の定義はこのようになります。

離散的な確率変数の定義

\begin{equation} \mathbb{E}[X] = \int x p(x) dx \end{equation}

連続的な確率分布の場合も、離散的な確率分布の場合とほとんど変わりはありません。

ここまで、ある確率変数$X$の期待値について考えてきました。しかし、実際には、$X^2$や確率変数$X+X^2$といった期待値を扱う場合も多くあります。

先ほどの期待値の例を拡張して、確率変数$X$の関数系の期待値について考えていきましょう。

実は、確率変数の期待値の一般的な表現は次にようになっています。

確率変数の期待値の定義

確率変数$X$において、その確率変数の値$x$の関数$f(x)$の、確率分布p(x)のもとでの平均値を、f(x)の期待値$\mathbb{E}[f]$と呼び、下記のように定義する。

\begin{equation} \mathbb{E} [f ] = \sum_x p(x ) f(x) \end{equation}

\begin{equation} \mathbb{E} [f ] = \int p(x ) f(x) dx \end{equation}

(3)式と(4)式が、確率分布の期待値を一般化したものです。