確率変数における期待値と分散は機械学習や統計学を学ぶ上で、最も基本的な概念である。期待値については別の記事で解説しているので、今回は確率変数における分散について扱っていく。また注意して欲しいのは、今回扱っている分散はあくまで考えている確率変数における分散であり、背後に確率変数を考えていないような、単純なデータ列における分散ではないことに留意していただきたい。(このあたりがごっちゃになっている人は結構多いと思うので)
確率変数における分散の言葉の意味や解釈
まず、定義に入る前に、今導入しようとしている量である、確率変数の分散における言葉の意味を考えてみる。あとで出てくる定義式をじっくり眺めると理解できるのだが、この統計量は、確率変数$X$の取りうる値(標本値)が、期待値の周りにどの程度ばらついているかを示している。
確率変数における分散の定義
兎にも角にも、確率変数における分散の定義から説明していこう。確率変数$X$における分散は、$VAR(X)$のように分散の英語表記であるvarianceの頭文字のvarをとってこのように表現されその定義は下記のようになる。
\begin{equation} VAR(X) = E[(X- E[X])^2] \end{equation}
上式が最も、シンプルである。ここで、$E[X]$に関しては、確率変数における期待値であり、$E[X] = μ$とおくと、上式は、
VAR(X) = E[(X-μ)^2]
という風にも表すことができる。
この式を見ると、ある確率変数の取りうる値が、その期待値の周りにどの程度ばらついているかの量を示していることは理解できるだろう。ただ、上式を見ただけでパッとどのような統計量か理解するのは難しいと思う。なので、確率変数$X$が、離散確率分布だった場合と、連続確率変数だった場合で、どのような計算になるかをじっくり見てみよう。
離散確率変数における分散の定義式
離散確率分布における、標本とその取りうる確率が下記のように従っているとします。
$X$ | $x_1$ | $x_2$ | $x_3$ | $x_4$ | $ \dots$ | $x_{n-1}$ | $x_{n}$ |
$P(X)$ | $p_1$ | $p_2$ | $p_3$ | $p_4$ | $ \dots$ | $p_{n-1}$ | $p_{n}$ |
この時、確率変数$X$の期待値$E[X]$ を$μ$とすると、
\begin{equation} VAR(X) = \sum_{i=1}^n( x_i- μ)^2 p_i \end{equation}
となります。自分が今扱っている確率変数が離散確率変数だった場合、扱う確率変数が上記のようなものになることは必ず覚えておく必要性があります。
連続確率変数における分散の定義式
今回自分が扱っている確率変数が連続確率変数だった場合、期待値$VAR(X)$の計算式は下記にようになります。
\begin{equation} VAR(X) = \int_{- \infin}^{\infin} (x - μ)^2 f(x) dx \end{equation}
ここで、$f(x)$は確率密度関数になります。
よく参考書では、(1)のような形式で確率変数の分散の定義式が与えられ、頭の中が??ていっぱいになる人は多いと思います。しかし、自分が実際に扱っている確率変数が離散的なものなのか、連続的なのかをしっかり把握し、(2)や(3)式を実際にはイメージすることで、分散のイメージが理解できるのではないでしょうか。