確率変数の共分散(covariance)とは、2つの確率変数$X$、$Y$が存在した時に、これらの2つの値がどのように変動したかを示す量となっています。
例えば、確率変数 $X$、$Y$から同時にある値$x$、$y$を取り出すときに、$x$が大きいとき、$y$も大きく、$x$が小さいとき$y$も小さくなるような挙動をしているとき、これらの2つの確率変数は相関があるといい、このような時は共分散が大きくなります。
今回は、統計や機械学習の分野で頻繁に登場する、この共分散について解説していきます。またよく、教科書等で登場する、相関係数との違いについても説明をしていきます。
- 共分散の定義
- 今日分散に成り立つ性質や公式
- 相関係数と共分散の関係式について
共分散の定義
まず、共分散の定義を提示します。先ほど共分散は、2つの確率変数がどのように変動するかを示す値と書きましたが、確率変数を$X$、$Y$とすると、共分散は$Cov(x, y)$, $\sigma_{xy}$ や、$s_{xy}$という記号で記述することが多いです。
さて、その共分散は次のように定義される統計量となっています。
\begin{equation} \begin{split} \sigma_{xy} &= Cov(X, Y) \\&= \frac{1}{N} \sum_{n=1}^{N}( x_n-E[X])(y_n - E[Y]) \end{split} \end{equation}
ここで、$E[X]$、$E[Y]$は、確率変数$X$, $Y$の期待値を示しています。通常は、$X$と$Y$の平均値が期待値と一致します。
手元にあるデータが2つ以上の系列から構成されているとき、任意の2つの変数を取ってきて、(1)の計算をしてあげることで、これらの2つの変数間の共分散を計算することができます。
共分散の性質
続いて、共分散の性質についてです。
共分散については、次の定質が成り立ちます。
\begin{equation} \begin{split} \sigma_{xy} = E[XY] - E[X]E[Y] \end{split} \end{equation}
この公式は非常によく登場するので、覚えておくと良いでしょう。
つまり、(1)式の計算をしなくても、$XY$の平均と$X$と$Y$のそれぞれの平均がわかっている場合は、これらの共分散を計算することができるということになりまうs。
共分散と相関係数との関係性
よく、データ分析をする際には、ピアソンの相関係数というような統計量を扱うことがあります。
ピアソンの相関係数は、共分散の値から、$X$と$X$の分散の値で割った値となっています。ピアソンの相関係数の式は次のようになっています。
\begin{equation} \rho = \frac{COV(X, Y)}{\sigma_x \sigma_y} \end{equation}
ピアソンの相関係数は、共分散の値から$X$と$Y$の分散値で割った値となっています。
これはデータの単位などが異なるデータ間で共分散の値を比較しても、単位が異なっており意味を成しませんが、それぞれの分散で割ってあげることで、規格化することで、他の共分散の値と比較することができるためです。
ピアソンの相関係数の値は、-1 ~ 1の範囲をとり、1に近づくほと正の相関があるといい、逆に-1に近づくほど、負の相関が高くなるというふうに言います。