【確率統計】確率変数の共分散とは?定義や公式や共分散の意味を解説

Posted: , Category: 確率 , 統計学

確率変数の共分散(covariance)とは、2つの確率変数$X$、$Y$が存在した時に、これらの2つの値がどのように変動したかを示す量となっています。

例えば、確率変数 $X$、$Y$から同時にある値$x$、$y$を取り出すときに、$x$が大きいとき、$y$も大きく、$x$が小さいとき$y$も小さくなるような挙動をしているとき、これらの2つの確率変数は相関があるといい、このような時は共分散が大きくなります。

今回は、統計や機械学習の分野で頻繁に登場する、この共分散について解説していきます。またよく、教科書等で登場する、相関係数との違いについても説明をしていきます。

本記事の内容
  • 共分散の定義
  • 今日分散に成り立つ性質や公式
  • 相関係数と共分散の関係式について

共分散の定義

まず、共分散の定義を提示します。先ほど共分散は、2つの確率変数がどのように変動するかを示す値と書きましたが、確率変数を$X$、$Y$とすると、共分散は$Cov(x, y)$, $\sigma_{xy}$ や、$s_{xy}$という記号で記述することが多いです。

さて、その共分散は次のように定義される統計量となっています。

共分散の定義
\begin{equation}
\begin{split}
\sigma_{xy} &= Cov(X, Y)  \\&= \frac{1}{N} \sum_{n=1}^{N}( x_n-E[X])(y_n - E[Y])
\end{split}
\end{equation}

ここで、$E[X]$、$E[Y]$は、確率変数$X$, $Y$の期待値を示しています。通常は、$X$と$Y$の平均値が期待値と一致します。

手元にあるデータが2つ以上の系列から構成されているとき、任意の2つの変数を取ってきて、(1)の計算をしてあげることで、これらの2つの変数間の共分散を計算することができます。

共分散の性質

続いて、共分散の性質についてです。

共分散については、次の定質が成り立ちます。

定理・公式
\begin{equation}
\begin{split}
\sigma_{xy} = E[XY] - E[X]E[Y] 
\end{split}
\end{equation}

この公式は非常によく登場するので、覚えておくと良いでしょう。

つまり、(1)式の計算をしなくても、$XY$の平均と$X$と$Y$のそれぞれの平均がわかっている場合は、これらの共分散を計算することができるということになりまうs。

共分散と相関係数との関係性

よく、データ分析をする際には、ピアソンの相関係数というような統計量を扱うことがあります。

ピアソンの相関係数は、共分散の値から、$X$と$X$の分散の値で割った値となっています。ピアソンの相関係数の式は次のようになっています。

ピアソンの相関係数の公式
\begin{equation}
\rho = \frac{COV(X, Y)}{\sigma_x \sigma_y}
\end{equation}

ピアソンの相関係数は、共分散の値から$X$と$Y$の分散値で割った値となっています。

これはデータの単位などが異なるデータ間で共分散の値を比較しても、単位が異なっており意味を成しませんが、それぞれの分散で割ってあげることで、規格化することで、他の共分散の値と比較することができるためです。

ピアソンの相関係数の値は、-1 ~ 1の範囲をとり、1に近づくほと正の相関があるといい、逆に-1に近づくほど、負の相関が高くなるというふうに言います。

【広告】
統計学的にあなたの悩みを解決します。
仕事やプライベートでお悩みの方は、ベテラン占い師 蓮若菜にご相談ください。

機械学習と情報技術