正規分布とは?正規分布の定義やグラフの見方を徹底解説

Posted: , Category: 確率 , 確率分布 , 統計学

正規分布は、機械学習分野において、多くの確率モデルで前提となっている確率密度関数です。その利用範囲は膨大と言ってよく、まず統計や機械学習を勉強する、どの教科書でも最初の一歩に正規分布(正規分布の1次元バージョン)が登場するほどです。

今回は正規分布における確率密度関数の定義式や、正規分布の見方なども紹介します。

正規分布自体は平均と分散の2つの変数によって1つに定まる関数ですが、これらのパラメータの違いによってグラフの形式がどのように変わるかを押さえましょう。

機械学習や統計の分野ではたくさんの確率分布が登場しますが、その性質を一つ一つ丁寧に抑えていくことが非常に重要です。

本記事の内容
  • 正規分布の重要性を解説
  • 正規分布の確率密度関数の定義
  • 正規分布のグラフ(図形)の見方を解説

正規分布がなぜここまで利用されているか

正規分布はご存知のように、下記のような一つの山をもつ確率密度関数です。富士山のような形をしています。

正規分布が広く利用されている点として、現実世界の確率的な揺らぎや工場における製品のばらつきが、わりに正規分布でよく表現できるという経験則があるという側面があります。

また、もう一つの側面として、正規分布のグラフを見るとわかるように、山が一つだけある単峰性の性質から扱いやすいという特徴もあります。

確率密度関数の定義はこのようになっています。

正規分布の定義
\begin{equation}
\mathcal{N}(x | \sigma, μ ) = \frac {1}{\sqrt{2 \pi \sigma^2}} exp \left\{- \frac{(x - μ)^2}{2 \sigma^2}\right\}
\end{equation}

ここで日本人の平均身長 height のような分布を正規分布で表してみましょう。

例えば、日本人の平均身長が171cmでその分散が10だとすると、各パラーメータは$μ = 171, \sigma^2 = 10$ ののようになり、正規分布はこのように表現できます。

height \sim \mathcal{N}(171, 10)

ちなみに、この関数は曲線の下側の面積が1になっており、このような関数をPDF(確率密度関数)と呼ばれています。

ちなみに、この正規分布の裾野は、$-\nfin ~ \nfin$の間になっています。

しかし実際の身長はマイナス値にもなることもないし、人間の認証であれば数cmとなることもないですよね。実際正規分布のモデル化においては、このようなモデル化による誤差は致し方ないという前提になっています。

また冒頭の方で、正規分布は現実を非常によく模していると書きましたが、モデル化したことでこのような現実にはあり得ない設定になってしまうことはモデル化においては往々にあることは留意しておく必要があります。

正規分布の確率密度関数の図形の見方・読み方

こちらの確率密度関数のグラフの再掲になるが、例えばこのグラフを見て、身長がちょうど、170.0cm になるような確率はいくつになると言えるでしょうか。

おおよそ、170cmの時の縦軸を読み取ると、0.12 %くらいと読めそうです。

しかし、これは実際には正しくありません。正規分布のグラフは確率密度関数の表現であり、確率関数ではありません。

どういうことかというと、縦軸は確率密度を示しており、積分の操作をすることで、実際の確率を読み取ることができるものとなっています。この辺りは、確率密度関数の記事で説明しますが、確率密度関数から実際の確率値を読み取る場合は、横軸上に2点を選択し、これらから引くことができる垂直な直線と、確率密度関数の曲線が囲む面積を計算することで、実際の確率を得ることができるようになっています。

少し難しい話なので、飛ばしても大丈夫です。

正規分布のメリットや利点

先ほど、日本人の平均身長heightを下記のような正規分布を用いて示しました。

height ∼ \mathcal{N}(171, 10)

このように、全日本人の身長を平均と分散というった2つのパラメータでしめることができるのが、正規分布の強みです。本来であれば日本人は1億人以上いるので、そのデータを正確に示そうとすると1億点のデータ点数がいるものの、正規分布を用いてデータを表現することで、データの正確性はある程度減ってしまうものの、平均と分散という2つの数字で多くのデータを表現することができるようになっています。

正規分布の分散の値によって¥グラフの形状がどう変化するか

正規分布を可視化するために、分散の値を4種類変更してみて、可視化したのが上のグラフです。

ざっと正規分布のグラフを確認すると、$\sigma$が大きいほど正規分布のグラフは高さが出ずにのっぺりしています。一方で、分散が小さいほど、正規分布の形は鋭く尖っているような形状になっています。

つまり分散が小さいほど、データの散らばりが低いということなので、データに対する確信度が高いことを示しています。

【広告】
統計学的にあなたの悩みを解決します。
仕事やプライベートでお悩みの方は、ベテラン占い師 蓮若菜にご相談ください。

機械学習と情報技術