simonの開発日記

文系が数学や統計学に挑む

正規分布とは

f:id:simonsnote:20171031171609p:plain:w300


前提知識

平均
分散
分布

正規分布とは

正規分布は、統計学でもっとも基本的な分布。この世界のいろいろなこと、たとえば人間の身長の分布とかテストの点数の分布などは正規分布に従うとされている。
見た目はこんなかんじで、左右対称。

f:id:simonsnote:20171031164027p:plain:w300
正規分布のグラフ(pdf)

別名

そもそもこの正規分布、もともとは科学実験における誤差が取る値の分布として導かれたもの。なので「誤差分布(Error Distribution)」ともいう。
また数学者ガウス(Johann Carl Friedrich Gauss(1777-1855))にちなんで「ガウス分布」ともいう。(しかし最初にこの式を書いたのはド・モアブル(Abraham de Moivre, 1667-1754)らしい)

正規分布の特徴

ある分布が正規分布に従うかの判断基準はいくつかあるが、代表的なものが以下。
・平均値を中心に左右対称
平均値と中央値と最頻値が重なる。
・平均値から \pm 1\sigma の間に約68%、 \pm 2\sigma の間に約95%、 \pm 3\sigma の間に約99%のサンプルが収まる。

正規分布の導出

こちらのページで導出をしているので、興味のある方はどうぞ。
ガウス分布の導出

正規分布の関数

確率密度関数

正規分布(Normal Distribution)の確率密度関数(PDF)はこのようになる。

サンプルの取り得る値を x 、平均を \mu 、分散を \sigma^2 とすると、

\displaystyle pdf_{ND}(x\,|\,\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

累積分布関数

累積分布関数(CDF)は定義のまま計算してもよいが、誤差関数で表すこともできる。

平均を \mu 、分散を \sigma^2 とすると、

 \begin{eqnarray}\displaystyle CDF_{ND}(a\,|\,\mu,\sigma^2)&=&\int_{-\infty}^a\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\\\\
&=&\frac{1}{2}\  +\  \frac{\sigma}{2}\, erf(\frac{\frac{a-\mu}{\sigma}}{\sqrt{2}})\end{eqnarray}

モーメント母関数

coming soon...

標準正規分布

正規分布を扱う上で、平均や分散がどんな値であっても扱い方に変わりはない。なので、平均を0分散を1として扱いやすくする。これを標準化(もしくは基準化, standardize)といって、標準化した正規分布を標準正規分布(Standard Normal Distribution)という。いったん標準化していろいろ計算したあとで元に戻すのがメジャーなやり方。

確率密度関数

PDFは単純に平均を0、分散を1に置き換えただけ。

サンプルの取り得る値を x とすると、

\displaystyle pdf_{SND}(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}

累積分布関数

CDFも同様。

 \begin{eqnarray}\displaystyle CDF_{SND}(a)&=&\int_{-\infty}^a\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx\\\\
&=&\frac{1}{2}\  +\  \frac{1}{2}\, erf(\frac{a}{\sqrt{2}})\end{eqnarray}

標準化の例題

例題:平均が70、分散が16の正規分布において、サンプルの値が78以上となる確率を求めよ。

そのまま \displaystyle \int_{78}^\infty \frac{1}{\sqrt{2\pi \times 4}}e^{-\frac{(x-70)^2}{2\times 16}}dx を計算しても解けるが、とても大変。

なので標準化する。

平均:70 → 0
分散:16 → 1
求める範囲:78以上 = 平均(70) + 8以上 → 平均(0) + \displaystyle \frac{8}{\sigma = 4} 以上 = 2 以上

つまり、標準化とはある値が平均よりも標準偏差の何倍離れているかを示すようにするということ。
今回の場合、78という値は70+8なので、平均よりも8上に離れている。標準偏差は4なので、平均よりも標準偏差の2倍だけ上に離れているといえる。
標準正規分布の分散は1、つまり標準偏差は1だから、2よりも上の値をとる確率を求めればいい。

f:id:simonsnote:20171101003642p:plain
よってこう求まる。

\displaystyle \int_{2}^\infty \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \fallingdotseq 2.28\%