simonの開発日記

文系が数学や統計学に挑む

「分布」を考える

f:id:simonsnote:20171031171609p:plain:w400


前提知識

平均
分散

分布ってなんだ

「分布」というと、どんなものを思い浮かべるだろう?

ポケモンずかんには、ポケモンごとにせいそくちの「分布」が載っていた。

「分布」を辞書で引いてみた。

分かれてあちこちにあること。(スーパー大辞林3.0)

なるほど、こういうイメージだ。

f:id:simonsnote:20171031170809p:plain:w400

これは位置を表すのに2つの値が必要な、つまり2次元の分布といえる。

f:id:simonsnote:20171031154824p:plain:w400

単純化のために1次元の分布を考えると、こんなかんじになる。
f:id:simonsnote:20171031154941p:plain

1次元の分布を考える

1次元の分布として、「テストの点数の分布」を考える。

あるテストを7人が受けたとき、点数の分布はこんなかんじで、A君の点数は82点だった。
f:id:simonsnote:20171031155450p:plain

これがもし、200人がこのテストを受けていたらこんなかんじになる(青い点の数は200もないが、200あることにしてください)。
f:id:simonsnote:20171031155629p:plain

そう。200人も同じテストを受けていれば、同じ点数の人が複数いることもあるだろう。82点をとった人はA君含め2人いる。

この青い点は分布そのものなわけだが、「何点を取った人は何人いる」ということを表す山になっている。この山の形をグリーンの点線でかたどる。
f:id:simonsnote:20171031160625p:plain

こうなる。
f:id:simonsnote:20171031160746p:plain

「点数」と「人数」の2次元に

このグリーンの線は「なめらかな線」だから、関数であらわしたい。
f:id:simonsnote:20171031160907p:plain

この関数はつまり x 軸に「点数」、 y 軸に「人数」をとった2次元の関数だ。
f:id:simonsnote:20171031161056p:plain

この関数が得られれば、たとえば「37点の人は何人?」とか「90点以上の人は全体の何%?」という計算がすぐできるし、その他いろいろ統計的な分析ができる。

確率密度関数

このグリーンの線をあらわす関数を確率密度関数(Probability Density Function, PDF)という。

この関数は、毎回分布をプロットしてから計算で出すものではない。
そうではなく、「代表的な分布」というのがひな型で何種類か用意されているので、今回の分布はそのどれに近いかな?という当てはめ方をする。
(もちろん、なんとなく見た目がこれに似てる、とかいうだけでなく、条件をあてて判定する。)

そして、たとえば今回の分布は正規分布を当てはめてよいだろう、となれば、
今回の分布は正規分布に従うという表現をする。そして、それ以降はその分布を正規分布として扱う。

いろいろな分布とその確率密度関数

正規分布

もっとも基本的な分布が、この正規分布(Normal Distribution)。

f:id:simonsnote:20171031164027p:plain:w300
たとえばテストの点数の分布はだいたいこの正規分布に従うとされている。偏差値というのもそれを前提に計算される。

確率密度関数は以下。

サンプルの取り得る値を x 、平均を \mu 、分散を \sigma^2 とすると、
\displaystyle pdf(x\,|\,\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

ほかの分布

coming soon...


累積分布関数

サンプルの値がある値以下をとる確率を表す関数を累積分布関数(Cumulative Distribution Function, CDF)という。

たとえば CDF(x) とは、そのまま「サンプルの値が x 以下となる確率」になる。

f:id:simonsnote:20171031215302p:plain:w400
定義はこうなる。

定義:累積分布関数 \displaystyle CDF(x)=\int_{-\infty}^x pdf(x)dx