simonの開発日記

文系が数学や統計学に挑む

分散とは

f:id:simonsnote:20171031004743p:plain:w300

統計学の基本中の基本は平均と、この分散。

分散の理解には平均の理解が前提になる。


前提知識

平均

分散とは

分散とは、イメージとしては「散らばり具合」。名前そのまんま。
具体的には、「平均からの離れ具合の平均」。

たとえばこんなふうにコップに入った水の量を比べる。
赤い線が平均とする。
f:id:simonsnote:20171031003514p:plain
赤い平均の線と水面の距離が、オレンジの矢印。
f:id:simonsnote:20171031003524p:plain
このオレンジの矢印の長さの平均が、分散。おおざっぱにいうとね(厳密にいえば、これは平均偏差)。


分散を求める

偏差

さっきのコップの例で、分散を実際に求める。
水の量をそれぞれ10、2、3とする。すると、平均は5になる。
f:id:simonsnote:20171031003549p:plain
コップごとに、水の量と平均の差(離れ具合)を求める。
f:id:simonsnote:20171031003601p:plain
一般的にいえばこういうこと。

サンプルの値 - 平均

これを偏差という。

偏差 = サンプルの値 - 平均
f:id:simonsnote:20171031003612p:plain

偏差の平均

分散を求めるというのは、つまりこの偏差の平均を求めたいということ。

じゃあ今回はこうすればよい?

\displaystyle \frac{5+(-3)+(-2)}{3}

これだと、正の値と負の値で打ち消しあってしまって、「平均からの離れ具合」という趣旨からずれてしまう。
上に大きく離れたサンプルがあっても、そのぶん下に大きく離れたサンプルがあれば「散らばっていない」となるのはおかしい。それは「散らばっている」はず。

ついに分散

この問題を解消するのは簡単。マイナスの符号をとってしまえばいい。そのために、すべての偏差を2乗してから平均を求める。

\displaystyle \frac{5^2+(-3)^2+(-2)^2}{3}

これが、分散。今回は

\displaystyle \frac{5^2+(-3)^2+(-2)^2}{3}=約12.7

一般化するとこう書ける。

サンプル数をnn番目の偏差を偏差_nとすると、

分散 \displaystyle =\frac{{偏差_1}^2+{偏差_2}^2+ \cdots +{偏差_n}^2}{n}

マイナスをとりたいだけなら2乗せずとも絶対値でよいのでは?と思われるかもしれないが、それは後ほど。

分散の表記

上で求めたように、分散は偏差の2乗を平均したもの

なので、分散はこう表記する。

分散:\displaystyle \sigma^2

標準偏差

分散が\displaystyle \sigma^2なら、\displaystyle \sigma、つまり\displaystyle \sqrt{\sigma^2}もある。これを標準偏差という。

標準偏差:\displaystyle \sigma = \sqrt{\sigma^2}

そもそも、「平均からの離れ具合の平均」を求めたいのだった。なので、2乗で大きくふくらんでしまった分を元に戻した標準偏差の方が感覚的に近い。

たとえば、あるサンプルの偏差が 1.2\sigma だったら、そのサンプルは平均的な離れ具合よりおよそ1.2倍離れているとわかる。

平均偏差

しかしながら標準偏差はそのまま「平均からの離れ具合の平均」ではない。計算してもらえばわかるが、2乗を足し合わせておいて最後に\displaystyle \sqrt{}にいれても、マイナスを除去しただけ、ということにはならない。

なので最初から2乗でなく絶対値を足し合わせる方法がある。こうして求めたものを平均偏差という。偏差の平均だからそのままの名前。

平均偏差 \displaystyle =\frac{|偏差_1|+|偏差_2|+ \cdots +|偏差_n|}{n}

これならちょうど「平均からの離れ具合の平均」になる。

しかし平均偏差はあまり使われない。理由は扱いにくいから。絶対値は扱いにくい。

散らばり具合の指標として

「平均からの離れ具合の平均」として、より正確なのは平均偏差。しかしその扱いにくさゆえ、統計学では分散標準偏差が「散らばり具合の指標」として用いられる。

これに問題はないのか。

ない。

そもそも、「散らばり具合の指標」がぴったり「平均からの離れ具合の平均」である必要はない。「散らばり具合に比例する数字」ならなんでもいいのだ。ただ、「平均からの離れ具合の平均」に近いほうが直感的にイメージしやすいというだけだ。

なので、統計学では扱いにくい平均偏差でなく分散標準偏差を「散らばり具合の指標」として採用している。

...と思う。