
統計学の基本中の基本は平均と、この分散。
分散の理解には平均の理解が前提になる。
前提知識
・平均
分散とは
分散とは、イメージとしては「散らばり具合」。名前そのまんま。
具体的には、「平均からの離れ具合の平均」。
たとえばこんなふうにコップに入った水の量を比べる。
赤い線が平均とする。
赤い平均の線と水面の距離が、オレンジの矢印。
このオレンジの矢印の長さの平均が、分散。おおざっぱにいうとね(厳密にいえば、これは平均偏差)。
分散を求める
偏差
さっきのコップの例で、分散を実際に求める。
水の量をそれぞれ10、2、3とする。すると、平均は5になる。
コップごとに、水の量と平均の差(離れ具合)を求める。
一般的にいえばこういうこと。
これを偏差という。

偏差の平均
分散を求めるというのは、つまりこの偏差の平均を求めたいということ。
じゃあ今回はこうすればよい?
これだと、正の値と負の値で打ち消しあってしまって、「平均からの離れ具合」という趣旨からずれてしまう。
上に大きく離れたサンプルがあっても、そのぶん下に大きく離れたサンプルがあれば「散らばっていない」となるのはおかしい。それは「散らばっている」はず。
ついに分散
この問題を解消するのは簡単。マイナスの符号をとってしまえばいい。そのために、すべての偏差を2乗してから平均を求める。
これが、分散。今回は
一般化するとこう書ける。
分散
マイナスをとりたいだけなら2乗せずとも絶対値でよいのでは?と思われるかもしれないが、それは後ほど。
分散の表記
上で求めたように、分散は偏差の2乗を平均したもの。
なので、分散はこう表記する。
標準偏差
分散がなら、
、つまり
もある。これを標準偏差という。
そもそも、「平均からの離れ具合の平均」を求めたいのだった。なので、2乗で大きくふくらんでしまった分を元に戻した標準偏差の方が感覚的に近い。
たとえば、あるサンプルの偏差が だったら、そのサンプルは平均的な離れ具合よりおよそ1.2倍離れているとわかる。
平均偏差
しかしながら標準偏差はそのまま「平均からの離れ具合の平均」ではない。計算してもらえばわかるが、2乗を足し合わせておいて最後ににいれても、マイナスを除去しただけ、ということにはならない。
なので最初から2乗でなく絶対値を足し合わせる方法がある。こうして求めたものを平均偏差という。偏差の平均だからそのままの名前。
これならちょうど「平均からの離れ具合の平均」になる。
しかし平均偏差はあまり使われない。理由は扱いにくいから。絶対値は扱いにくい。