2種類の標準偏差
ネット上で統計学について解説するWebページが多いことは、”統計学に弱い人”が多いことの裏付けでもあろう。
しかし、統計学の入り口で、すぐに突き当たってしまう。初級概念である標準偏差に2つの(形の)式が現れることだ。
多くのページでは、この2種類の式の一方を紹介するだけで、他方に触れることがないから、別のWebページに行くと、
自分が教わった標準偏差が間違いではないかと不安になってしまう。
その原因は別のページに記載するとして、ここでは2つの式を示し、意味と用途について記述する。
上の図の左、数式の分母にnが現れるのを
「標準偏差」
Excel関数で STDEV.P standard deviation of population
上の図の右、数式の分母にn-1が現れるのを (ここでは)
「不偏標準偏差」
Excel関数で STDEV.S standard deviation of sample
この2種類の標準偏差は 目的によって使い分けることが必要
左の標準偏差は データ集合体の、平均値からのバラツキを示す
右の不偏標準偏差は データから導き出される(推定値である)平均値の(真の値からの)バラツキを示す。
標本(サンプル)から母集団を推定する場合には不偏標準偏差を使用する。
また、実験科学の目的は、真の姿の追及であるから、不偏標準偏差を使わなければいけないことが多い。
具体的な例を1つ示したい。
私は実験者として活躍していた頃に、自分の実験技法がどの程度揺らぐのか、反対に言えば安定しているかを計るために、
メスピペット(ガラス管で目盛りがついている実験器具)で水を吸い、吐き出してから水の重さを測定(=秤量)することを繰り返し、
そのデータから平均値を計算した。この時の、自分の技量の安定性・不安定性を示す指標は標準偏差である。
一方、全く同じ操作をしたとしても、その目的が “メモリが正しいのか否か(校正)”であれば、不偏標準偏差を求めなくてはならない。
なぜこのように意味が違い、使用目的も違うのに、同じ名前を使用しているのか、原因について考える。
次のページに続く
また、このような理由から、統計初心者はこの2つを比較して記述するようなWebページを参照されるよう、お勧めしたい。