平均値は 普通の人が思う以上に大きな意味を持つ
統計における代表値
統計における代表値とは、数値情報(数値データ)の集合全体の性質を要約して表す値のことで、 平均値 meanまたはaverage (value) が最もなじみある用語(概念)である。 統計代表値として、他に 中央値や最頻値などがある。
平均値にも各種あり、最も普通に使われる計算方法、つまり、
各データの値を加算してその合計値(総和)をデータの数で割る方法を、算術平均、あるいは
相加平均 arithmetic mean という。
その他に、相乗平均、調和平均 などがある。
平均値は 一致性 不偏性を持つ
平均値は普通の人が思っている概念以上に大きな意味を持つ。 それは、平均値は 「一致性」「不偏性」を有するということ。 つまり(標準偏差の場合と異なり)「平均値」=「不偏平均値」であるが、平均値は「一致性」を持つゆえに わざわざ“不偏”を冠して記述されることはない。
「一致性」とは、ある集団が平均値mを持つ場合、例えば、平均給与額が30万円だとしよう、
その集団からランダムに(無作為に)n個抜き取って平均給与額を調べると
、”nのサイズが大きくなる”と、その部分集団の平均給与額は30万円となることを意味する。
これは 大数の法則 Law of Large Numbers、あるいは 中心極限定理 central limit theorem から
導かれる。というより、定理そのものであるのだ。
数学あるいは統計学では、単に”nのサイズが大きくなると”としか記さされていないことが多いが、 このことは、nのサイズが一定でも、繰り返し行い、得られた平均値を(さらに)平均すると、と置き換えることができる。
一方、無作為抽出された標本について平均値を求め、それに基づいて母集団の平均値を推定する際に、 実際には、標本の平均値が母集団の平均値と一致すると仮定してしまっている。 真の値である母集団の平均値、これは誰もわからない。したがって、母集団の平均値、 つまり母平均は、推定値との誤差を論じるためにあるようなものだ。
このようなことはさておいて、統計代表値を正しく解釈するためには、 数値データの分布 (散らばり具合) に注意する必要がある。最もわかりやすいのは、 具体的に値をグラフ用紙にプロットして分布を見るのが良い。
たとえば、マスコミが報道する政治家の資産の平均値は時に高い値を示すことがある。 これは少数の政治家が極端に多額の資産を保有する場合、平均値が上がる。 一般には、「押上げ」 と言われることが多いが、私は引っ張り上げ効果と呼びたい。 それに対して、多数の者の影響で上がる効果を、押上げ効果と呼びたい。
平均値がしばしば、このような”引っ張り上げ”効果の影響を受けることはずいぶんと浸透してきて、 特に若い世代の平均貯蓄額などについて、むしろ中央値を見るべきだと説明するフィナンシャルプラナーが 増えてきたことは大変に望ましいことだ。
統計において、条件を変えれば (ある意味)どんな数字でも出せる。
政治家の資産集計において 負債をマイナス値で加えることにしたら、
ある政党は借金王をリクルートし、当選させる。そうすれば その政党の平均資産額は大きく減少し、
あるいはマイナス値になる可能性すらある。