バナー 老科学者の繰り言 論理と科学を語る

トップ 数値の表現 科学と論理 科学の周辺 番 外 プロフィール




毎月勤労統計調査の統計学

層化抽出法

統計用語 層化抽出法 stratified random sampling
対象集団を区分して、それぞれのグループ(群、特に「層化抽出法」では「層」と呼ぶ stratum 複数形 strata)について統計処理を行い、その後、総合して母集団を推定する方法。

対象集団が、調査対象項目について”均質”であると予想される場合には、対象集団全体に対して無作為抽出(ランダム抽出 random sampling)を行えばよい。 均質でないと予想される場合には、それぞれの群の特性を明らかにするという目的のために区分して調査する方法が選択される。さらなる情報は適切な資料あるいはWebサイトを参照されたい。

基本的な考えは、何を目的として統計を実行するのか、という目的意識を持つこと。また、対象集団の特性に合わせて実施するという、統計の原則を理解することが必要である。 つまり、統計調査の目的と対象集団の構造によって層化抽出法が選択される。

毎月勤労統計調査で層化抽出法が選択される理由

1)全国の労働者数の推定 および 労働者の平均給与 の推定という2つの目的がある。
2)大企業の賃金は相対的に高く、小企業の賃金は相対的に低いということがある。このこと自身検証される必要があるが、例えば前月の毎勤調査でも明らかであるから、“自明”であるといってよかろう。 またこの点は多くの人々のコンセンサスでもある。
3)毎勤調査で層化抽出法が使用される本質的な理由は、大規模事業所は数の点では少数であるが、そこには多数の労働者がいるという事実に基づく。 つまり、対象集団の構造が大変に不均質であるので、できるだけ均質な集団に小分けするのである。全国に約150万~180万あると推定される事業所に対し、500人以上の規模の事業所は 約5000である。すなわち0.3%の割合(ここで「確率」と言ってはいけない)である。それらの大規模事業所には約11%の労働者が存在する。このような“特異な”あるいは“いびつな”構造を持つ場合、 対象集団を一括して(分割しないで)ランダム抽出するとすれば、大事業者にヒットする確率はP=0.003 であるから、約3000サンプル(標本)を選択(抽出)して、1事業所が選択されるか否かである。

説明はここで2手に分かれる。大事業所についてもそれなりの数を調べたいから、サンプル数を大きくする必要がある。そうすると、それに伴い多数の小・中事業所が集まることになるが、それらについては充分な精度で解析できるだけの数が 既に集まっている。したがってコストパフォーマンスの点で効率が悪いことになる。
もう1つの説明方法として、対象集団全体に対し、0.3%という低確率事象を安定的に把握するにはどうしたらよいのか、という発想に基づいて、区分して抽出するという手段が選択されていると説明することができる。
低確率事象の安定的な把握という概念は、科学が教える基本概念である。こうした基盤basic knowledgeから物事を考える素養を持ってほしい。筆者の願望である。

層化抽出法における最上位層の問題

毎月勤労統計調査(以下 毎勤)で、500人以上の大規模事業所が”全数調査”となっているのに対して、大規模事業所・東京都区分で約1500事業所中500事業所のみを調査していた という事実が発覚して、毎勤統計不正問題が持ち上がった。このとき、規則違反を指摘し、糾弾する行為は活発であるのに対し、なぜそのような規則が設定されているのか、ということに思いを馳せる人は 皆無であったと思う。規則、規則と言って、その規則の基盤から理解しようとしない現代のありかたに、思考力低下を憂える。

毎勤統計における層化抽出法の最上位層は 事業所規模500人以上とされている。ただし、毎勤原表では 500人から999人と、1000人以上とに区分して表示され、それらの集計行として500人以上の 行が存在する。

この最上位層には、事業規模15,000以上の事業所が存在するようだ。たとえば  平成29年賃金構造基本統計調査 産業、 事業所規模別母集団数、標本数、回収率等。 他の資料では、12,000人以上、あるいは10,000以上の区分で記載さrていて、実際の事業所規模は不明だが1万人以上の規模の 事業所が少数あることは確実だ。

この1万人は、毎勤最上位層の下限である500人の20倍である。もし、最上位層についてもランダム抽出を行うと、そのような巨大事業所が、場合により調査に組み入れられたり、 あるいは組み入れられなかったりする。すると、(少なくとも労働者数についての)結果が振れることになる、つまり、調査が不安定になり、結果の精度が悪くなる。 このように、結果に大きく影響を与える存在は、SNSにおけるインフルエンサー的な存在といえる。(注4)
多くの人は、ランダム抽出こそ公平?と思っているようだが、実は逆で、このような場合、”インフルエンサー”を積極的/意図的に取り込んでおく方が統計結果の精度が高くなるのだ。

このことは案外、自然科学分野の研究者は知らないようだ。たとえば、年齢とか、身長などで層化(区分)したとして、最上位層の、いや平均の20倍などということはあり得ない。 上限下限はおのずから限定的である。また、自然科学分野では、サイズが極端に違うもの(たとえば天体分野)を対象に統計処理を行う時には対数変換をしてから処理御行うことが普通である。 一方、経済分野は、いわば多数の一般大衆に、もちろん最下層と中間層は存在するが、数的に稀な超富裕層というべき存在がある “いびつな” 構造である。 したがって、経済分野の統計には、このような最上位層における”インフルエンサー”となる特別な存在に注意を払うことが普通に行われる。