バナー 老科学者の繰り言 論理と科学を語る

トップ 数値の表現 科学と論理 科学の周辺 番 外 プロフィール




毎月勤労統計調査の統計学

東京都における約1000大規模事業所の脱落の影響0.6はウエイトシフトから導かれた値と推定する

2018年1月11日、厚労省は、東京都における500人以上規模の事業所について全数調査すべきところ、平成16年以降約3分の1しか調査してこなかったことを正式に認め謝罪した。 また、「平成16年以降平成29年まで、東京都と他の道府県が異なる抽出率となっており、必要な復元が行われていない」とも合わせて発表した。
その直後からマスコミ等で、東京都の企業は“高給取り”だから、その脱落によって全国平均給与額が低めに発表されているという声が上がり、政府は素早く対応して、0.6という数字をはじき出し、 すでに組まれた平成31年度予算案を組み替え、約500億円を影響を受けた延べ2000万人に約200億円の費用をかけて追加支給すると早々に発表した。

私はこの報道を受け、大変奇異に感じた。確かにマスコミ等がいうとおり、東京都の企業は“高給取り”だろうからその可能性を否定するものではない。しかし、厚労省はこれらの約1000事業所を やがて調査するとは言っているものの、未だ調査に着手したとの報道も無い。にもかかわらず、早々と0.6という数字が出てきているのに驚かざるを得なかった。なお付け加えると、現在に至るまで、 この0.6という数字が全国平均給与額の0.6%なのか、指数化指標の0.6増なのかは明確にされていない。しかし指数化指標は平成27年(2015年)を100として基準化されているので どちらにしても大差ない。(注1)

平均値の一致性、中心極限定理で導かれる数値

次のような思考を行った。まず、現在の毎勤調査原表の構造を前提に考える(注2)。そこでA群から1000事業所を抜き去ったらどうなるか?
統計学の知見から、ある平均値xを持つ集団から任意のn個をランダム抽出した場合、nのサイズが大きくなれば抽出サンプルの平均値はxとなる。 このことは平均値の一致性あるいは中心極限定理 central limit theorem から導かれる(注4)。多くの統計学の解説書では“nを大きくすると“ という表現が使用されているが、これは統計学的には”nを一定にして、繰り返し抽出を行い、平均値の平均値を計算すること”と等価である。つまり、平均給与額30万円の集団(A群)から1000事業所をランダムに抜き去っても、その抽出された集団も残った集団も、平均給与額は30万円である。もちろん統計学的思考であり、nは充分に大きくなくてはならない。

事業所規模を推定する

脱落した約1000の事業所の規模、つまり、その事業所の労働者数は(平均)何人だろうか?
毎勤調査のマスター表である平成26年経済センサスによれば、500人以上の事業所数は5128で労働者数は5,646,654人、つまり平均1101人である。 下限は500人であるから、500から値を順に大きくし、下落率を回復させる率(数字のマジックとして別ページに紹介)として0.6を与える事業所規模を Excelで計算した。結果750人、つまり75万人をA群に追加すると全国平均給与額を0.6引き上げることができることが判かった。これはウエイトシフトによる増加効果であって、A群の平均給与額を引き上げた結果ではない。

750人というのは実に良い数字である。別ページに記載したように、毎勤のような対象集団に対して層化抽出法を行う場合に最上位層問題がある。 したがって、一番簡単な説明は、500人以上のA群の東京都分については1000人で線引きし、上は全数調査、下はランダム抽出としたと推定することは考え易い。500人から999人区分で均一分布していたら、 脱落させた事業所の平均労働者数は750人、もし右肩下がりならば750人をやや下回ることになるだろう。しかし、ここで少し矛盾がある。上記の経済センサスでは500人から999人と 1000人以上とが区分されて提示されており、前者には3428事業所しか無いのである。東京都分は全国の20%程度であるから約700事業所しか存在しないので、そこから約1000事業所を外すことは不可能である。そこで、もし単純に線引きして上は全数調査、下はランダム抽出としたと仮定すると、1200人から1400人の間の、切りの良い数字で線を引き、さらに産業区分によって少数の事業所しか存在しない産業では下限まで拾う という作業を行ったのではないかと推定する。

一方、厚労省はこの“脱落事業所”、つまり調査しなかった事業所の具体名、産業区分を知っているはずである。それらの事業所の(現在の)平均給与額は不明ではあっても、 労働者数は経済センサスによって一定精度で把握できるはずである。したがって、そうした方法によって脱落労働者数を約75万人と計算し、私と同じくウエイトシフトによって0.6を導き出したのではないかと推測する。
要約すると、私は厚労省の発表に合わせて75万人を導き出したが、厚労省はもう少し確かな情報を基に約75万と推定した。 いずれにせよ0.6上昇はウエイトシフト(効果)によるもので、東京都企業が“高給取り”ということに基づくものではない。 実際、毎勤調査ではA群事業所でも産業区分によって平均給与額は相当大きく異なることは明らかである。 所定内給与に限っても、各種サービス業の10万円台から電気ガス業の40万円台まで大きな開きがある。今後実際に東京都でも全数調査が進んだ時、果たしてどのような結果になるのか、厚労省の説明が待たれる。

全数調査の意味

回収率と抽出率のページに記載したように、”全数調査”は全数、つまり対象事業所の全部に調査を依頼することを意味し、その全事業所から回答を得て、さらには、 そのカバーする全労働者を計算に加えていることを意味しない。
回収率は高い方が好ましい。推定する平均給与額の精度向上に役立つ。しかし、100%達成はこの種の調査では困難だろう。問題の本質は、A群の推定労働者数が産業別に積み上げられた “計算実算入労働者数”そのものであるか否か という点である。厚労省は、A群について常に抽出(比)率は1であるという。それは表向きのことで、産業別に積み上げられる全過程で1iではない抽出(比)率を適用してはいないだろうか。もし一部にでも1ではない抽出(比)率を適用していたら、本ページの理論は成り立たなくなる。 つまり、0.6という数字の根拠を失うのだ。この点こそ、今回の毎勤統計調査を統計学の視点から解き明かす重要なポイントの一つと考える。

再集計版での労働者数の差

私が本ページに記載した推論を行ったのは1月中下旬である。そのころ既に”再集計”版が公表されていたと思うが、私がその再集計版の労働者数を解析したのは2月中旬以降であった。 再集計版の内部構造については別に記載するが、A群において、2016年70万人増、2017年84万人増、2018年33万人増となっている。私の推定75万人は相当に一致する。また、2018年で増加幅が減少しているのは、脱落分をすでに相当程度組み入れていることを示唆する。厚労省は明確にしていないけれども。