バナー 老科学者の繰り言 論理と科学を語る

トップ 数値の表現 科学と論理 科学の周辺 番 外 プロフィール




毎月勤労統計調査の統計学

 

雑感

私サイドの経緯

2019年初に(注1)、毎月勤労統計調査で”全数調査”すべき大規模事業所区分で、東京都の約3分の2を調査していなかった事実が発覚し、いわゆる”統計不正問題”が生じた。 この報道を受けた時に私は、「加重平均すべきところを」と なぜ言わないのか不思議に思った。加重平均は統計学の初級概念だと私は考えるが、多くの人にはなじみがないだろうから仕方が無いかな、と思っていた。 そのうちに「3倍に」がはやった。不思議なことに、この曖昧な日本語が通じてしまう。「何を」3倍にするのか明確でないままに。「ウエイトを3倍に」と表現することが正しいが、そもそも当初に「加重平均」 あるいは「重み/ウエイト概念」を導入していないのだからそう表現できない。一方で、「値(この場合、平均給与額を差す)を3倍にする」という間違った表現もほとんど使われなかった。 ただし、私がたまたま見ていたテレビのコメンテイターは「東京都の給与が30万円とすると90万円にして」と発言していた。統計学上まずい発言だと憂えていた。 このように初期の頃は、主として”用語”の問題としてしか捕らえていなかった。

1月中旬のある日、何かの用語で検索していた時に(具体的な用語は記憶に残っていない)、たまたま「賃金構造基本統計調査の改善に関するワーキンググループの報告書」(というより、 その検討会資料)に出会い、そこでは統計委員会から「回収率」を考慮した統計にするよう強く求められていることが記されていた。

そこで早速、毎勤原表を参照し、そこに記載されていた回収率を適用して計算してみたところ、全国平均給与額は4%程と大幅に低下することが判って、大変驚いた。 誤解の無いよう付け加えるが、現在の毎勤では回収率を織り込む形となっている(建前上だが)。また、回収率をいくつに設定するかによっても低下幅は異なる。 いずれにせよこの低下は、回収率が低いとされている比較的低賃金の群で労働者数が増加することに基づくウエイトの変化が原因となる。
次に、毎勤調査の数点、2017年12月と2018年1月、および高い伸びを示したとされる2018年6月とその1年前を調べてみたところ、労働者数が大きく変動していることがわかり、 今回の毎勤統計不正問題の統計学的視点における本質が判ってしまった。この原因がベンチマーク更新によるものだと知ったのはその数日後である。

その後は、この事実を公表すべきか否か、もしそうならばどのようにすべきかということを大いに悩んだ。国会では連日議論が続いていた。そこではサンプルの部分入れ替えが主たるテーマで、 ほかに常用労働者の定義を巡る議論もあった。もっとも主たる議論は手続き上の問題で、ここでいう統計学的視点の問題はマイナーであったが、それにしても、学問的(統計学的)観点からの議論は乏しかった。 「変動の最も大きな要因は労働者数だろう」と叫びたい気分であった。ただし、週刊誌に情報を流したら、その時点なら、「毎勤統計不正の陰に100万人労働者の”首切り”」というようなセンセーショナルなタイトルで 報じられかねない。冷静な議論を望む立場ではそれは絶対に避けたかった。
それにしても各社の報道、Web上の識者(エコノミストを含 注2)のコメントなど活発であったが、この労働者数やウエイトシフトに言及する物は皆無だったと言わざるを得ない。こんな単純な事をだれも指摘しないことが非常に不思議で、 逆に、関係者は皆知っていて隠しているのではないか、その裏にはさらに重要なことが秘匿されているのではないだろうかと訝しんだ。

2月早々、マスコミ(複数)に、毎勤問題は(手続き上のことは別にして)統計学の基礎知識を皆が共有しないと理解が進まない。特に、加重平均、重み/ウエイト概念をやさしく説明する必要がある。 と投稿した。続いて、もう少し詳しい内容を送った(単数)。今見返してみても相当踏み込んだ内容となっている。ただし、きちんとした文章というよりは、ポイントを並べたものだったが、このサイトに記載した要点、 ウエイトシフトの効果、75万人、回収率と抽出率の式、全数調査の意味なども盛り込み、Excelの表もいくつか付け、さらに「データを追加してグラフ化すると良い」とも付け加えていた。 この時点で、自分自ら具体的な作業をすることは想定していなかった。また名乗りを上げて指摘することは避けたい気持ちが強かった。よって、統計に詳しい人から意見を聞いて記者がまとめる形を取るなら 協力できますと申し出た。しかし反応は無かったことが大変残念であった。

実は、若い頃には「タイプが早い」と言われていたが、ホームポジションが確立していない (でたらめで早い) ので、年とともにミスタイプが増え、現役の最後の頃には音声入力とか OCR入力などを導入したこともあった。最近はさらにひどく、またMSのおせっかいで予測入力とか、絵文字の混入とか、日本語入力が一層難しくなり、時間のかかる作業となってきている。(注3)

2月10日の日曜日、ふとしたことで、毎勤問題を英語で書いてみたらどうなるのか、という気分になって書いてみた。ほとんど10年ぶりに英語を書いたのだが、自分でも驚くほどすっきり書けた。 これは対象読者を想定し易いからである。日本語では、対象読者を想定するのが難しい。また、論理的で簡潔な文章を書くにも適している(と私は考えている)。
英語版を作成した時には概要をつかんでいただけである。ある意味、予定稿であった。それを作った後に、本格的にデータベースからダウンロードし、グラフを作成した。 毎勤の12月分の確報値が出た時にその部分を修正した。それから外国の科学雑誌に投稿した。通常の投稿ではなかったのでいくつかのトラブルがあったが、 丁寧なadviseを受けながら、最終的には300 wordsの修正版を受理してもらった。receiveであってacceptではない。ただし、結構長期のembargo処置を受けた。
そのembargo期間が終了したので、このサイトに掲載することとした。



このページの他にも、労働者数推移のフラフの説明に付随して、雑感を記した。そこでは少し政治的経済的なコメントを含むので「雑感」としてある。
年齢別調整がん罹患率(死亡率)などとの類似で、ウエイト調整型毎勤について記載した。

厚労省の提示した 毎月勤労統計:賃金データの見方

厚労省はようやく最近になって、「毎月勤労統計:賃金データの見方」をアップロードした。
ここに 平成30年9月28日[平成30年12月21日更新] と記されているが、全くのミスリードである。そもそも”不正”を認めて謝罪したのは1月11日のことで、それ以前にこのような資料を公開するはずがない。 4月17日に内容を改めた版に差し替えられたが、それ以前の版は、おそらく昨年秋に、つまり2018年6月の高い伸びに対する懸念を受けて内部で準備したのだろうということは推測できるが、本年1月17日?に 総務省統計委員会に対して説明した資料と思われる。総務省サイトの同資料(表紙の 資料7-1 印だけが異なっている)。 これが総務省サイトに掲示された時期は定かではないが、少なくとも厚労省サイトでは一連のホットな議論が続いていた時期には掲載が無く、3月8日に毎勤1月分速報値が掲示された時には掲示されていたのを(私は)確認した。

この「見方」(旧版)の中でようやく、私が示したD群で190万人の削減 に近い数字 約185万人が明記され、また私が示した2200円に近い数字 2086円が示された。後者は特に、2月21日に報道された 数字、1304円より大幅に大きくなったことに注意を要する。私の数字と厚労省の数字はまだ少し違うのは確かであるが、それぞれが別の根拠で示した数字であると理解している。 この点を深堀するにはさらに説明が必要だ。少しだけ紹介すると、ある月、例えば2019年4月という時点が毎勤では複数あるのだ。月内変動を示すから月初と月末の2時点あると考えるのは当然だが、月末(期間末)に2種ある。それが事態を複雑にし、さらに、月平均という数字も加わるからややこしくなる。
いずれにせよ、ここまでで、厚労省が一定の情報開示をしてきたことは認めたい。したがって、本サイトの議論に”ニュース性”は全くなくなった。
このことは、冷静な議論を望む私の意図に沿うものであるが、一方で問題なのは、この「見方」の提示を受けてのマスコミ各社の報道、識者の説明が全く無いことだ。熱しやすく冷めやすい ということなのかも しれないが、これでは統計リテラシーはいつまでたっても向上しないと心配だ。

私の所見

毎月勤労統計調査の統計は、自然科学分野ではありえない低レベルの統計である。サンプル数が明記されていない、誤差の記述が不充分など、自然科学の学術論文であれば 即rejectされるレベルである。
毎月勤労統計調査は長い歴史があるが、現在の毎勤もそれを引きずり、紙と算盤の時代、私の表現では「伝票くりくり、そろばんパチパチ」時代の統計と言わざるを得ない。
実用統計はこの程度が限界なのか、と思う一方で、雇用保険の支給額とか、私も大いに関係する年金支給額などが毎勤の全国平均給与額に連動していることを考えると恐怖を覚える。
この項についてはさらに説明が必要であろう。まとまったら掲示したい。

エコノミスト達よ もっとしっかりして

毎月勤労統計調査の統計学ページに記載した内容は、本来エコノミストの仕事だと考える。
この項目に、もう少し補足する予定である。