毎月勤労統計調査の統計学

データソースなど　補足資料

当初、この資料は英語版の補足資料 supplements として準備した。ウエブにアップロードするにあたり、順次日本語に直しているが、混合している部分がある。

Data sources

MAIKIN data sets were downloaded from “e-STAT” as follows:
from October 2007 to December 2009
毎月勤労統計調査　全国調査実数原表（旧産業分類　2009年12月まで）月次 Database

from January 2010 to November 2015
毎月勤労統計調査　全国調査実数原表（2010年1月～）月次 Database

from December 2015 to December 2018
Excel files　at the indicated site

I used 「従来の公表値」 unless otherwise specified, which mean Excel files without sai- at their tops. I added read-only attribute to the download files and referred to them in further analyses. The confirmed dataset sometimes were replaced with a revised version by a certain reason, as indicated in a report 「毎月勤労統計の実数の訂正について平成26 年６月18 日厚生労働省大臣官房統計情報部」.

Excel 計算の精度・計算誤差

Excelで計算する場合、Excel内部処理の精度、つまり、内部計算に何桁まで格納するか（できるか）によって計算誤差を生じる。特に、小数の計算においては、コンピューターは2進法、ヒトは10進法と異なるため、無限小数の発生方に違いがあり、影響が大きい。しかしExcelでは一定程度補正していて混乱を回避しているが、その内部の詳細な仕様については公開されていない。桁数が大きい計算の場合、微細な誤差を生じることが明らかにされている。15桁程度は大丈夫ともいわれている。

ウエイトシフトによって全国平均給与額の変動（影響）を計算する時、基本的には、各群の平均給与額をその群の労働者数と乗じ、次に、労働者数の合計値で除して計算している（総額方式　参照　加重平均）。この総額方式による計算途中、全国規模であれば14桁に及ぶが、Excelは正しく格納していた。一方、労働者数の比からウエイトをまず計算し、各群の平均給与額を乗じる方法では、計算途中で一切の丸め処理を行わす、最終結果だけ所定の桁数を表示させる方法をとった。計算途中に（コンピューターが苦手とする小数を生じるが、）ほとんどの場合、最終結果の1円単位まで、総額方式と同値を得たが、稀に1円の差を生じることもあった。

毎勤統計調査では、ウエイトあるいは抽出（比）率に関係する労働者数として、基本的に、前月と当月の平均値を使用している。このことは、ウエイトシフトを軽減させる効果があると期待できるので一定理解できる。しかし本サイトの議論では、そのウエイトシフトの影響を論じるものであるから、当該月末の労働者数を使用して計算した。したがって、私がExcelで求めた全国平均給与額　（Excel計算値と表示）は、毎勤に記載された全国平均額と少し異なる値を示す。実際、10円の桁の差を生じることが多く、実際、2016年から2018年の3年間、のべ36回中30回はその範囲内であったが、ベンチマーク変更を伴う2018年1月では差異が著しく、またボーナス月や労働者数の増加がある4月などの4回では100～144円の差異を示した。なお、公表値が丸め処理した数字であることに基づく変動は 1円桁と僅かであることを付記する。

以上のことから、私の計算では、特に値を他と比較する場合、公表値に寄らず、自身のExcel計算値相互で比較する方法をとった。
Excel は米国 Microsoft Co の商標登録である。その事をここに記して、毎月勤労統計調査の統計学の各所に、記号を付記することなく使用した代替とする。

英語版で　\2,200とした数値の補足説明

この差異は、2018年1月の従来公表値を単に2017年12月の労働者数の構成比（ウエイト比）で再計算して差異を求めた結果である。「特別に支払われた給与」を加えるか否かによって20円程度の差を生じた。また、D群における約190万人の減少を2018年1月分公表値に単に添加すると、1,500円程度の影響となった。

用語　マスター表

抽出調査で、「抽出」 sampling のための必要情報は、参照情報あるいは参照表と呼ばれることが多い。英語でreference(s)。毎勤調査で抽出時に参照されるのは、（これまで）経済センサスである。ここには、具体的な事業所名、所在地その他連絡先、産業別区分、労働者数が記載されているはずである。特に、後2者は区分に必須事項である。経済センサスは総務省統計局のWebサイトで見られるが、公開されている情報は経済センサスの（ある意味での）諸要素の統計数値であり、いわば個人情報である具体的な内容は公開されていない。各事業所の「給与支払い総額」の項目があるのか否かも私にはわからない。
このような大規模なデータ集は各種の別の統計から収集され、その完成に少し期間がかかる。現在、最新とされる平成26年経済センサス-基礎調査は平成27年11月30日に確報となった。それは平成26年7月1日現在の状態を示すとしているので、1年5月程度のずれがある。
私はこれを英語版でマスター表 master table と表現した。厚労省はベンチマーク benchmark と呼んでいる。なぜ、マスター表としたのか？　それは、この参照データが上記項目を有する表形式を取っており、また、別に記述するように、毎勤の変更に当たって、労働者数を強く“規制”する存在であるから、いわば上位にある存在として、マスター表の用語を使用した。

企業と事業所

事業所とは企業の拠点、たとえば本店・支店の単位ごとの呼び名である。
英語版では当初　　….“companies”, correctly, bases of companies, and including some other organizations in public domains, but here use “company” in ease.　　としていたが、字数制限のため簡略化した（場合もある）。毎勤では　“事業所”である。

指数化指標

私は自然科学分野の研究者である。私にとって「指数」は　基数にべき乗する値　のことを意味する。つまり、数学における対数、指数の「指数」である。それに対して、ある基準を定め、それとの比較として「指数」を使用する場合もある。特に経済分野では多くの経済指標が指数化されて表現されている。その場合、（消費者）物価指数などと冠があれば何の違和感もないが、単独で「指数」と表現されることに（自然科学分野の研究者として）違和感がある。そこで、単独の場合、「指数化指標」の用語を用いた。

規模別事業所の表記

毎勤原表での記号	事業所規模　（常用）労働者数	このページ　毎月勤労統計調査の統計学での記号
Ｔ	5人以上＝全国集計	全国
3	500人以上	Ａ（群）
5	100人から499人	Ｂ（群）
７	３０人から９９人	Ｃ（群）
９	５人から２９人	Ｄ（群）

このページの　トップに戻る
毎月勤労統計調査の統計学の　トップに戻る