毎月勤労統計調査の統計学
データソースなど 補足資料
当初、この資料は英語版の補足資料 supplements として準備した。ウエブにアップロードするにあたり、順次日本語に直しているが、混合している部分がある。
Data sources
MAIKIN data sets were downloaded from “e-STAT” as follows:
from October 2007 to December 2009
毎月勤労統計調査 全国調査 実数原表(旧産業分類 2009年12月まで)
月次 Database
from January 2010 to November 2015
毎月勤労統計調査 全国調査 実数原表(2010年1月~)月次 Database
from December 2015 to December 2018
Excel files at
the indicated site
I used 「従来の公表値」 unless otherwise specified, which mean Excel files without sai- at their tops.
I added read-only attribute to the download files and referred to them in further analyses.
The confirmed dataset sometimes were replaced with a revised version by a certain reason, as indicated in a report
「毎月勤労統計の実数の訂正について
平成26 年6月18 日 厚生労働省大臣官房統計情報部」.
Excel 計算の精度・計算誤差
Excelで計算する場合、Excel内部処理の精度、つまり、内部計算に何桁まで格納するか(できるか)によって計算誤差を生じる。特に、小数の計算においては、 コンピューターは2進法、ヒトは10進法と異なるため、無限小数の発生方に違いがあり、影響が大きい。しかしExcelでは一定程度補正していて混乱を回避しているが、 その内部の詳細な仕様については公開されていない。桁数が大きい計算の場合、微細な誤差を生じることが明らかにされている。15桁程度は大丈夫ともいわれている。
ウエイトシフトによって全国平均給与額の変動(影響)を計算する時、基本的には、各群の平均給与額をその群の労働者数と乗じ、次に、労働者数の合計値で除して計算している (総額方式 参照 加重平均)。この総額方式による計算途中、全国規模であれば14桁に及ぶが、Excelは正しく格納していた。 一方、労働者数の比からウエイトをまず計算し、各群の平均給与額を乗じる方法では、計算途中で一切の丸め処理を行わす、最終結果だけ所定の桁数を表示させる方法をとった。 計算途中に(コンピューターが苦手とする小数を生じるが、)ほとんどの場合、最終結果の1円単位まで、総額方式と同値を得たが、稀に1円の差を生じることもあった。
毎勤統計調査では、ウエイトあるいは抽出(比)率に関係する労働者数として、基本的に、前月と当月の平均値を使用している。このことは、ウエイトシフトを軽減させる効果があると期待できるので 一定理解できる。しかし本サイトの議論では、そのウエイトシフトの影響を論じるものであるから、当該月末の労働者数を使用して計算した。したがって、私がExcelで求めた全国平均給与額 (Excel計算値と表示)は、毎勤に記載された全国平均額と少し異なる値を示す。実際、10円の桁の差を生じることが多く、実際、2016年から2018年の3年間、のべ36回中30回はその範囲内であったが、 ベンチマーク変更を伴う2018年1月では差異が著しく、またボーナス月や労働者数の増加がある4月などの4回では100~144円の差異を示した。なお、公表値が丸め処理した数字であることに基づく変動は 1円桁と僅かであることを付記する。
以上のことから、私の計算では、特に値を他と比較する場合、公表値に寄らず、自身のExcel計算値相互で比較する方法をとった。
Excel は米国 Microsoft Co の商標登録である。その事をここに記して、毎月勤労統計調査の統計学の各所に、記号を付記することなく使用した代替とする。
英語版で \2,200とした数値の補足説明
この差異は、2018年1月の従来公表値を単に2017年12月の労働者数の構成比(ウエイト比)で再計算して差異を求めた結果である。 「特別に支払われた給与」を加えるか否かによって20円程度の差を生じた。 また、D群における約190万人の減少を2018年1月分公表値に単に添加すると、1,500円程度の影響となった。
用語 マスター表
抽出調査で、「抽出」 sampling のための必要情報は、参照情報あるいは参照表と呼ばれることが多い。英語でreference(s)。毎勤調査で抽出時に参照されるのは、(これまで)経済センサスである。
ここには、具体的な事業所名、所在地その他連絡先、産業別区分、労働者数が記載されているはずである。特に、後2者は区分に必須事項である。経済センサスは総務省統計局のWebサイトで見られるが、
公開されている情報は経済センサスの(ある意味での)諸要素の統計数値であり、いわば個人情報である具体的な内容は公開されていない。各事業所の「給与支払い総額」の項目があるのか否かも私にはわからない。
このような大規模なデータ集は各種の別の統計から収集され、その完成に少し期間がかかる。現在、最新とされる平成26年経済センサス-基礎調査は平成27年11月30日に確報となった。
それは平成26年7月1日現在の状態を示すとしているので、1年5月程度のずれがある。
私はこれを英語版でマスター表 master table と表現した。厚労省はベンチマーク benchmark と呼んでいる。
なぜ、マスター表としたのか? それは、この参照データが上記項目を有する表形式を取っており、また、別に記述するように、毎勤の変更に当たって、労働者数を強く“規制”する存在であるから、
いわば上位にある存在として、マスター表の用語を使用した。
企業と事業所
事業所とは企業の拠点、たとえば本店・支店の単位ごとの呼び名である。
英語版では当初 ….“companies”, correctly, bases of companies, and including some other organizations in public domains,
but here use “company” in ease. としていたが、字数制限のため簡略化した(場合もある)。毎勤では “事業所”である。
指数化指標
私は自然科学分野の研究者である。私にとって「指数」は 基数にべき乗する値 のことを意味する。つまり、数学における対数、指数の「指数」である。 それに対して、ある基準を定め、それとの比較として「指数」を使用する場合もある。特に経済分野では多くの経済指標が指数化されて表現されている。 その場合、(消費者)物価指数などと冠があれば何の違和感もないが、単独で「指数」と表現されることに(自然科学分野の研究者として)違和感がある。 そこで、単独の場合、「指数化指標」の用語を用いた。
規模別事業所の表記
毎勤原表での記号 | 事業所規模 (常用)労働者数 | このページ 毎月勤労統計調査の統計学での記号 |
T | 5人以上=全国集計 | 全国 |
3 | 500人以上 | A(群) |
5 | 100人から499人 | B(群) |
7 | 30人から99人 | C(群) |
9 | 5人から29人 | D(群) |
- このページの トップに戻る
- 毎月勤労統計調査の統計学の トップに戻る