remcat: 研究資料集

(TANAKA Sigeto)

毎月勤労統計調査1994-2001年の誤差率表がほとんど同一数値である件

前回記事「まちがいさがし」 の答え。

下記の画像は、毎月勤労統計調査による「標本誤差率」の表を『毎月勤労統計要覧』各号からコピーしてきたものです。2001年からさかのぼって1996年まで、8枚あります。この表のなかに、年次によって数値にちがいのあるところはいくつあるでしょうか。ただし、1枚目 (2001年) の表で赤枠で囲ってある部分だけを対象とします。
〔……〕
※ 『毎月勤労統計要覧』該当ページについては http://tsigeto.info/maikin/#data からPDFファイルを見ることができます
――――
「まちがいさがし:毎月勤労統計調査1994-2001年の誤差率表」(2019-08-20)

https://remcat.hatenadiary.jp/entry/20190820/puzzle

解答

2001年を基準として、ちがいのある箇所に赤い下線を引いた。

2001年の誤差率表 (基準)


――――
厚生労働省大臣官房統計情報部 (2003)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成14年版』労務行政 ISBN:4845231492 p. 258.
(赤枠は引用時に追加したもの)

2000年の誤差率表


――――
厚生労働省大臣官房統計情報部 (2002)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成13年版』労務行政研究所 ISBN:484522142X p. 254.
(2001年分とちがう数値を赤下線で示した)

1999年の誤差率表


――――
労働省政策調査部 (2000)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成12年版』労務行政 ISBN:4845201240 p. 254.
(2001年分とちがう数値を赤下線で示した)

1998年の誤差率表


――――
労働省政策調査部 (2000)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成11年版』労務行政研究所 ISBN:4845200325 p. 254.
(2001年分とちがう数値を赤下線で示した)

1997年の誤差率表


――――
労働省政策調査部 (1998)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成10年版』労務行政研究所 ISBN:484528104X p. 252.
(2001年分とちがう数値を赤下線で示した)

1996年の誤差率表


――――
労働省政策調査部 (1997)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成9年版』労務行政研究所 ISBN:4845271184 p. 236.
(2001年分とちがう数値を赤下線で示した)

1995年の誤差率表


――――
労働省政策調査部 (1997)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成8年版』労務行政研究所 ISBN:4845270188 p. 326.
(2001年分とちがう数値を赤下線で示した)

1994年の誤差率表


――――
労働省政策調査部 (1995)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成7年版』労務行政 ISBN:4845251086 p. 326.
(2001年分とちがう数値を赤下線で示した)

出題意図

毎月勤労統計調査で「誤差率」の数値が毎年でてくるようになったのは1994年分調査から。その前は1990年のものしか公表されていないので、1991-1993年の数値は不明である。さらにその前は、調査のやりかたも公表の仕方もちがう (「甲」「乙」のふたつの調査にわかれていた) し、誤差率はやはりときどきしか報告書に載らなかった。

この1994年から毎年「平成●年7月分結果」として載っている「標本誤差率」の表であるが、よくみると毎年ほぼおなじである。パーセント表記で小数第2位まで (つまり本来の値では小数第4位までに相当) の数値が載っているのだけれど、それがほとんど全部一致していて、かなり異様な印象を受ける。ただしところどころちがっている部分もあるので、完全におなじ表をコピーしているわけでもない。

で、どれだけ一致していてどこがちがうのか、なにか法則性をみつけたい というわけである。

ただ、検討するのは、28産業×事業所規模3区分で84層にわけた部分 (赤枠) に限定した。毎月勤労統計調査では、調査対象事業所抽出と結果集計の両方が、これらの層別におこなわれている。 (本当は「L サービス業」の下位分類についても層が設けられているのだけれど、それらは誤差率表には載っていない。また 500人以上規模の事業所については、全数調査であるから標本誤差は存在しないことになっていて、これも省略されている)。

これ以外の数値、たとえば「TL 調査産業計」「F 製造業」「L サービス業」の行と、「規模5人以上」「規模30人以上」の列に載っているのは、こまかい層別にいったん計算した標本誤差率を、各層に該当する母集団労働者数に応じてウェイト付けして合算した値である (https://remcat.hatenadiary.jp/entry/20190123/1548237122#se 参照)。これらの数値には年次による動きがあるので、ウェイトが毎年更新されていたらしいことがわかる。ただ、この「まちがいさがし」で 知りたいのは各層について計算した誤差率自体の変化 であり、ウェイトの変化ではないので、上記の84層だけに限定した。

なお、これらの数値ががほとんど同一なのは2001年分までであり、翌2002年分から急激に変化しはじめる。 この点については https://wezz-y.com/archives/63479 参照。「まちがいさがし」で見てほしいのは、この変化の直前の2001年までである。

結果

2001年から1994年までの8つの表を見くらべたとき、数値にちがいがあるのは、「F 建設業」「25 窯業・土石」(30-99人規模のみ) 「H 運輸・通信業」「I 卸売・小売業、飲食店」の4産業で、のべ 35か所 しかない (上の画像中の赤下線部分をカウントされたい)。

しかも「F 建設業」の5-29人規模、「H 運輸・通信業」の100-499人規模、「25 窯業・土石」では、ちがいがあるとはいっても、その差は0.01だけである。そういうのをのぞき、0.02以上の差があるところだけに限ると、のこるのはつぎの7層のみ:

  • 「F 建設業」の30-99人規模と100-499人規模
  • 「H 運輸・通信業」の5-29人規模と30-99人規模
  • 「I 卸売・小売業、飲食店」(事業所規模3区分とも)

これらのなかで 「I 卸売・小売業、飲食店」だけは、年による差が最大で0.2くらい あり、ほかの産業より振れ幅が大きい。ほかの産業は、「F 建設業」の100-499人の誤差率が2000年に0.00になっている (前後の年とのちがいは2以上) ことをのぞけば、0.05くらいの差しかない。

議論

さて、この「標本誤差率」は、 https://remcat.hatenadiary.jp/entry/20190123/1548237122#se に示したとおり、

標本誤差率 = φ √[(N - n) / { (N - 1) n }]

という式で計算する。要素は3つしかない。

  • N: 母集団事業所数
  • n: 標本事業所数
  • φ: 一人平均きまって支給する給与の変動係数

(これは第一種事業所についての定義。第二種事業所はちょっと複雑だけど、基本はおなじである。)

これらを層別に求め、それに基づいて「標本誤差率」を計算するわけである。

変動係数 φ は調査のたび (つまり毎月) 変わる。標本事業所数 n は実際に調査票を回収した事業所の数だと厚生労働省は説明している (下記参照) ので、これも毎月の調査のたびに変わるはずだ (ただしサンプル交代のとき以外はあまり大きくは動かないかもしれない)。母集団事業所数 N を具体的にどうやって特定しているかは不明なのだが、標本抽出用名簿は2-3年おきに更新されるので、すくなくともそのときには変わるだろう。だから、よほどの偶然に恵まれないかぎり、 標本誤差率 (%) の値が8年間とおして0.01以下の変化しかないということは起こりえない。

しかし1996-2001年の間の標本誤差率の数値は、上でみたとおり、「建設」「運輸・通信」「卸売・小売、飲食店」以外の産業では、毎年おなじ数値をコピーしてるのにほぼ等しい状態になっていた。どうみても異常である。

ちなみに2013-2014だとつぎのような感じ。確かにだいたい似た数値になっている層が多いのだけれど、同一の数値というわけではないし、かなり大きくちがうところもある。こういうのがふつうである。

2014年の誤差率表

――――
厚生労働省大臣官房統計情報部 (2016)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成27年版』労務行政 ISBN:9784845262632 p. 294.

2013年の誤差率表

――――
厚生労働省大臣官房統計情報部 (2015)『毎月勤労統計要覧: 毎月勤労統計調査年報 平成26年版』労務行政 ISBN:9784845252633 p. 294.

さて、この1月に、毎月勤労統計調査の調査対象事業所数が秘密裡に減らされていたことが発覚したのを読者は覚えているだろうか。このとき、厚生労働省は以下のように説明していた:

調査対象事業所数が公表資料よりも概ね1割程度少なくなっていました。確認できた範囲では、平成8年以降このような取扱いとなっていました。なお、誤差率は回収数を元に計算しているので、公表していた誤差率に影響はありません。
――――
厚生労働省 (2019-01-11)「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」 p. 2
https://www.mhlw.go.jp/stf/newpage_03207.html

https://mhlw.go.jp/content/10700000/000467631.pdf

しかし、「誤差率は回収数を元に計算してい」たという この説明は、虚偽である。 回収数 (上記の数式では n) は調査のたびに変わるはずなのに、いくつかの産業以外では、上で確認したように誤差率にまったく変化がみられないのだから。

さらに1月17日開催の第130回統計委員会に厚生労働省が提出した資料では、つぎのように主張していた。

1.標本設計について
○ 産業、規模別の標本数は、常用労働者一人平均月間きまって支給する給与の標本誤差が一定の範囲内となるように設定しているが、調査対象事業所数は公表資料よりも概ね1割少なくなっていた。
〔……〕
2.達成精度について
○ 誤差率は回収数を元に計算しているので、公表していた誤差率に影響はない。
○ 誤差率は、調査年報で示しているとおり、多くの産業でおおむね目標値を達成している。
――――
厚生労働省政策統括官(統計・情報政策、政策評価担当)「毎月勤労統計において全数調査するとしていたところを一部抽出調査で行っていたことについて(追加資料)」(2019年1月17日) 第130回統計委員会 資料2-2。p. 4.
http://www.soumu.go.jp/main_sosiki/singi/toukei/kaigi/02shingi05_02000273.html

http://www.soumu.go.jp/main_content/000594893.pdf

これも意味がない主張である。『調査年報』の全国調査版と地方調査版を一緒にとじて市販本化したものが『毎月勤労統計要覧』なので、ここまでみてきたものとおなじ「誤差率」の表が『調査年報』に載っているわけだ。1994年以前のデータに基づく誤差率の表を (一部に手を加えながら) コピーしつづけていたのだとすると、それ以降は、 標本規模 (つまり n) をどれだけ減らしても公称の誤差率は変化せず、目標値を達成しつづけているかのように見せかけることができる。 標本規模削減による精度低下を隠すために改竄した誤差率を公表していた可能性を疑うべきところである。

ただ、28産業のうち「建設業」「運輸・通信業」「卸売・小売業、飲食店」の3つには、それなりに数値の動きがある。これが何を意味しているかはよくわからない。これらの産業についてだけ精確な誤差率を計算する必要があったとも思えない。特に、1994-2001年の数値の変動幅が比較的大きい「卸売・小売業、飲食店」には、2002年から誤差率が急激に拡大する特徴があり、2003年には調査対象事業所が5%以下しかのこっていない計算 になる。なぜこのような極端な変動が特定の産業に出現するのかも未解明である。