remcat: 研究資料集

(TANAKA Sigeto)

毎月勤労統計調査、不正な結果を是正したはずの2019年再集計値も間違っていた

前回記事 で、毎月勤労統計調査における抽出率逆数の間違った利用法について解説した。この問題には調査数値復元と比推定のための母集団労働者数推計における層間移動事業所のカウントのふたつの側面がある。それらは2018年1月に始まったというのが厚生労働省の説明であった。*1 毎月勤労統計調査は、この間違った集計方法を現在も使いつづけている。それは重大な問題である。

が、それはそれとして、もうひとつ見逃してならないのは、2018年末に東京都不正抽出が発覚したあと、この間違った方法を使って過去のデータを再集計した ことだ。この再集計作業は、

  • 2017年まで使っていた集計方法が間違っていて、
  • 2018年から導入したのが正しい方法である、

という前提でおこなったのだから、そうなるのが当然である。データの動きからも、そうなっていることが読みとれる――というのは 2021年10月14日の記事 で指摘した。

間違いの歴史

毎月勤労統計調査の集計間違いの履歴については、現在、つぎのことがわかっている。

  • 2004年から東京都の事業所の一部で他地域とちがう抽出率で抽出していたにもかかわらず、それを反映しない集計方法をとっていた (2017年まで)
  • 2010-2011年には抽出時とちがう産業分類に変更して集計したため、同一層内に抽出率のちがう事業所が入り混じる事態になったが、それを反映した適切なウエイトをあたえず集計していた (http://hdl.handle.net/10097/00127285 の5節参照)
  • 2018年からは層間移動した事業所に関する抽出率逆数の扱いがおかしくなった (現在も継続中)

2004年以降現在にいたる毎月勤労統計調査は、どの時期をとっても、これらの問題のどれかに該当する。 正しく集計できていた時期が存在しない のである。さらにいえば、おそくとも1994年から標本規模や誤差の統計量を正しく報告していない ので、そういうことまでふくめれば、四半世紀以上にわたってまともな調査結果報告がないという惨状である。

前回記事で指摘した ように、2018年1月から導入した新集計方式も間違っていた。しかしそれが明るみにでないまま、同年末に 2004年以来の東京都不正抽出の件を朝日新聞にすっぱ抜かれた。翌2019年1月には、この間違った新方式を適用して2012年以降の調査結果の再集計をおこない、公表してしまう。ここで、層間移動事業所に関する抽出率逆数の誤用を、過去のデータにも持ち込んでしまった わけである。

2019年再集計

2018年末の報道に対する厚生労働省の対応は、まず2019年1月11日の発表「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」(https://www.mhlw.go.jp/stf/newpage_03207.html) としてあらわれた。付属文書のPDFファイル ではつぎのようにいう。

2.確認された事実

〔……〕

(2) 統計的処理として復元すべきところを復元しなかったことについて
 「500 人以上規模の事業所」については、他の道府県では全数調査ですが、東京都のみ抽出調査が行われたため、東京都と他の道府県が異なる抽出率 (※1) となっていました。
 一方、毎月勤労統計調査の平成29年までの集計は、同一産業・同一規模では全国均一の抽出率という前提で行われており、前述の異なる抽出率の復元 (※2) が行われない集計となっていました。このため東京都分の復元が行われていませんでした。
 なお、東京都における「499人以下規模の事業所」等についても平成21年から平成29年までについて、一部に、異なる抽出率の復元が行われない集計となっていました。
 これらの結果、平成16年から平成29年までの調査分の「きまって支給する給与」等の金額が、低めになっているという影響がありました。

 ※1 抽出率とは、母集団に占める調査対象事業所の割合。
 ※2 復元とは、抽出調査を行った際に行うべき統計的処理で、母集団の調査結果として扱うための計算。
 (注)なお、平成30年1月以降の調査分の集計については、復元されています。


〔……〕


4.今後の対応について

(1) 公表値において行うべき復元を行っていなかった平成16年から平成29年までの期間のうち、復元に必要なデータ等が存在する平成24年以降について復元して「再集計値」として公表します(平成24年から平成30年10月までの、「きまって支給する給与」の「再集計値」の金額については、別添1のとおりです。)。
 「きまって支給する給与」の「再集計値」は、本来の全数調査という方法に基づくものではありませんが、実際の調査において採用した抽出率に基づいて復元しているので、統計処理的にはより有効な母集団推計によるものです。
 「きまって支給する給与」の「再集計値」の公表値とのかい離は金額ベースでは平均で0.6%でした。
 時系列比較の観点から、これまでの公表値についても、今後も引き続き提供してまいります。
 なお、以上の取扱いについては総務大臣から報告を求められており、1月17日の統計委員会に報告する予定です。
―――――
厚生労働省 (2019-01-11)「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」(Press Release) pp. 2-3.
https://www.mhlw.go.jp/stf/newpage_03207.html

https://www.mhlw.go.jp/content/10700000/000467631.pdf

再集計値については、東京都とそれ以外の道府県との抽出率の違いを「復元」したということしか書いていない。この文書を読んでも、層間移動事業所の扱いを変更したという事実は読み取れない のだ。この文書が言及した「0.6%」という平均値は、その後、東京都不正抽出によるインパクトをあらわすものとして受けとられるようになった。

この時点では、2011年12月分以前のデータは再集計されていない。しかし、雇用保険・雇用保険・労災保険・船員保険の給付と雇用調整助成金などについて、従来の公表値に基づいて設定されていた基準を見直して追加給付をおこなう必要があるというので、2004年1月から2013年3月までをカバーする「給付のための推計値」がつくられた (同文書 p. 6)。これについては「平成24年から平成29年までの「再集計値」と公表値のかい離幅の平均(0.6%)を平成16年の公表値に加え、それ以降の平成17年から平成25年3月までの期間は公表値の伸び率に合わせて推計しました」(同文書 p. 4) とあるのみで、具体的にどう計算したのかはよくわからない。実際、この「給付のための推計値」と従来の公表値を比べて増分を計算してみると、0.46%から0.82%まで大きくばらついている。*2

再集計値の再検討

その後、2020年8月になって、2011年12月から2004年1月までさかのぼって再集計した「時系列比較のための推計値」が公表された。このデータも加えて、再集計結果と従来の公表値との間で、「きまって支給する給与」を比較してみよう。

データは「政府統計の総合窓口」(e-Stat) の「毎月勤労統計調査 全国調査」 https://www.e-stat.go.jp/stat-search/files?tstat=000001011791 からカンマ区切り (CSV) ファイルをダウンロードした (2021-12-31)

  • 「長期時系列表」の「実数・指数累積データ」から 「実数・指数累積データ 実数」(表番号1) のファイル (hon-maikin-k-jissu.csv)
  • 「【参考】従来の公表値」の「長期時系列表」の「実数・指数累積データ」から 「実数・指数累積データ 実数」(表番号1) のファイル (juu-maikin-k-jissu.csv)

これらのファイルから、調査産業計 (TL)、5人以上規模 (T)、就業形態計 (0) の各月の「きまって支給する給与」を抜き出せばよい。結果数値は 付録の表 を参照。2014年分以降の数値は、 厚生労働省の2019年1月11日報道発表資料「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」 別添の表と若干の食い違いがある。これは、大阪府における不正調査が判明したために2019年8月26日付で公表結果の訂正があったことによるものであろう (https://www.mhlw.go.jp/toukei/list/dl/maikin-teisei-20190826-dou29tsuiki.pdf 参照)。

図1の黒い実線が従来の公表値、赤い×印が再集計について「きまって支給する給与」平均値を示している。図の左の方では黒実線と赤×印がそれほどずれていないのに対して、右の方ではずれが大きくなっていることがわかる。なお、2007年、2009年、2018年等に給与水準が大きく動いているようにみえるのは、これらの時期に調査対象事業所の入れ替え*3、ベンチマークの更新 *4、産業分類の切り替え *5 などがあったせいではないかと推測できるが、正確なところはわからない。

図1: 「きまって支給する給与」再集計値と従来の公表値


―――――
「政府統計の総合窓口」(e-Stat) 掲載のCSVファイルによる (2021-12-31)。「New」が再集計値、「Old」が従来の公表値。

再集計によって「きまって支給する給与」がどれだけ増えたか (%) を示したのが図2である。2011年12月までは増分はあまり大きくはなく、最大でも0.3%である。2004年中は値が下降しているが、2005-2008年は0.2%弱程度で一定である。2009-2011年は少し水準が上がり、0.3%弱で一定。これが2012年になると、水準がさらに上昇するとともに、時間の経過にともなって値が上昇するようになり、2014年10月には0.75%に達する。2015年にいったん0.5%強の水準まで落ちるがその後ふたたび上昇し、2017年には0.6%を超える。2018年には0.4%水準まで落ちている。

図2: 「きまって支給する給与」再集計による増分 (%)


―――――
「政府統計の総合窓口」(e-Stat) 掲載のCSVファイルによる (2021-12-31)

図2から、2011年調査分までの「時系列比較のための推計値」と2012年以降調査分に関する再集計値 (本系列) とでは「従来の公表値」とのずれかたがかなりちがうことがわかる。前者ではずれは0.3%以下と小さく、時間とともに拡大する傾向もない。それに対して後者では、ずれが最大0.75%と大きく、また時間とともに拡大する傾向をみせる。

https://remcat.hatenadiary.jp/entry/20211009/maikinold#oldnew で分析したとおり、「時系列比較のための推計値」の推計母集団労働者数は、「従来の公表値」とほとんど一致する。ちがいが出てくるのは、2012年分以降だけである。特に差の大きい500-999人規模と30-99人規模について、データ出所をわかりやすく整理した図を載せておこう。

図3: 推計母集団労働者数の再集計値と従来の公表値との比較:500-999人規模


―――――
矢印はベンチマーク更新。データと計算方法は https://remcat.hatenadiary.jp/entry/20210911/gap および https://remcat.hatenadiary.jp/entry/20211009/maikinold を参照

図4: 推計母集団労働者数の再集計値と従来の公表値との比較:30-99人規模


―――――
矢印はベンチマーク更新。データと計算方法は https://remcat.hatenadiary.jp/entry/20210911/gap および https://remcat.hatenadiary.jp/entry/20211009/maikinold を参照

図3, 図4からわかるように、2012年分以降の「本系列」(=再集計値) の推計母集団労働者数は、従来の公表値から大きくはずれており、500-999人規模では増加、30-99人規模では減少する。この動きはセンサスの動きからも乖離しているので、実態を反映したものではなく、層間移動事業所のウエイトが不適切であったために創り出されたものであろう。相対的に規模の大きな事業所のシェアを拡大し、規模の小さな事業所のシェアを縮小させることになるので、この動きは 平均給与を過大に成長させるバイアス を生み出す。

一方、 https://remcat.hatenadiary.jp/entry/20211014/samplingrate#before2011 で議論したように、公表されている文書の説明では、「時系列比較のための推計値」は2012年分以降の再集計とは異なり、層間移動事業所について抽出率逆数による重み付けをおこなっていなかったように読める。従来の公表値がどのように層間移動事業所をあつかっていたかはわからないのだが、推計母集団労働者数がほとんど一致することから、「時系列比較のための推計値」と同様に、抽出率逆数を使っていなかったものと私は判断していた。 もっとも、前回記事 で検討した 「毎月勤労統計調査の改善に関するワーキンググループ」第3回会議の議事録 によれば、「母集団労働者数の推計についてですが、ローテーションサンプリング導入以前から抽出率逆数を用いていましたが、平成30年1月以降については、集計時に用いる抽出率逆数の使い方との整合性を保つという考えに立ちまして、集計時点の抽出率逆数を用いることとしています」と厚生労働省の担当者が回答している。この回答が真実を語っているのであれば、従来の公表値では、抽出時の抽出率の逆数で重み付けた (つまり統計学的に正しい) 集計をおこなっていたのかもしれない。

結論

以上の考察から、つぎのような推論を導くことができる。

  • 2012年分以降の再集計値で「きまって支給する給与」平均額が従来の公表値より上方に乖離していくのは、集計ウエイトの算出に使われる母集団労働者数の推計の誤りの影響をふくんだものである
  • このような問題がなかったと想定できる2004-2011年の数値をみるかぎり、再集計による「きまって支給する給与」の増分は0.2%から0.3%程度であり、2012年分以降の再集計を根拠とする数値「0.6%」よりはずっと小さい

2004-2011年調査についての再集計 (時系列比較のための推計値) は さまざまな仮定を置いた強引なもの だから、それに依存して結論を出すのは危険である。とはいえ、2012年分以降の再集計が母集団労働者数推計のゆがみをもたらすことは、使用している方法の性質上、確かなことだ。毎月勤労統計調査は前年との比較などで伸び率を知るために使われることが多いので、時間とともに平均値を上昇させてしまうこのような集計方法は大きな弊害をもたらす。今後の検討次第ではあるが、従来の公表値のほうが (東京都不正抽出の影響を差し引いても) まだしも実態に近い、ましな数値だった可能性はじゅうぶんある。

付録:再集計値と従来の公表値による「きまって支給する給与」平均値の推移 (2004-2020)

「政府統計の総合窓口」(e-Stat) の「毎月勤労統計調査 全国調査」 https://www.e-stat.go.jp/stat-search/files?tstat=000001011791 から「実数・指数累積データ 実数」(表番号1) カンマ区切り (CSV) ファイルによる (2021-12-31 ダウンロード)

  • 再集計値: 「長期時系列表」の「実数・指数累積データ」
  • 従来の公表値: 「【参考】従来の公表値」の「長期時系列表」の「実数・指数累積データ」

厚生労働省による2019年1月11日報道発表資料「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」(https://www.mhlw.go.jp/content/10700000/000467631.pdf) 別添の表と比較されたい。

年月 再集計値 従来の公表値 超過%
200401 271,152 270,668 0.18
200402 272,118 271,733 0.14
200403 273,963 273,463 0.18
200404 274,971 274,597 0.14
200405 270,004 269,736 0.10
200406 273,164 272,652 0.19
200407 272,319 272,113 0.08
200408 270,579 270,462 0.04
200409 271,245 270,911 0.12
200410 272,317 272,090 0.08
200411 273,149 273,048 0.04
200412 273,350 273,111 0.09
200501 270,292 269,796 0.18
200502 271,843 271,336 0.19
200503 273,183 272,662 0.19
200504 276,380 275,876 0.18
200505 271,615 271,075 0.20
200506 274,344 273,767 0.21
200507 273,074 272,542 0.20
200508 272,053 271,514 0.20
200509 272,785 272,232 0.20
200510 274,129 273,593 0.20
200511 275,018 274,447 0.21
200512 275,333 274,770 0.20
200601 270,004 269,586 0.16
200602 272,030 271,613 0.15
200603 274,119 273,502 0.23
200604 276,659 276,152 0.18
200605 271,527 270,991 0.20
200606 274,534 273,979 0.20
200607 272,868 272,310 0.20
200608 271,692 271,155 0.20
200609 272,851 272,297 0.20
200610 274,261 273,725 0.20
200611 273,446 272,880 0.21
200612 273,702 273,175 0.19
200701 266,889 266,474 0.16
200702 268,241 267,801 0.16
200703 269,657 269,174 0.18
200704 272,621 272,153 0.17
200705 268,686 268,212 0.18
200706 270,779 270,302 0.18
200707 270,227 269,810 0.15
200708 268,841 268,408 0.16
200709 269,400 268,991 0.15
200710 270,810 270,408 0.15
200711 271,339 270,942 0.15
200712 271,778 271,348 0.16
200801 268,679 268,267 0.15
200802 271,419 270,994 0.16
200803 272,550 272,092 0.17
200804 274,569 274,121 0.16
200805 270,219 269,730 0.18
200806 271,172 270,712 0.17
200807 271,861 271,392 0.17
200808 269,775 269,325 0.17
200809 270,241 269,756 0.18
200810 271,291 270,843 0.17
200811 270,434 269,954 0.18
200812 269,450 268,989 0.17
200901 262,841 262,147 0.26
200902 263,763 263,056 0.27
200903 263,203 262,436 0.29
200904 265,731 264,946 0.30
200905 261,132 260,391 0.28
200906 263,386 262,658 0.28
200907 262,956 262,214 0.28
200908 261,969 261,237 0.28
200909 262,060 261,373 0.26
200910 263,174 262,506 0.25
200911 263,328 262,557 0.29
200912 263,505 262,786 0.27
201001 261,235 260,643 0.23
201002 262,544 261,910 0.24
201003 264,631 263,987 0.24
201004 267,161 266,438 0.27
201005 262,485 261,742 0.28
201006 264,679 263,993 0.26
201007 264,143 263,431 0.27
201008 263,211 262,525 0.26
201009 263,736 263,036 0.27
201010 264,390 263,695 0.26
201011 264,231 263,500 0.28
201012 264,757 264,048 0.27
201101 260,841 260,146 0.27
201102 262,235 261,546 0.26
201103 263,085 262,355 0.28
201104 264,981 264,299 0.26
201105 260,881 260,166 0.27
201106 264,008 263,305 0.27
201107 263,372 262,709 0.25
201108 262,141 261,513 0.24
201109 262,954 262,339 0.23
201110 263,935 263,332 0.23
201111 263,824 263,118 0.27
201112 264,298 263,630 0.25
201201 260,216 259,230 0.38
201202 262,775 261,798 0.37
201203 264,423 263,557 0.33
201204 265,288 264,388 0.34
201205 261,559 260,653 0.35
201206 263,166 262,262 0.34
201207 262,653 261,695 0.37
201208 261,320 260,326 0.38
201209 261,530 260,493 0.40
201210 262,870 261,692 0.45
201211 262,396 261,543 0.33
201212 262,299 261,398 0.34
201301 258,397 257,253 0.44
201302 260,596 259,413 0.46
201303 262,058 260,853 0.46
201304 265,220 263,932 0.49
201305 261,195 259,835 0.52
201306 262,353 261,015 0.51
201307 261,417 259,950 0.56
201308 260,661 259,206 0.56
201309 261,012 259,504 0.58
201310 262,716 261,149 0.60
201311 262,995 261,354 0.63
201312 262,349 260,735 0.62
201401 259,345 257,739 0.62
201402 260,730 259,067 0.64
201403 263,004 261,353 0.63
201404 266,108 264,413 0.64
201405 262,574 260,690 0.72
201406 263,945 262,105 0.70
201407 263,165 261,291 0.72
201408 261,789 259,941 0.71
201409 262,878 261,022 0.71
201410 263,634 261,662 0.75
201411 263,518 261,574 0.74
201412 263,318 261,505 0.69
201501 258,025 256,662 0.53
201502 258,422 257,075 0.52
201503 260,606 259,253 0.52
201504 264,471 263,067 0.53
201505 259,684 258,383 0.50
201506 261,836 260,549 0.49
201507 261,248 259,949 0.50
201508 259,480 258,149 0.52
201509 260,049 258,714 0.52
201510 261,302 259,912 0.53
201511 260,811 259,449 0.52
201512 260,966 259,686 0.49
201601 257,639 256,250 0.54
201602 259,812 258,561 0.48
201603 262,375 261,059 0.50
201604 264,610 263,175 0.55
201605 259,531 258,078 0.56
201606 262,119 260,621 0.57
201607 261,820 260,343 0.57
201608 259,938 258,452 0.57
201609 260,588 259,097 0.58
201610 261,903 260,350 0.60
201611 261,716 260,225 0.57
201612 262,131 260,508 0.62
201701 259,005 257,431 0.61
201702 260,444 258,984 0.56
201703 262,386 260,753 0.63
201704 265,818 264,224 0.60
201705 261,204 259,549 0.64
201706 263,381 261,774 0.61
201707 263,238 261,640 0.61
201708 261,116 259,433 0.65
201709 262,590 260,937 0.63
201710 262,930 261,135 0.69
201711 263,003 261,425 0.60
201712 263,703 262,048 0.63
201801 261,140 260,196 0.36
201802 261,492 260,562 0.36
201803 264,889 263,967 0.35
201804 267,501 266,566 0.35
201805 264,087 263,171 0.35
201806 265,922 265,078 0.32
201807 265,162 264,321 0.32
201808 263,714 262,838 0.33
201809 263,681 262,816 0.33
201810 265,714 264,855 0.32
201811 266,324 265,408 0.35
201812 265,166 264,240 0.35
201901 259,485 258,445 0.40
201902 261,171 260,101 0.41
201903 263,044 261,950 0.42
201904 266,899 265,764 0.43
201905 262,793 261,720 0.41
201906 265,378 264,286 0.41
201907 265,340 264,397 0.36
201908 264,042 263,082 0.36
201909 264,359 263,393 0.37
201910 266,282 265,207 0.41
201911 265,804 264,801 0.38
201912 265,453 264,445 0.38
202001 261,364 260,485 0.34
202002 262,278 261,362 0.35
202003 263,130 262,134 0.38
202004 264,336 263,289 0.40
202005 257,675 256,696 0.38
202006 261,493 260,511 0.38
202007 262,474 261,470 0.38
202008 260,689 259,727 0.37
202009 262,430 261,431 0.38
202010 265,000 263,967 0.39
202011 263,368 262,369 0.38
202012 263,644 262,654 0.38

つづき:

統計委員会への手紙「毎月勤労統計調査で2018年1月から採用されている誤った推計法について」
https://remcat.hatenadiary.jp/entry/20220122/toukeiiinkai

履歴

2022-01-02
公開
2022-01-22
「つづき」を追記


*1: この変更は、始めてすぐに影響が出るものではない。影響が出てくるのは、層間移動事業所がある程度積み上がったあとからである。2018年に毎月勤労統計調査の数値のおかしいことが噂されるようになったのは年初めではなく、3月以降の数値に関してであった のは、この変更の性質を考えると重要かもしれない。

*2: 「政府統計の総合窓口」(e-Stat) の「毎月勤労統計調査 全国調査」 https://www.e-stat.go.jp/stat-search/files?tstat=000001011791 から「実数原表・実数推計」の「給付のための推計値 (2004年1月~2013年3月)」掲載のExcelファイルによる (2022-01-01 ダウンロード)。

*3: 第一種事業所 (労働者30人以上規模) は2007, 2009, 2012, 2015, 2018年に対象事業所の入れ替えをおこなっている。

*4: 2009, 2012, 2018年にベンチマークを更新している。 https://remcat.hatenadiary.jp/entry/20210911/gap#benchmark 参照。

*5: 2010-2011年は、標本抽出時と集計時で異なる産業分類を使ったために不正な集計となっていた。 http://hdl.handle.net/10097/00127285 5節参照。