母集団労働者数推計の謎：毎月勤労統計調査とセンサスはなぜ乖離しているのか

前回記事にひきつづき、毎月勤労統計調査が推計する母集団労働者数がセンサスの労働者数から乖離している件について。

センサスとの乖離の方向と度合いは、事業所規模と時期によってちがっていることがわかる。5-29人規模事業所では、2004年以降ずっと、センサス結果を上回る増加がつづき、このために大きなギャップが継続して生じている。一方で、30-99人規模事業所では、推計される労働者数が減少したために、増加気味であったセンサス結果との間に乖離があるが、この傾向は2012-2015年の間に集中している。100-499人規模事業所や1000人以上規模の事業所では、毎月勤労統計調査の月々の労働者数推計はセンサスの数値とほとんどずれておらず、ずっと高い精度で追尾できている。このようなちがいが出てくる原因を突き止められれば、毎月勤労統計調査とセンサスのどこにまずい点があり、どのように修正するべきであるかについて、有用な知見がえられるだろう。
―――――
田中重人 (2020-09-11) 「毎月勤労統計調査、今後のベンチマーク更新で大きなギャップ発生のおそれ」
https://remcat.hatenadiary.jp/entry/20210911/gap#diss

前回も解説したように、毎月勤労統計調査は、母集団労働者数を毎月推計しており、それを利用して集計のためのウエイトを算出している。この推計は、ふたつの段階にわかれる。この記事では、前者を「毎勤推計」、後者を「雇用保険等補正」と呼ぶことにしよう。

第1段階 (毎勤推計): 調査対象事業所に雇用されている労働者数の月間変動データからの推計
第2段階 (雇用保険等補正): 事業所新設・廃止等による変動 (雇用保険事業所データによる) と事業所規模の変化などで別の層に事業所が移動したことによる変動 (毎月勤労統計調査による) の推計

前回記事で使用した「毎勤原表」(月次) データは、労働者数について「前月末」(前調査期間末) と「本月末」(本調査期間末) のふたつの数値を持つ。たとえば2021年4月のデータをみたとき、「前月末」と「本月末」の労働者数の差は、第1段階 (毎勤推計) による変化をあらわす。「本月末」の労働者数と翌月 (5月) データの「前月末」労働者数との差が、第2段階 (雇用保険等補正) による変化である。

前回記事で紹介したRスクリプトでは、事業所規模区分のそれぞれについて、「前月末」「本月末」の労働者数を1行ずつ格納したデータ・フレームを作成した。このデータの各行について、1行前の労働者数との比をとると、その月の労働者数推計の第1段階、第2段階それぞれで労働者数が何倍になったかを求めることができる。ただし、ベンチマーク更新をおこなった月については、前月の本月末労働者数からの変化は、雇用保険等補正による変化ではなく、ベンチマーク更新による変化なので、これらは欠損値とする。

(以下のスクリプトは、前回記事のスクリプト http://tsigeto.info/maikin/maikin-monthly.r.txt を実行してから実行する。)

for( s in names(data) ) {
  n <- nrow( data[[s]] )
  data[[s]]$worker.prev <- c( NA, data[[s]] [ -n, "worker" ] )
  data[[s]]$worker.next <- c(     data[[s]] [ -1, "worker" ] , NA )
  data[[s]]$worker.inc <- log( data[[s]]$worker / data[[s]]$worker.prev )
  data[[s]] [ data[[s]]$yyyymm %in% reset.date1 , "worker.inc" ] <- NA
}

このデータでは、年月をあらわす数値 (yyyymm) について、「前月末」労働者数を格納した行は 202104 (=2021年4月) のようにしているのに対し、「本月末」労働者数の行は 202104.5 のように、0.5を足した値としている。なので、整数の行だけ取り出すと「本月末」→「前月末」の変化 (雇用保険等補正) を、小数点以下の端数がある行だけ取り出すと「前月末」→「本月末」の変化 (毎勤推計) を知ることができる。

worker.cum <- function( r , start ) {
  r[ is.na(r$worker.inc), "worker.inc" ] <- 0
  r$cum <- cumsum( r$worker.inc )
  r$worker.cum <- exp(r$cum) * start
  r
}
cum0 <- lapply(
  data,
  function(d) { 
    start <- d[1, "worker"]
    worker.cum( subset( d, yyyymm %% 1 == 0  ) , start )
  }
)
cum5 <- lapply(
  data,
  function(d) { 
    start <- d[1, "worker"]
    worker.cum( subset( d, yyyymm %% 1 == 0.5  ) , start )
  }
)

前回記事で求めたセンサスによる母集団労働者数 (worker.pop) の値も追加しておこう。

temp <- sapply (
  cum0[[1]]$yyyymm ,
  function(i) {
    j <- as.character(i)
    k <- as.character(i-0.5)
    w <- rownames(worker.pop)
    if (     j %in% w ) { r <- worker.pop[ j, ] }
    else if( k %in% w ) { r <- worker.pop[ k, ] }
    else { r <- rep( NA, ncol(worker.pop) ) }
    r
  }
)
worker.pop.yyyymm <- t(temp)
colnames(worker.pop.yyyymm) <- colnames(worker.pop)
rownames(worker.pop.yyyymm) <- cum0[[1]]$yyyymm

worker.predicted <- list()
for( s in names(cum5) ) {
  size <- cum5[[s]] [1, "size"]
  worker.predicted[[s]] <- subset( cum0[[s]] , TRUE,  select="yyyymm" )
  worker.predicted[[s]]$e1.e0 <- cum0[[s]] [ , "worker.cum"] 
  worker.predicted[[s]]$e0.e1 <- cum5[[s]] [ , "worker.cum"] 
  worker.predicted[[s]]$census <- worker.pop.yyyymm[ , as.character(size) ]
}

このようにして、毎勤推計と雇用保険等補正の効果を分離して、それぞれを集積したとしたら労働者数がどのように変化したかを示すことができる (グラフ1)。

グラフ1: 毎勤推計と雇用保険等補正それぞれによる労働者数変動

グラフ1(a) 5-29人規模事業所

グラフ1(b) 30-99人規模事業所

グラフ1(c) 100-499人規模事業所

グラフ1(d) 500-999人規模事業所

グラフ1(e) 1000人以上規模事業所

5-29人規模事業所 (グラフ1(a)) では、雇用保険等補正によって労働者数はずっと増加をつづけており、センサスの労働者数を大きく上回って伸びていく。それに対して毎勤推計による労働者数は2011年ごろまではほとんど増加していないが、その後増加するようになり、2014年あたりからは雇用保険等補正と変わらない速度で上昇する。2020年になって増加が鈍るが、これはおそらくCOVID-19の流行にともなう一時的なものだろう (この鈍化は雇用保険等補正のほうにはみられない)。

30-99人規模事業所 (グラフ1(b)) では、毎勤推計による労働者数は、2009年ごろから2014年ごろまで低下したのち、上昇に転じて現在に至る。それに対して雇用保険等補正による労働者数は、2011年ごろまでは上昇していたが、そのあと低下に転じて現在に至る。このように両者が独立した動きを見せるため、両者が相反している時期には、これらを合計した労働者数の増減はあまり見られない結果になる。ただし、両者の低下が重なった2012-2014年にかけては、労働者数が大きく減り、センサスとの乖離をもたらしていた (前回記事のグラフ4 を参照)

100-499人規模事業所 (グラフ1(c)) と500-999人規模事業所 (グラフ1(d)) は似ている。毎勤推計による労働者数が一定または微減であるところ、雇用保険等補正が労働者数を増加させている。最初のデータ (2004年1月) の時点で労働者数がセンサス (2006年10月) より低かったことと、センサスの労働者数が増加傾向にあるため、増加気味である雇用保険等補正による労働者数のほうが、結果として2014年以降のセンサスの数値に近い。

1000人以上規模事業所 (グラフ1(e)) では、毎勤推計でも雇用保険等補正でも労働者数はほとんど変化していないので、どちらも大差ない。ただ、雇用保険等補正では、2011年ごろにすこし労働者数が増加しているため、その分だけセンサスの労働者数に近い。

では、毎勤推計だけまたは雇用保険等補正だけをおこないながらセンサスによるベンチマーク更新を加えた場合、どうなるだろうか。

renew.bm <- function( d , e ) {
  prev <- c( NA, d[ -nrow(d) , e ] )
  d$gap <- d[ , e ] / prev

  d$worker.bm <- NA
  d[1, "worker.bm"] <- d[ 1, e ]
  d[1, "gap"] <- 1

  for( i in 2:nrow(d) ) {
    gap <-  d[ i, "gap" ]
    mon <- d[i,"yyyymm"]
    if( 200901 == mon ) { gap <- g2009 }
    else if(201201==mon){ gap <- g2012 }
    else if(201801==mon){ gap <- g2018 }
    d[ i, "worker.bm" ] <- d[ i-1, "worker.bm"] * gap
    d[ i, "gap" ] <- gap

    g <- d[ i, "census" ] / d[ i, "worker.bm" ]
    if( 200610 == mon ) { g2009 <- g }
    else if(200907==mon){ g2012 <- g }
    else if(201407==mon){ g2018 <- g }
  }
  d
}

with.bm.e1.e0 <- lapply( worker.predicted , renew.bm , "e1.e0" )
with.bm.e0.e1 <- lapply( worker.predicted , renew.bm , "e0.e1" )

with.bm <- with.bm.e1.e0
for( s in names(with.bm)  ) {
  with.bm[[s]] <- subset( with.bm[[s]] , TRUE, select="yyyymm" )
  with.bm[[s]]$e1.e0 <- with.bm.e1.e0[[s]]$worker.bm
  with.bm[[s]]$e0.e1 <- with.bm.e0.e1[[s]]$worker.bm
  with.bm[[s]]$census <-with.bm.e0.e1[[s]]$census
}

2004年1月から出発して、毎勤推計または雇用保険等補正の効果として推定された労働者数増加率を、順にかけていけばよい。ただし、センサスの労働者数がえられる月 (2006年10月、2009年7月、2014年7月) については、推定された労働者数との比を記録しておく。ベンチマーク更新時 (2009年1月、2012年1月、2018年1月) に、それらの数値を前月の労働者数にかける。

こうして描いたのがつぎのグラフ2である。矢印はベンチマーク更新をあらわす。

グラフ2: 毎勤推計と雇用保険等補正それぞれによる労働者数変動 (＋ベンチマーク更新)

グラフ2(a) 5-29人規模事業所

グラフ2(b) 30-99人規模事業所

グラフ2(c) 100-499人規模事業所

グラフ2(d) 500-999人規模事業所

グラフ2(e) 1000人以上規模事業所

5-29人規模事業所 (グラフ2(a)) では、毎勤推計でも雇用保険等補正でも、2009年1月ベンチマーク更新によって労働者数が引き下げられているが、これはデータ開始時点 (2004年1月) ですでに高いところから出発していたせいなので、労働者数推計に過大な増加があったわけではない。その後の2012年1月、2018年1月のベンチマーク更新では、毎勤推計による労働者数は大きな変化がない。これに対して、雇用保険等補正による労働者数は、2014年7月のセンサスと大きく乖離していたので、2018年1月のベンチマーク更新で大きく低下している。直近の2019年76月のセンサス数値と比較すると、どちらも上方に同程度はなれている。

30-99人規模事業所 (グラフ2(b)) では、2014年ごろまでは大きなちがいはない。このため、ベンチマーク更新によるギャップも、2012年1月と2018年1月に関しては似たようなものである。しかしその後は、毎勤推計が労働者数を増加させるのに対して雇用保険等補正は労働者数を減少させている。このため、2016年6月と2019年6月のセンサスに対しては、雇用保険等補正による労働者数はかなり過少となっている。

100-499人規模事業所 (グラフ2(c)) では、2009年7月センサスのあたりまでは、毎勤推計も雇用保険等補正も労働者数をほとんど変化させていないため、ベンチマーク更新によるギャップもほとんどおなじである。その後は雇用保険等補正によって労働者数が伸びるようになるが、毎勤推計では労働者数がほとんど増加しないままである。2014年7月と2016年6月のセンサスの値は、それらの中間にある。2016年6月センサスの値は、雇用保険等補正による労働者数をほぼ一致する。

500-999人規模事業所 (グラフ2(d)) でも、2012年1月ベンチマーク更新のあたりまでは、両者の間にほとんどちがいが出ない。その後、雇用保険等補正が労働者数を増加させてセンサスの増加を追い抜いていくため、すこし過大になっている。

1000人以上規模事業所 (グラフ2(e)) では、毎勤推計と雇用保険等補正のちがいはほとんど出ない。2011年ごろからわずかに労働者数に差が出るため、その分だけ、ベンチマーク更新時のギャップに差が出ている程度である。

以上のように、5-29人規模事業所と30-99人規模事業所では、センサスからの大きな乖離が生じている。この乖離をもたらしてきた毎勤推計と雇用保険等補正のそれぞれによる労働者数増加率が、時期によってどのように変動してきたかを確認しておこう。

inc.prev12mon <- function(v) {
  p <- c( rep(NA,12) , v[ 1:( length(v)-12 ) ] )
  v / p
}

inc12mon <- lapply( 
  worker.predicted,
  function(d){
    r1 <- inc.prev12mon( d$e1.e0 )
    r2 <- inc.prev12mon( d$e0.e1 )
    r <- cbind( r1 , r2 )
    colnames( r ) <- c( "e1.e0", "e0,e1" ) 
    rownames( r ) <- d$yyyymm
    data.frame(r)
  }
)

inc12mon.real.e1 <- lapply (
  data ,
  function(d) {
    start <- d[1, "worker"]
    wc <- worker.cum( d , start )
    wc <- subset( wc, yyyymm %% 1 == 0.5 , select="worker.cum" )
    inc.prev12mon(wc$worker.cum)
  }
)

for ( i in 1:length(inc12mon) ) {
  inc12mon[[i]] $ e1.real <- inc12mon.real.e1[[i]]
}

1年前 (つまり12行上) の労働者数との比をとるとよい。毎勤推計と雇用保険等補正の2つの系列があるのでそれぞれについて1年分増加率を求める。ついでに、両者を合計した増加率 (つまり実際の毎月勤労統計調査における労働者数の増加率) も求めて、3列のデータ・フレームを作る。

センサスにおける労働者数の変化も求めておく。隣接数値どうしで割り算すればよいのだが、センサスからセンサスまでの時間がちがうので、それを調整して、1年あたりの増加率とする。

interval.mon <- c(
  33,  # 200401-200610
  33,  # 200610-200907
  60,  # 200907-201407
  23,  # 201407-201606
  36,  # 201606-201906
  23  # 201906-202105
)

worker.pop.inc <- apply(
  worker.pop,
  2,
  function(v) {
    p <- c( NA, v )
    n <- c( v, NA )
    n/p
  }
)

worker.pop.inc.yearly <- exp( log(worker.pop.inc) * 12 / interval.mon )

yyyymm <- cum0[[1]]$yyyymm
temp <- matrix( nrow=length(yyyymm), ncol=ncol(worker.pop.inc) )
rownames(temp)<-yyyymm
colnames(temp)<-names(cum0)
for( end in rev( rownames(worker.pop.inc) )[-1] ) {
  for( size in 1:ncol(worker.pop.inc)) {
    temp[ yyyymm<=end, size ] <- worker.pop.inc.yearly[end,size]
  }
}
log12mon.census <- list()
for( s in names(inc12mon) ){
  log12mon.census[[s]] <- log( inc12mon[[s]] )
  log12mon.census[[s]] $ census <- log( temp[ , s] )
}

このようにして、1年前からの労働者数の変化率を、毎勤推計、雇用保険等補正、それらの合計についてプロットし、センサスの変化率と比較したのがグラフ3である。縦軸は自然対数に変換している。1年前との比が取れるのは2005年1月のデータからであるため、横軸はそこからはじまっている。なお、センサスの労働者数変化率は、実施月がちがう調査どうしの間での変化に基づいているため、季節要因を除去できていないことに注意されたい。

グラフ3: 1年前からの労働者数変化率 (自然対数)

グラフ3(a) 5-29人規模事業所

グラフ3(b) 30-99人規模事業所

グラフ3(c) 100-499人規模事業所

グラフ3(d) 500-999人規模事業所

グラフ3(e) 1000人以上規模事業所

5-29人規模事業所 (グラフ3(a)) では、2011年までは、毎勤推計による労働者の増加率がセンサスの増加率を上回っている時期はほとんどなく、センサスと同程度かそれを下回っているかであった。しかし雇用保険等補正による労働者増加率はそれを上回っているので、両者を合計すると、センサスの労働者数を上回って労働者数が増えることになる。

2012年になると、毎勤推計による労働者の増加率は、単独でセンサスの増加率を上回るようになる。2014年以降になるとさらに上昇して、雇用保険等補正による増加率とおなじ水準になり、両者の合計での増加率が非常に大きなものになっている。2020年には毎勤推計による労働者の増加率は低い水準に落ちているが、これはおそらくCOVID-19の流行による一時的なものである。最新のデータではすでに従前の水準にもどっているので、今後もセンサスを大きく上回る労働者数の増加がつづく見込みである。

30-99人規模事業所 (グラフ3(b)) では、毎勤推計による変化がプラスで雇用保険等補正による変化がマイナスである (あるいはその逆) の時期が長く、その時期には両者を合算すると増減がほぼなくなる。2009-2011年には、毎勤推計による変化がマイナスで雇用保険等補正による変化がプラスであったが、センサスによる労働者数の増加はその中間くらいだったので、結果として、両者を合算した労働者数の変化率は、センサスの水準と同程度であった。2014年以降は、毎勤推計による労働者増加はセンサスの水準と同程度だが、雇用保険等補正による労働者数の減少のため、合算した労働者数はセンサスを下回って微減傾向である。その間の2012-2013年には、毎勤推計と雇用保険等補正の両方の効果がマイナスだったため、それらを合算した労働者数は大きく減少することになった。

100-499人規模事業所 (グラフ3(c)) と500-999人規模事業所 (グラフ3(d)) はおなじような傾向である。毎勤推計による労働者の増減はあまりないのに対し、雇用保険等補正のほうは労働者を大きく増やしたり減らしたりする効果が出ていて、これによって労働者数が上下している。この効果は500-999人規模事業所のほうで大きい。特に2012年以降はほとんど常に高い水準にあって、労働者数を増やす効果を持っている。

1000人以上規模事業所 (グラフ3(e)) では、毎勤推計と雇用保険等補正の効果はほぼ同程度であることが多く、おなじような推移を見せる。ただし、雇用保険等補正のほうはときおり大きな変動を見せることがあり、特に、2010-2011年には大きく労働者数を増やしている。とはいえ、このような増加は一時的であるし、規模の事業所で働く労働者の数自体は少ないので、人数への影響という点ではあまり目立った効果はない。

分析結果のまとめ

以上の分析結果をまとめておこう。

まず、1000人以上規模事業所と100-499人規模事業所では、毎月勤労統計調査とセンサスとの労働者数の乖離はそれほど大きなものではない。1000人以上規模事業所では毎勤推計も雇用保険等補正も労働者数をほとんど変化させていないので、どちらかの単独の効果を取り出しても、合算しても、両方とも止めてしまっても、センサスとの乖離の度合いはほとんどかわらない。100-499人規模事業所では毎勤推計と雇用保険等補正の間にちがいはあるのだが、センサスによる労働者数変化が両者の中間にある時期が長いため、どちらかが明確にセンサスから乖離しているわけではない。

500-999人規模事業所では、毎勤推計による労働者数変化はセンサスと近い水準にあるのに対し、雇用保険等補正はそこから離れて労働者数を増減させているため、センサスによる水準から乖離している。特に2012年以降は、雇用保険等補正のためにセンサスの水準を上回って労働者数が増えていく傾向がはっきりと出ている。

30-99人規模事業所では、毎勤推計と雇用保険等補正の効果は独立して動いている。センサスによる労働者数は一貫して増えていく傾向にあるのに対し、2014年ごろまでは毎勤推計が労働者数を減少させており、2012年以降は雇用保険等補正が労働者数を減少させている。両者が重なった2012-2014年ごろには、労働者数が大きく減ってセンサスによる労働者数から乖離していた。現在は、毎勤推計による増加傾向を雇用保険等補正による減少傾向が打ち消して、全体として減少気味になっており、センサスによる労働者数からのずれが広がりつつある。

5-29人規模事業所では、雇用保険等補正が一貫して労働者数を増加させる効果を持っており、これがセンサスから大きく乖離して労働者数を上昇させる原動力となっている。一方で、2012年以降は、毎勤推計も労働者数を増加させるようになり、2014年以降は、両者が同等の寄与を持っている。

議論1: センサスは信頼できるのか?

これらの結果からまず考えるべきことは、センサスの労働者数と毎月勤労統計調査の労働者数はちがうものを測定しているのではないか、ということだ。

分析結果によれば、雇用保険等のデータを使った補正がセンサスとの乖離をもたらしている。これはつまり、センサスの労働者数の増減と、雇用保険等による労働者の増減はちがう動きをしているということである。

前回記事で紹介したように、雇用保険等補正 (労働者推計の第2段階) は、つぎのところからデータを得ている (https://www.mhlw.go.jp/toukei/list/30-1c.html#01 (3)「母集団労働者数の補正」など参照)：

事業所の新設／廃止、および事業所規模が5人以上になったり5人未満になったりしたケースの労働者数 (雇用保険)
ある層から別の層に事業所が移動したことによる各層の労働者数の増減 (毎月勤労統計調査)

前者は雇用保険の実務に使っているデータであるから、事業所の調査をすること自体が目的の経済センサスや事業所母集団データベースとは、目的がちがうわけである。経済センサス等では見逃している事業所の新設／廃止などが雇用保険では把握できているのだとしたら、両者の間にずれが出てくるのももっともである。

後者は、毎月勤労統計調査自体のデータである。調査対象となっている事業所が回答する労働者数が変化して別の層に異動した場合、その分 (その事業所の労働者数×抽出率逆数×0.5) を層間で移動させる (https://www.soumu.go.jp/main_content/000615414.pdf の3ページ参照) のだけれど、それがセンサスの労働者数と乖離した動きをしているということかもしれない。

他方、労働者推計の第1段階 (毎勤推計) は、毎月勤労統計調査の調査票からわかる、調査対象事業所に雇用されている労働者数の変動のデータだけを使う。ここで重要なのは、毎月勤労統計調査は、事業所規模によって、調査対象事業所の抽出方法を変えているということだ。30人以上規模の事業所 (「第一種事業所」と呼ばれる) は、事業所母集団データベースから抽出されている。事業所母集団データベースは経済センサスの結果をもとに整備されているのだから、事実上、センサスの調査範囲とおなじものを母集団としたサンプリングだといってよい。これに対して、5-29人規模事業所 (「第二種事業所」と呼ばれる) は、地理的な区域を設定してこれをまず無作為抽出し、そこで選んだ各区域に存在する事業所を実地調査でリストアップしてそこから抽出する (https://www.mhlw.go.jp/toukei/list/30-1n.html など参照)。つまり5-29人規模事業所については、事業所母集団データベースや経済センサスに依存しない、独自の標本抽出枠を使っているのだ。

分析結果からわかるように、30人以上の規模の事業所 (第一種事業所) では、毎勤推計はセンサスからの大きな乖離をもたらしてはいない。これに対して5-29人規模事業所 (第二種事業所) では、毎勤推計が労働者数を大きく増加させるようになってきていて、その傾向は近年になって強まっている。経済センサス等では捕捉できていない事業所を、毎月勤労統計調査の第二種事業所のサンプリングではある程度捕捉できている――そしてそうした事業所は最近になって増加してきている――と考えれば、つじつまはあうのだ。

このような考察が正しいなら、毎月勤労統計調査のベンチマーク更新でギャップが生じる原因は、センサスのほうが経済の実態を把握しそこねていることにあるわけだ。逆にいえば、経済センサス等の調査がおよんでいない部分の経済活動まで、毎月勤労統計調査は推計できていることになる。そのデータを、センサスにあわせて切り捨てるのは、正当な統計操作なのだろうか?

議論2: 毎月勤労統計調査は信頼できるのか?

もっとも、このような結論を出す前に、毎月勤労統計調査の労働者数推計のほうが何かおかしい可能性を考えておくべきだろう。

まず重要なのは、前回と今回の記事で使った「毎勤原表」のデータは、2019年に発覚した東京都での大規模事業所等の不正抽出問題について、数値を事後的に再集計したものだということだ。この再集計作業においては、2011年以前のデータについて必要な情報が欠けていたため、強引な仮定を置いて推計を加えている。雇用保険のデータについても、この際に、毎月勤労統計調査のデータから逆算して求めなおしている。こうした作業の際に、何か間違いが混入しているかもしれない。

毎月勤労統計調査の毎月の集計作業の際に、雇用保険データの内容はチェックされていないのではないか、という疑いもある。統計委員会の第9回点検検証部会 (2019年7月29日) の資料では、雇用保険データのチェックについては、つぎのようなことしか書いていない。

・提供された雇用保険データについては、データのレコード数と別途、紙で提供されているデータ件数が一致しているか、目視による確認
・雇用保険データによる母集団労働者数を補正する際の補正率を出力し目で確認して、異常がないか（補正率がすべて１となっていないか、極端に大きい（又は小さい）補正率となっていないか等）
―――――
厚生労働省政策統括官（統計･情報政策､政策評価担当）(2019-07-29)「毎月勤労統計調査について」(統計委員会第9回点検検証部会 https://www.soumu.go.jp/main_sosiki/singi/toukei/tenkenkensho/kaigi/02shingi05_02000349.html 資料2) p. 8
https://www.soumu.go.jp/main_content/000636435.pdf

つまり、データの件数がちがうとか、みるからに異常な値が出ているとかいうのでないかぎり、データがまちがっていてもノーチェックで通っている可能性がある。このデータがおかしくても雇用保険の業務には差し障りないのだろうから、毎月勤労統計調査の側で摘発されないかぎり、系統的なまちがいが発見されないまま使われつづけるということが起こりうる。

そもそも雇用保険の対象となる労働者は、毎月勤労統計調査の対象となる「常用労働者」とはちがう、という根本的な問題もある。雇用保険データからわかる労働者数の増減と、常用労働者の増減とがおなじ傾向を示すかどうかはよくわからない。

調査対象事業所のサンプリングについても、どこまできちんとした無作為抽出をおこなっているか疑問である。たとえば、40年以上前の話であるが、匿名のブログにつぎのような証言がある。「乙」調査というのは、5-29人規模事業所対象の調査を1990年までそのように呼んでいたもので、今日では「第二種事業所」の調査に相当する。

毎月勤労統計調査は、管理者(私)が、まだ若かりし頃(1977年～1983年)の6年間、直接の担当職員であった。そもそも「毎月勤労統計調査」には「(甲)調査（30人以上事業所：メール調査）と「(乙)調査（30人未満事業所：調査員調査）」（その他、特別調査）があるが、ここで問題暴露したいのは今回、全く問題になっていない「(乙)調査（30人未満事業所：調査員調査）」の方だ。「毎勤統計(甲)調査（30人以上事業所）：メール調査」は「事業所抽出調査(但し500人以上事業所は全数調査）であるが、「(乙)調査（30人未満事業所：調査員調査）」の場合は、先ず調査地域を抽出する。その抽出地域は労働省が、名簿的に送付してくるのだが、都道府県「(乙)調査」担当者は、それをチェックし、「被差別部落地域等」は、その段階で「被差別地域」は「特殊地域により調査困難」と書き加え、当時の労働省に差し替えをお願いする。
　当時の労働省は、安易に、別の調査地域に差し替えた。
　「特殊地域により調査困難」の主な理由は、おそらく調査員調査のため、調査員が嫌がるためと聞いたし、そう思われる。
―――――
民守正義 (2019-01-29) 【まだある？毎月勤労統計調査の誤謬】部落差別と毎勤統計(乙)調査
https://riberaruhiroba.theblog.me/posts/5638182/

匿名のこのような証言が信用できるかは疑問であるが、全区域を調査しなければならないセンサスとちがい、毎月勤労統計調査は第二種事業所については区域を抽出したうえで現場でリストアップした事業所名簿に基づいて調査をおこなうものなのだから、現場の事情によって恣意的に調査区域や対象事業所を選ぶ余地があるのではないかとする疑念自体は、もっともなものであろう。そして、第二種事業所のサンプリング過程はほとんど公表されていないので、こうした疑念を事後的に検証することはむずかしい。そのように考えると、センサスと毎月勤労統計調査との間に乖離がある場合は、まず毎月勤労統計調査のほうに問題があると仮定して対策を考えるほうが合理的なのかもしれない。

ともかく、今回の分析からは、毎月勤労統計調査とセンサスの間に存在する労働者数の食い違いについて

雇用保険等を利用した補正 (母集団労働者数推計の第2段階) によって食い違いがうまれている
5-29人規模事業所については、毎月勤労統計調査自体による「本月末」労働者数の推計 (母集団労働者数推計の第1段階) によっても食い違いがうまれている
これらによる食い違いの発生については、時期によって異なる特徴がある

というところまでは特定できたことになる。ベンチマーク更新問題をふくめ、毎月勤労統計調査の推計母集団労働者数の問題については、このような知識を前提として議論を進めるべきである。

使用したプログラムとデータ

分析用Rプログラム: http://tsigeto.info/maikin/maikin-monthly2.r.txt

つづき

毎月勤労統計調査、2018年の集計方法変更で何か間違えた模様
https://remcat.hatenadiary.jp/entry/20211009/maikinold (10月9日)

履歴

2021-09-20: 公開
2021-09-22: 「2019年7月のセンサス数値」を「2019年6月のセンサス数値」に訂正
2021-12-28: 「つづき」を追記

remcat: 研究資料集

(TANAKA Sigeto)