remcat: 研究資料集

(TANAKA Sigeto)

毎月勤労統計調査、抽出率逆数の扱いを2018年1月から改悪していたことが判明

毎月勤労統計調査の抽出率逆数の扱いがおかしいことについて、10月に「毎月勤労統計調査の改善に関するワーキンググループ」参加者にあてて情報提供していた。その内容が、11月5日の第3回会議 で言及されたようである。

この件についてこれまで書いてきた記事は、つぎの5本。

毎月勤労統計調査、今後のベンチマーク更新で大きなギャップ発生のおそれ
https://remcat.hatenadiary.jp/entry/20210911/gap (9月11日)
母集団労働者数推計の謎:毎月勤労統計調査とセンサスはなぜ乖離しているのか
https://remcat.hatenadiary.jp/entry/20210920/workerpop (9月20日)
毎月勤労統計調査、2018年の集計方法変更で何か間違えた模様
https://remcat.hatenadiary.jp/entry/20211009/maikinold (10月9日)
層間移動事業所と抽出率逆数:毎月勤労統計調査問題の死角
https://remcat.hatenadiary.jp/entry/20211014/samplingrate (10月14日)
「毎月勤労統計調査の改善に関するワーキンググループ」参加者への手紙
https://remcat.hatenadiary.jp/entry/20211017/wgletter (10月17日)

さて、この第3回ワーキンググループ会議でどんなやりとりがあったのか、議事録で確認しておこう。

○加藤主査
〔……〕
外部の有識者の方から、母集団労働者の補正に関して雇用保険データの適用だけでなく、抽出率逆数の扱いの影響もある旨の情報を頂いています。事務局から、現状の抽出率逆数の取扱いについて教えていただきたいと思います。また、今後の取扱いや検討の方向性について、考えがあれば教えていただければと思います。どうぞよろしくお願いいたします。


○野口統計管理官
〔……〕毎月勤労統計調査の結果の推計についてですが、結果の推計を用いている事業所規模30人以上の第一種事業所の抽出率逆数については、平成30年1月にローテーションサンプリングを導入したことに伴って抽出率逆数を使用することになっています。その際の抽出率逆数ですが、 抽出時点ではなく、集計時点の産業規模により抽出率逆数を用いています。 これは調査対象事業所の規模が変わった場合に、抽出時点の産業規模による抽出率逆数を用いますと、同じ規模の他の調査票と異なる重み、いわゆるウェイトが異なることとなりますので、 特定の調査票が結果に大きく影響を与えることがあるということを懸念したものです。特定の調査票の影響を避け、安定的な結果を得るための対応として、毎月勤労統計調査では抽出率逆数を集計時点のものを用いて、結果の推計をさせていただいています。

一方、主査から御質問がありました毎月勤労統計調査の 母集団労働者数の推計について ですが、ローテーションサンプリング導入以前から抽出率逆数を用いていました が、平成30年1月以降については、集計時に用いる抽出率逆数の使い方との整合性を保つという考えに立ちまして、集計時点の抽出率逆数を用いる こととしています。結論から申しますと、結果の推計の時点、それから母集団労働者の推計の時点、この両方について調査の集計時点の抽出率逆数を用いて、整合性を持って毎月勤労統計調査のデータを作成するという方式です。なお、抽出率逆数の取扱いについては、母集団労働者数の推計で用いていますので、今後の課題として母集団労働者数の推計における雇用保険データの補正の適合度合いの検証の中で、併せて御議論いただくということも考えています。その議論の中で、改めて私ども事務局から抽出率逆数の取扱いの考え方やデータをお示ししながら、委員の皆様に御議論いただけると有り難いと考えています。以上です。
―――――
毎月勤労統計調査の改善に関するワーキンググループ 第3回会議 (2021-11-05) 議事録
強調 は引用者による〕

https://www.mhlw.go.jp/stf/newpage_22422.html

野口統計管理官の答えのうち、第1段落が (給与等の) 結果推計に関わるもの、第2段落が母集団労働者数推計に関わるものである。どちらについても、2018年1月以降は*1 「集計時点の抽出率逆数」を用いている、という。これはつまり、おなじ事業所であっても、層間移動するたびに、適用される抽出率逆数の値が変わる、ということを意味している。

もちろんこれはダメな操作である。調査の結果えられた数値に「抽出率逆数」をかけるのは、サンプリングのときの抽出確率が事業所によってちがうからなので、当然サンプリング時に適用した抽出率から求めるべきもの。同一の事業所に対しては、おなじ値を一貫して使うべきものである。

厚生労働省の担当者は、この理屈を理解していないようだ。「同じ規模の他の調査票と異なる重み」をあたえて集計することが何か問題であるかのような言い方である。おなじ規模の事業所を全部おなじ重みで集計するというのは単純加算するのとおなじことだ (これは後の段階で「推計比率」によって調整されるからなのだが、それについては http://hdl.handle.net/10097/00127285 の2.4節参照)。2017年12月までの第一種事業所に関しては、実際そうやっていた。それではまずい (抽出率がちがう事業所はちがう重みで集計しなければならない) というので、抽出率逆数をかけるステップをわざわざ設けたのではないか。

これだけでもヒドいのであるが、議事録を読むかぎり、統計の専門家としてこの会議に参加していた委員も、この点わかっていないようである。

○高橋委員
肌感覚で結構なのですが、推計などをされていて、事業所規模が急に大きくなったり、小さくなったり、産業が急に変わるということが、頻繁に起こるということはありますか。最近M&Aなども特に増えていますので、そういうこともあるのかなと思いますが。


○高田雇用・賃金福祉統計室長補佐
厚生労働省の高田です。御質問について、具体的な数字が今手元にあるわけではないので、感覚的な部分によるのですが、先生がおっしゃられたとおり、正に合併などでの事業所規模が大きく変わる場合なども、比較的見受けられるように思います。あるいは業種によっては、季節性である時期にちょっと規模が大きくなったりなど、そういったケースも、ものによっては見受けられます。ちょっと細かいところまで申し上げられないのですが、感覚的には、特定の業種ではそれなりの頻度で規模変更は起こっていると感じています。


○高橋委員
ありがとうございます。そういうことがやはり頻繁に起こるようであれば、現状の推計方法も合理性がある のではないでしょうか。どちらが正しいということもない と思いますが、現状そういう感覚を踏まえて今の推計方法を取っていらっしゃると思いますので、毎勤の場合はどうするのがより適しているか、数字を確認しながら、今後、皆さんで話し合えたらと思っています。


○加藤主査
ありがとうございます。なかなか難しい問題で、確かに高橋先生の御指摘のとおりかなと私も思っています。ほかにいかがでしょうか。〔……〕移動した場合に抽出率逆数の取扱いについては、いろいろな考え方がある のだろうと思います。どのような取扱いがよいのかということについては、慎重な検討が必要かと考えますが、現行の取扱いは結果の集計と母集団労働者数の推計の整合性を保つための処理であって、一定の合理性があるのではないかと現時点では判断できるかと思います。
―――――
毎月勤労統計調査の改善に関するワーキンググループ 第3回会議 (2021-11-05) 議事録
強調 は引用者による〕

https://www.mhlw.go.jp/stf/newpage_22422.html

もちろん、「移動した場合に抽出率逆数の取扱いについては、いろいろな考え方がある」などということはない。抽出したときに決まるウエイトを使う以外に、偏りのない推計値を得る方法がないからだ。それ以外のウエイトを使う方法はすべて非合理である。

毎月勤労統計調査における2段階の推計

これだけでは納得いかない読者もいるかもしれないので、説明を加えておく。

まず、毎月勤労統計調査における「推計」は2段階にわけておこなわれることを理解しておく必要がある (http://hdl.handle.net/10097/00127285 の2節も参照のこと)。

  1. 標本抽出枠 (事業所母集団データベース) に登録されている事業所のうち、調査によって有効回答が得られた事業所が代表する部分について、値を推定
  2. これで得た労働者数と全国全事業所の労働者数推計値との比 (推計比率) を使って、母集団の値を推定

以下では、 前者を「調査数値復元」、後者を「比推定」と呼ぶ。抽出率逆数の扱いは、これらの両方に関わる。

  • 調査数値復元では、抽出率逆数をそのままウエイトとして使う
  • 比推定では、母集団労働者数の推計値を調査数値復元した労働者数で割ってウエイトを求める (これを「推計比率」と呼んでいる) のだが、母集団労働者数推計値を求めるときの数式に、抽出率逆数が入っている

議事録中の野口統計管理官の発言で「結果の推計についてですが」と言っているのが「調査数値復元」に関わる部分、「母集団労働者数の推計について」と言っているのが「比推定」に関わる部分である。

10月17日の記事 で取り上げたのは後者だけだったのだが、ここではまず前者から、簡単な架空例を使って説明しよう。

調査数値復元と抽出率逆数

ある産業について事業所母集団データベースをみたとき、規模496-504人の事業所が各4つ (合計32事業所) 登録されていたとしよう (図1)。これを標本抽出枠として、500人以上規模は1/1の抽出率、499人以下規模は1/4の抽出率で事業所を抽出する。抽出した調査対象が緑丸と赤丸である。白丸の事業所は調査しないので、調査データが得られない。

調査した事業所からはすべて有効な回答を得られたとしよう。

図1: 移動がない場合の調査数値復元

このとき、事業所の規模がまったく変動していなければ、500人以上規模を重み1で、499人以下規模を重み4で集計すれば、ほぼ真の労働者数に近い結果になる (図1)。500人以上規模は全数調査だから、そのまま合計すればいい。
499人以下規模は、全16事業所中4つしか調査していないから、調査結果を4倍する。抽出事業所がちょっと偏っている (498人規模事業所が1つも選ばれず、496人規模事業所が2つ選ばれてる) ために労働者数がわずかに小さくなってしまうものの、ほぼ正確な推計値が得られる。

しかし現実の世界では、時間が経つと、事業所が雇う労働者数が変化する。当初は500人以上だった事業所が499人以下に減ったり、499人以下だった事業所が500人以上になったりして、次第に混ざりあっていき、たとえば図2のようになる。

図2: 相当量の移動が起きた後の調査数値復元:正しい方法

このときも、抽出時の抽出率逆数をそのまま使って集計すれば、偏らない推定値が得られる。

ところが、厚生労働省が実際つかっている調査数値復元の方法はこれとはちがい、集計時に500人以上規模の事業所はすべて重み1で、499人以下規模なら重み4で復元する、というのである (図3)。これでは、500人以上規模事業所の労働者数は過少に、499人以下規模事業所の労働者数は過大に出てしまう。特に後者での乖離が著しい。

図3: 相当量の移動が起きた後の調査数値復元:間違った方法

こういうことが起きてしまうのは、調査対象事業所の背後に隠れて暗数となっている事業所のことを正しく推測できていないからだ。

図2, 図3では、標本抽出時点では499人以下の規模だった事業所4つのうち、2つが集計時点で500人以上規模になっている。1/4の確率で調査対象にした事業所のうち半分が移動したことを観測したのだから、調査対象にならなかった残り3/4の事業所も、半分くらいは移動している可能性が高い。その分を推測して加えなければ、推計値が過少になってしまう。図2 (正しい方式) ではこの推測をきちんとおこなっているのだが、図3 (厚生労働省方式) ではおこなっていない。

一方で、標本抽出時点で500人以上規模だった16事業所のうち7つが499人以下規模に移動しているが、これらは全数抽出されているので、背後に隠れて暗数となっている事業所は存在しない。499人以下規模の白丸 (非対象事業所) が7つあるが、これらについてはこの規模区分に残っている赤丸事業所の数値を4倍することで推測されているので、それでじゅうぶんなのだ。ところが図3では、緑丸事業所の数値も4倍するという本来不要な操作を加えることで、暗数を過大に推測する結果になっている。

以上が統計学上の標準的な説明ということになる。ところが、厚生労働省はこうした標準的な見解をとらない。 第3回ワーキンググループ議事録 では、野口統計管理官が「抽出時点の産業規模による抽出率逆数を用いますと……特定の調査票が結果に大きく影響を与えることがあるということを懸念した」と述べて、厚生労働省の調査数値復元方式を正当化していた。これは、図4, 図5のような状況を念頭に置いているのだろう。499人以下から500人以上への移動が1件だけあり、その1件がたまたま調査対象であった、というようなケースである。この移動事業所について4倍する (図4) よりは、1倍 (図5) のほうが、500人以上規模区分についての誤差は確かに小さくなる (499人以下規模のほうはどちらの方式でも変わらない)。

図4: 調査対象事業所1件のみが499人以下→500人以上に移動した場合の調査数値復元:正しい方法

図5: 調査対象事業所1件のみが499人以下→500人以上に移動した場合の調査数値復元:間違った方法

しかし、そういう特殊な状況をことさら抜き出して、それに特化した調査数値復元方法をとるというのはおかしな話である。499人以下規模から500人以上規模への移動が1件だけ起きるという場合、その1件がたまたま調査対象事業所の場合もあれば、非対象事業所の場合もある。後者の場合、移動自体を検知できないので、重み付けをどう操作しようと、500人以上規模の推計労働者数は過少になる (図6)。

図6: 非対象事業所1件のみが499人以下→500人以上に移動した場合の調査数値復元

厚生労働省の主張は、非対象事業所のみの移動については過少推計になることを許容するが、調査対象事業所のみが移動した場合だけは正確に推計しなければならない、ということに帰着する。しかし、そんなやりかたでは、500人以上規模の労働者数は平均的に過少推計されることになる。移動する事業所が調査対象であるかないかはランダムに決まる事柄であり、後者の確率は前者の3倍ある。したがって、調査対象事業所の移動を観測したときには、3倍の移動量を加算しなければならない。それではじめてバランスがとれる。図4がおこなっているのは、まさにそういうことだ。この特殊ケースだけをみたときに過大推計になることを、避ける必要はないのである。

さらに厚生労働省が見落としているのは、500人以上規模から499人以下規模への移動のことである。この場合、499人以下規模事業所の数値を厚生労働省方式 (図7) で復元すると、実際に移動した事業所数を4倍に水増ししてしまうので、必ず過大になる (500人以上規模のほうは正確に推計できる)。

図7: 調査対象事業所1件のみが500人以上→499人以下に移動した場合の調査数値復元:間違った方法

図8: 調査対象事業所1件のみが500人以上→499人以下に移動した場合の調査数値復元:正しい方法

調査数値復元において抽出率逆数をウエイトとして使うのは、調査対象事業所の背後には選ばれなかった非対象事業所が隠れており、その数は抽出率が小さいほど大きくなる、という理屈による。 1/x の確率で抽出された事業所から得た観測値は、その背後に x - 1 個の非対象事業所が隠れているものとしてあつかわなければならない。このウエイトは、その対象事業所がどれだけの確率で抽出されたかで決まるものであって、調査時点でどのような「層」に属しているかとは関係ないのである。全数抽出なら、隠れている非対象事業所はないのだから、ウエイトは1に固定しなければならない (図8)。

さて、上記例の検討からわかる通り、厚生労働省方式 (移動先の抽出率逆数を使う) の調査数値復元では、規模区分の境界付近の事業所は、抽出率の大きい側 (上記の例では500人以上規模) で過小に、抽出率の小さい側 (上記の例では499人以下規模) で過大になる。つまり、

  • 500人以上規模区分の下限付近に存在する事業所が、実態よりも少なく
  • 499人以下規模区分の上限付近に存在する事業所が、実態よりも多く

に存在する事業所が、実際よりもすくなくカウントされているのである。
[この上3行を 2021-12-30 訂正]

毎月勤労統計調査の標本設計は、おおむね、事業所規模が大きいほど抽出率も大きくなるようになっている。このため、厚生労働省方式の調査数値復元では、各規模区分内の事業所規模の分布が、真の分布より上方に偏って出てくることになる。一般に、事業所規模が大きいほど給与も高い傾向があるので、この方式を導入することで、平均給与を実態よりも高く推計しているものと期待できる。ただし、これが実際の集計結果においてどの程度のインパクトとなっているかはわからない。

比推定のための母集団労働者数推計

以上のようにして得られた調査数値復元結果に対して、さらに「推計比率」というのをかける。これは、

  1. 調査対象のなかには回答してくれない事業所もあるが、その分は調査数値にはカウントされていない
  2. 標本抽出以降に、事業所が新設されたり廃業したり規模・産業が変わったりして、母集団自体が変化している

からである。最新の情報を集めて、最新時点での各層の母集団労働者数を推計しておく。そして、それと上記の調査数値復元で得た労働者数との比を計算する。これを「推計比率」と呼ぶ。

推計比率 = 推計母集団労働者数 / 調査数値復元による労働者数

この推計比率をウエイトとした集計により、母集団についての推計値を得るのが「比推定」である。

この手続きは、調査数値復元における抽出率逆数の利用とはちがい、統計学的にきちんとした理屈がついてくるような話ではない。単に、産業がおなじで事業所規模がおなじなら似たような感じであることが多い、という素朴な経験則によりかかった推計である。本来であれば、実際のデータによってこの経験則を裏付ける作業 (たとえば新設事業所も既設事業所も平均給与はほぼおなじであることを定期的に確認する、など) が必要なはずであるが、そういう正当化はおこなわれていない。

ともかく、比推定をおこなうには、最新時点の母集団労働者数を推計しておく必要がある。この推計は、以下のようにして、毎月おこなわれる (くわしくは http://hdl.handle.net/10097/00127285 の2節や https://remcat.hatenadiary.jp/entry/20210911/gap#method を参照のこと)。*2

  • 毎月勤労統計調査の調査対象事業所に雇用されている労働者数の変動について調査数値復元をおこなうことにより、各層内での労働者数の変化を追跡する
  • 事業所新設・廃止等による労働者数の増減の比率を雇用保険事業所データから計算し、その分を加減する
  • 層間を移動した事業所の労働者数を毎月勤労統計調査から推計し、その分を加減する

この3番目の層間移動事業所の推計のところで、抽出率逆数問題が再び出てくる。この問題については 「毎月勤労統計調査の改善に関するワーキンググループ」参加者への手紙 (11月9日) で説明したところなので、くわしくはそちらを読んでいただきたい。

簡単に説明すると、図9のような感じである。

図9: 規模境界付近の事業所が移動を繰り返した場合の母集団労働者数の推計:間違った方法

ある産業の500-999人規模事業所は全数抽出 (抽出率=1/1)、100-499人規模事業所は1/4の抽出率だとしよう。抽出されたなかにちょうど500人規模の事業所があったとする。この事業所の抽出率は1/1である。

しばらくして、この事業所の労働者がひとり辞め、499人になったとする。そうすると、この事業所は100-499人の規模区分に移動することになり、その分の労働者数に対応する249.5人を、500-999人規模の推計母集団労働者数から減らして100-499人規模に加える。なぜ499人ではなくその半分の人数になっているかというと、ここで「補正の適用度合い」という謎の係数 L = 0.5 をかけるからなのだが、これについてはここでは突っ込まない。

ここで移動が終わり、この事業所がずっと100-499人規模区分にとどまれば、それでたいして問題はない。問題が大きくなるのは、この事業所が再び人数を増やして500-999人規模に戻ったときである。ひとり増えて500人になったとすると、その分を推計母集団労働者数に反映させるのだが、そこで、4倍のウエイトをかけてしまう。つまり、500×4×0.5 = 1000 人分を、100-499人規模の推計母集団労働者数から減らして500-999人規模に加えている。この間に起こったことは、ひとつの事業所の労働者数が1人減ったあと、1人増えて元に戻ったということである。ところが、推計母集団労働者数は元に戻らない。1000 - 249.5 = 750.5人分が、100-499人規模から500-999人規模に移動してしまっていることになる。

こういうことが起きるのは、移動するたびにウエイトを変えているからだ。500-999人規模にいるときはその規模区分に割り当てられた抽出率逆数=1を使い、100-499人規模にいるときは抽出率逆数=4を使うので、上昇移動のときに移動させる人数は、下降移動のときの4倍になってしまうのである。

正しい推計にする方法は簡単であって、標本抽出時の抽出率を常に使うようにすればよい。そのような設定に変更した図10では、下降移動では249.5人、上昇移動では250人が移動することになり、図9のような大きな差は出ない。(0.5人の差が生じているのが気になる人もいると思うが、この前に層内での事業所の労働者数の増減を推計する段階があり、そちらでその層の労働者数を増減させたうえで移動させるので、推計母集団労働者数に最終的にあらわれる差はもっと小さくなる。)

図10: 規模境界付近の事業所が移動を繰り返した場合の母集団労働者数の推計:正しい方法

厚生労働省が現在使っている方式では、図9のようなまちがった推計がおこなわれるため、抽出率の低い層から高い層に向かって労働者数が流出してしまう。毎月勤労統計調査の標本設計では事業所の規模が大きいほうが抽出率が高く設定されていることが多いので、実態とくらべて、大規模事業所を過剰に代表させた推計をおこなっているわけである。このことは、平均給与等を不当に高く推計するバイアスをもたらす。

特に500-999人規模においては、抽出率が基本的に1に設定されている (つまり全数調査) 一方で、隣接する100-499人規模では1/24, 1/36, 1/144といった小さな値が設定されている産業がある。これらの産業において500人前後の事業所がわずかな労働者数増減を繰り返しただけで、母集団労働者数推計値は非常に大きな影響を受けることになる。たとえば、500人に144×0.5をかけると3万2000人である。500-999人規模事業所全体の母集団労働者数 (200万人から300万人程度) の1%以上が、これで動いてしまう。

ワーキンググループの第2回会議資料 で示されたように、毎月勤労統計調査の母集団労働者数推計値は、全数調査であるセンサスの値から大きく乖離している。この乖離の大部分は、母集団労働者数の推計において抽出率逆数の使いかたをまちがえているせいであろう、というのが、9月11日以降の記事 で私が指摘してきたことであった。

今回、私が懸念したとおりの抽出率逆数の扱いになっていたことを厚生労働省が認めたのは、一歩前進と言えよう。一方で、この扱いがまちがった推計結果をもたらしていることについては厚生労働省は認めておらず、またワーキンググループに参加する専門家も厚生労働省の担当者の強弁に同調しているようにみえる。この点は大変残念なのだが、地道に批判を続けていくしかないのだろう。

つづき:

毎月勤労統計調査、不正な結果を是正したはずの2019年再集計値も間違っていた
https://remcat.hatenadiary.jp/entry/20220102/rev2019 (2022年1月2日)

履歴

2021-12-29
記事公開
2021-12-30
「・500人以上規模区分の下限付近 ・499人以下規模区分の上限付近 に存在する事業所が、実際よりもすくなくカウントされているのである。」となっていた箇所3行を「・500人以上規模区分の下限付近に存在する事業所が、実態よりも少なく ・499人以下規模区分の上限付近に存在する事業所が、実態よりも多くカウントされているのである。」に訂正
2022-01-02
「つづき」を追記


*1: 野口統計管理官の「ローテーションサンプリング導入以前から抽出率逆数を用いていましたが、平成30年1月以降については……」という説明は、2017年12月までは抽出率逆数を正しく用いて推計をおこなっていたように読める。そうであれば、これは朗報である。事業所別に抽出率を参照する仕組みを現行のシステムがすでに持っているのであれば、大きな改修を施すことなく正しい集計方法に戻せる。

*2: なお、事業所の全数調査である経済センサス等の結果が得られた場合、その値とその時点での母集団労働者数推計値との比を計算し、適当な時期にその比を使った補正をおこなう。これを「ベンチマークの更新」と呼ぶ。