remcat: 研究資料集

(TANAKA Sigeto)

毎月勤労統計調査「サンプル間引き」に関する参議院予算委員会審議 (2019年2月6日) 書きおこし

今年2月6日の参議院予算委員会で、2003年までおこなれていたとされる毎月勤労統計調査のサンプル間引き の件がとりあげられた。それから半年以上たったが、どういうわけか、このときの委員会の議事録がいまだに公開されていない。国立国会図書館「国会会議録検索システム」 で参議院予算委員会の記録を探すと、この回 (198回国会の「1号」) だけが欠落していることがわかる。


―――――
国立国会図書館「国会会議録検索システム」(http://kokkai.ndl.go.jp) で参議院予算委員会会議録を検索 (2019-08-10)

https://twitter.com/twremcat/status/1160132466721480704

しかたがないので、当該部分のやりとりを自分で書きおこすことにした。

材料と方法

参照したのは 参議院「インターネット審議中継」の動画 https://www.webtv.sangiin.go.jp/webtv/detail.php?sid=5074

登場人物はつぎの5名:

  • 金子原二郎 (予算委員長)
  • 石橋通宏 (立憲民主党・民友会・希望の会)
  • 根本匠 (厚生労働大臣)
  • 藤澤勝博 (厚生労働省 政策統括官)
  • 石田真敏 (総務大臣)

https://www.webtv.sangiin.go.jp/webtv/detail.php?sid=5074

お昼の休憩のあと、午後に委員会が再開したのが3時間12分30秒あたり。石橋通宏議員による公的統計関連の質問のうち、3時間22分24秒のところから3時間36分7秒のところまでの約13分が、毎月勤労統計調査の「サンプル間引き」に関する話題である。

文中ではつぎの記号を使っている:

〔〕
発言者名その他の注釈
「」
発言者が映っていない(特定できない)発言 (おそらくすべて委員長発言)
【】
画面に挿入された字幕
画面上の字幕で改行されているところ
聞き取れない音声

書きおこし結果

〔3:22'24〕
〔石橋通宏議員〕いま、あの大規模、東京の500人以上だけおっしゃられました。今回あまり問題になっておりませんが、平成16年以前に、500人未満の事業所でも不正がありました。詳細をおしえてください。

「根本厚生労働大臣」

〔根本厚生労働大臣〕規模、16年当時ですけど、あの、■規模30人以上499人以下の事業所のうち、抽出されるべきサンプル数のおおい地域・産業について、一定の抽出率で指定した調査対象事業所のなかから、半分の事業所を調査対象からはずすことで、実質的に抽出率を半分にし、そのかわりに調査対象となった事業所を集計するときには、抽出すべきサンプル数のおおい地域・産業について、その事業所が、ふたつあったものとみなして集計する、方式であって、これは全体のサンプル数がかぎられているなかで、全体のサンプル数がかぎられているなかで、ぜんかいの、全体の統計の精度を向上させようとしたものであると、報告書によって、しめされております。

「石橋通宏くん」

〔石橋議員〕 いまおっしゃられた点。ね。え、どうやってじゃあ抽出を半分にされてたんですか。

「根本厚生労働大臣」

〔根本大臣〕 まず一定の抽出率で、調査対象事業所を、決める。そして、その半分の事業所を調査対象からはずすことで、実質的に抽出率を、半分に、半分にする。そして、そのかわり調査対象なった事業所を集計するときには、抽出すべきサンプル数のおおい地域・産業についてその事業所がふたつあったものと、みなす。ようは抽出した事業所について、それを、半分に、半分の事業所を調査対象として、はずす。で、これは統計的に、あの、や、当時やっているんですけど、この手法によってえられる推計結果は抽出率にもとづき復元をおこなっているのと、同程度のたしからしいものとかんがえられ、標準誤差にゆがみが発生する可能性はあるが平均値に関してはこうゆ、こうしたおおきなかたよりはなく、給付等に影響をおよぼすこともないと。当時はそうかんがえられてました。かんがえていた、担当者は。

〔笑い声など〕

「石橋通宏くん」

〔3:25'24〕
【ただいま速記を中止しておりますので、◆音声は放送しておりません】

https://www.webtv.sangiin.go.jp/webtv/detail.php?sid=5074

ここで約1分間、音声なし。

〔3:26'24〕
「根本厚生労働大臣」

〔根本大臣〕 あの、これは、これについては実質的に半分にするんですけれども、そこでういたぶんは、全体のサンプル数がかぎられてますから。その全体でういたぶんを他の部分の、サンプル、サンプルをふやして対応するということにしたとされております。全体のサンプル数がね、かぎられてますから、ある部分を抽出したやつを半分にして、その部分でういた部分を、ほかの、より精度をたかめるためにほかのところのサンプル数をあげると、いうことで対応していると、そうわたくしは理解しております。いやこれ。

〔笑い声など〕

「石橋通宏くん」

〔石橋議員〕 さっき半分はずしたっておっしゃった。じゃあどうやってはずしたんですかときいてるんです。

「根本厚生労働大臣」

〔根本大臣〕あのー統計学的にやってるんです。ようは、抽出して、抽出して、対象事業所を特定する。そのうちの、半分を、半分にして、でそれは統計的にはきちんと復元とうをするわけですが、半分でういたサンプル数は、ほかの産業別・規模別にとってますから、そこのサンプル数をふやして、全体のサンプル数がかぎられてるんですから、そういう統計的な対応をしていると、こういうことです。

〔笑い声など〕

〔3:27'58〕
【ただいま速記を中止しておりますので、◆音声は放送しておりません】

https://www.webtv.san.go.jp/webtv/detail.php?sid=5074

ここで約50秒音声なし。

〔3:28'50〕
〔根本大臣〕ようは、そこは1回えらぶ。そして無作為に抽出して、半分にして、そうするとそのういたサンプル数がありますから、そのういたサンプル数はほかの事業別規模別のところの、ようは、抽出率をたかめるということでわりふって、わりふって全体のサンプル数がかぎられるなかで、えー統計的に、より全体の精度をたかめるということで、わりふっているということであります。

「石橋くーん」

〔石橋議員〕 えーっと、根本大臣、これね、ちゃんと、その、業種ごとに母数がある。それを適正に反映させるために2段階無作為サンプリングやるわけでしょ。その時点でちゃんとしてなかったら正確な母数できないんですよ。復元しようとしたって、抽出じたいがまちがってたら適正な復元できないんです。だからきいてる。ね。

「根本厚生労働大臣」

〔根本大臣〕あのー、業種別・規模別にサンプル数がおおい分野について、機械的に2分の1にしたもの、であります。

「石橋くーん」

〔石橋議員〕 いや結局ははっきりお答えいただいてないんですー。あのー、われわれがきいてるのは、無作為抽出で、ね、サンプリングした、それを半分にしたときいてる。半分はずしました。その半分はずしたのはどうやってしたんですかときいてる。

「根本厚生労働大臣」

〔根本大臣〕それも、半分に、して、その事業所がふたつあったものとするわけで。その半分にするのも、これも無作為に、機械的に、抽出して、半分にしております。

〔3:31'05〕
【ただいま速記を中止しておりますので、◆音声は放送しておりません】

https://www.webtv.san.go.jp/webtv/detail.php?sid=5074

ここで約50秒音声なし。

〔3:31'52〕

「厚生労働省政策統括官、藤澤勝博くん」「では事務的に」

〔藤澤政策統括官〕おこたえをもうしあげます。あのー、いまほど根本厚生労働大臣がおこたえもうしあげました内容は、えーと、じつは、あのー、1月22日の特別監察委員会報告書の概要でございまして、それはあの、そのあとに、えーとー、おー、総務省の統計委員会が開催をされておりますけれども、そこにも、えーと厚生労働省からあの資料を提出し、あのご説明をもうしあげております。え、具体的にはな、あ、えっとその、おー、ご指摘の規模30人以上499人以下の事業所のうち、その、おー、半分の事業所を調査対象からはずす、ということでございますけれども、これはその、おー、その、その、えー、はずすために実質的にそう抽出率を半分にし、そのかわりに、えーと調査対象となった事業所を集計、えー、するときには、えー、抽出すべきサンプル数のおおい地域・産業について、その事業所がふたつあったものとみなして集計をする方法でございます。で、えっと、全体としてはサンプル数がかぎられているなか、全体の統計の精度を向上させようと、統計の精度を向上させようと、そういう観点からおこなっているもの、おこなっていたものでございますけれども、あのー、特別監察委員会の報告書にございますように、えー、平成16年にはそのことを、あのやりかたをやめております。なお、具体的な方法でございますが、えー、いっかん、いったん2分の1間引きをしまして、そのあとぎゃくにえー、2倍えー復元して、集計をしている、まあそういうやりかたでございます。あ、失礼しました。えーと、無作為に抽出をし、それを復元をして集計しているものでございます。えー、すなわち、抽出率を3分の1としたままで、じったいてきに抽出率を、えー6分の1としておりますけれども、えー、それはあの、そのあとでまた復元処理をしておりますので、数値の修正は必要ないものと考えているところでございます。

「石橋くん」

〔石橋議員〕 えっと統計委員会もおなじ評価なんでしょうか。

「石田総務大臣」
【総務大臣◆内閣府特命担当大臣◆(マイナンバー制度)◆石田 真敏】〔3:34'27〕
〔石田大臣〕おこたえさせていただきます。えー、統計委員会の委員長はですね、すうりてきには問題ないむねの、えー評価の発言を、30日の委員会でおこなっているということであります。

「石橋くん」

〔石橋議員〕 これね、われわれに資料提供いただいてないんですー。ぜひ委員長、いま厚労省が説明された統計委員会の提出資料、それから統計委員会の判断もふくめて当委員会にだしていただきたい。

〔金子委員長〕後刻理事会で協議をさしていただきます

「はい、石橋さん」

〔石橋議員〕 あの、このへん、いつからはじまったかわかっているんですかね■。

「ふじかわさん、どうですか」
「根本厚生労働大臣」

〔根本大臣〕これは、平成15年度までの、そういう集計方法を、していたんですけれど平成15年度まで、までのかん。平成15年度までの集計方法について、いつからはじまったのか、どのぐらいの規模であるか、については、確認が、確認がむずかしい、という状況であります。

「事務方、いいですか。じゃ。いいですか。はい、それじゃ、石橋くん」

〔石橋議員〕 これわかってないんです。いつからなぜはじめられたのか。あー、監察委員会の報告でも非常にさらっとかかれています。これも、あの、ぜひ徹底究明していただきたい。これ、統計の専門家によっては、ここの部分も、問題があるのではないかという指摘があります。厚労大臣。今後の監察委員会なり、あの、第三者検証でしっかりこれもあきらかにしていただきたい。ま、まずはわれわれに資料を提供いただきたいとおもいます。
〔3:36'07〕

https://www.webtv.san.go.jp/webtv/detail.php?sid=5074

このあとは、東京都の不正抽出の話題に移る。

疑問点

藤澤政策統括官は「根本厚生労働大臣がおこたえもうしあげました内容」は「1月22日の特別監察委員会報告書の概要」だという。しかし実際には、その報告書 には、無作為抽出によって調査対象事業所を半分に減らしたなどとは書いていない。また、この手法が抽出率にもとづく復元と同程度のたしからしい結果をもたらすとか、標準誤差にゆがみが発生する可能性があるとかいう意見は、特別監察委員会による評価として書かれている (15ページ) ものであり、当時の担当者がそう考えていたという記述はない。(https://remcat.hatenadiary.jp/entry/20190123/1548237122 を参照されたい。)

根本大臣の答弁では、

  • 特定の層において、調査対象として指定した事業所の半分を調査対象からはずす
  • 集計の際には、その事業所がふたつあったものとみなして集計する (調査した事業所数は、見かけ上は減っていないことになる)
  • 一方、それ以外の層に対して、「浮いた」分を割り振って、抽出率を上げる (調査した事業所数が、その分だけ増える)

ということになっている。これは、データを操作して実態よりサンプルサイズを水増ししている (このため標準誤差が実態より小さくなって「ゆがみ」が発生する) ようにみえるのだが、そういう理解でいいのだろうか。

もしこの理解でよければ、これは 統計法 第60条 でいう「基幹統計をして真実に反するものたらしめる行為」にあたるのではないだろうか。特別監察委員会報告書 26-27ページでは、この統計法第60条に違反する例として「基幹統計調査の集計過程においてデータを改ざんする行為」をあげている。データを操作してサンプルサイズを水増しし、標準誤差にゆがみを発生させる行為がこれに該当しないという理屈を組み立てるのはむずかしいように思える。

根本大臣答弁では、「一定の抽出率で指定した調査対象事業所のなかから、半分の事業所を調査対象からはずす」となっており、事業所の 「指定」 (「抽出」ではなく) が終わってから間引きをおこなったことになっている。現在の毎月勤労統計調査においては、指定「予定」の事業所を抽出したあと、調査対象事業所を決めて指定する 前に その数を減らして9割程度にしている (https://remcat.hatenadiary.jp/entry/20190811/mhlw 参照) そうなので、それよりも1段階おそかった (最終的な調査対象事業所名簿が確定した 後で サンプルを捨てていた) と読めるのだけれど、その理解でいいのだろうか。

雑感

とにかく内容がうすい。質問「どうやってじゃあ抽出を半分にされてたんですか」に対して「無作為に、機械的に、抽出して、半分にしております」という答えを返すまで、的のはずれた答えを5回繰り返してるわけである。時間にして7分以上。質問を理解していないのか、答える気がそもそもないのか。