remcat: 研究資料集

(TANAKA Sigeto)

対象数すら管理しない調査。それを根拠に政策を決める政府。(労働時間等総合実態調査 (2013) のデータ重複について)

厚生労働省の2013年度「労働時間等総合実態調査」について、5月25日、衝撃のニュースが飛び込んできた。

厚生労働省は25日の衆院厚労委員会理事会で、ミスが相次いで発覚した労働時間調査について、野党側の指摘で新たに6事業所で二重集計するミスがあったと報告した。
-----
共同通信 (2018-05-25)「厚労省調査新たに二重集計のミス」

https://this.kiji.is/372541440460473441

ツイッター上で出回った画像によると、つぎのようなことである。

異なる通し番号でデータがすべて一致しているものについて

平成30年5月25日
厚生労働省労働基準局

○ 異なる通し番号でデータがすべて一致している下記の6件については、コピーの混在により、同一の調査票を二重に集計していた。訂正後の集計結果は別添のとおり。

(通し番号)
・5683 と 5699
・5684 と 5700
・5686 と 5702
・5687 と 5703
・7583 と 8042
・10604 と 10605
-----
2018-05-25 @mu2883 ツイート添付画像から筆者書き起こし

https://twitter.com/mu0283/status/999834195777081344

これまでにさまざまな問題が指摘されてきた「労働時間等総合実態調査」であるが、これはさすがに理解を超えた内容である。「コピーの混在により、同一の調査票を二重に集計」って、まずなぜ「コピーが混在」しうるのかわからない。「異なる通し番号」だということは、「コピーしたあとで別の通し番号をあたえた」ということであろう。それはデータの水増し、というか捏造 (社会調査業界でいう「メイキング」) じゃないのか?

さらに、あがっている6組の「通し番号」をみると、最初の4組が近接した番号にかたまっている。しかも これら4組すべてで番号の差が16 になっている。なにやら規則性がありそうだ。しかし 5683, 5684 ときて、つぎが 5686 となると、「5685 は問題ないのか?」という疑問がわく。

重複データはどのようになっていたのか

素データ (http://tsigeto.info/mhlwdata/) にもどって検討してみた。これは2月19日に厚生労働省から提供されたExcelファイルによるものであり、その後の「精査」などによる変更 は反映していない。また、事業場の基礎的な属性 (業種や従業員数など) と法定時間外労働などの変数しか入っていない。

  • 単に「通し番号以外の全変数の値が一致」という条件だと、2400件の重複がみつかる
  • しかし、これらのほとんどは、法定時間外労働および「労働時間の状況」の変数が全部ゼロか欠損値のケースである
  • 法定時間外労働および「労働時間の状況」の変数のどれかに正の数値が入っているケースだけをこれらから抜き出すと、16件が重複している (ユニークなものが8件で、それらが2回ずつ出現する)

これら16件とその前後をExcelファイル上で色づけすると下のようになる。


-----
「労働時間等総合実態調査」(2013) データ (http://tsigeto.info/mhlwdata/ 掲載のExcelファイルを加工)。着色した行が重複部分。空行は、データが省略されていることを示す。

黄と赤の部分が、上記のように厚生労働省が今回の文書で重複を認めたデータ (12件)。緑と青は、それ以外で同一の内容であるデータである (4件)。後者の4件については、裁量労働制の「労働時間の状況」の変数に数字が入っている。おそらく、裁量労働制に関するデータを撤回した ことによって、現在の厚生労働省の解釈ではこれらの部分はすでにないことになっており、したがって今回の検討からもはずされたのだろう。しかし、これらのデータ (通し番号 5685-5701 のペアと 5688-5704 のペア) においても、業種分類や従業員数に加えて、労働時間に関する変数も「14時間30分」「16時間48分」といったこまかいところまで一致しているので、同一データであった可能性は高い。また、5685-5701 ペアは前後2件ずつがほかの重複データにはさまれているし、5688-5704 ペアも直前2件が重複データなので、一連の重複入力に巻き込まれたものと考えておいたほうがよいだろう。以上の推理が正しければ、2013年におこなわれた「労働時間等総合実態調査」においてデータの重複が生じたのは、16件 (=8件×2回) ということになる。

この画像からわかるように、5683-5688 の6件のデータが、16件あとの5699以降にそのまま入っている。それ以外は、7583 のデータが 8042 に、10604のデータがその直後の10605に入っている。

重複が生じた原因

なぜこのようなことになったのか。5月30日の衆議院厚生労働委員会の質疑で、原因について厚生労働省側から説明があった。業者にデータ集計を委託した際に、回収した調査票原票とそのコピーとが混在したものをわたしたとのことである。その結果として、同一の内容をもった原票とそのコピーが重複して入力されたデータが納品されたという。

○山越労働基準局長 今回の25年度の労働時間等総合実態調査でございますけれども、監督官に調査票を配付いたしまして、記入した調査票を各労働局でとりまとめて、それから厚生労働省労働基準局に送られて、それから集計の委託先に送ったという経過になっておりまして、どの時点でそういったコピーが混在してしまったかということは判明しないところでございます。

○尾辻かな子君〔立憲民主党・市民クラブ〕 どういう管理をしたらコピーが混在するんですか。だって、もともと原票なわけでしょう。で、もともとですね、私もきのう聞きましたけれども、調査の調査票というのはA3で3枚物で2つ折りになってホッチキスになっているんですよ。これを調査して、聞き取って、そしてそれを集計して送るわけですよねえ。〔……〕

〔……〕

○山越労働基準局長 この今回の労働時間等総合実態調査でございますけれども、これについては、調査票に記入したその調査票自体を返送していただく、厚生労働省労働基準局に送っていただくという仕組みにしていたわけでございますけれども、そのなかでコピーというものが送られてきたこともあったわけでございまして、そういったなかで、今回、こういった混在が起こったというふうに考えております。

○尾辻かな子君 つまり、原票をかえすように指示していないということですか。

○山越労働基準局長 これは、付表〔調査票〕の回収にあたりましては、各労働局から、原則として付表本体を送付させていたものでございますけれども、原本のコピーが送られてきたケースもあったというふうにきいているところでございます。

○尾辻かな子君 あの、これ全然調査として管理できていないということですよね。原票以外のコピーもゆるすということになったら、どんだけコピーがまぎれていたってわからないじゃないですか。〔……〕

〔……〕

○山越労働基準局長 私ども、この労働時間等総合実態調査でございますけれども、これは、本省への報告は原本が原則であったわけでございますけれども、コピーでも、それは、いけないということではなくて、さしつかえないものであったわけでございます。私どもといたしましては、できるだけ、今回の労働時間等総合実態調査、その調査結果を精査してより正確性を高めるということが大切だと思っておりますので、今おっしゃられたようなこと〔コピーを使ったのが何件あるのか〕について調査をしていくという考えはないところでございます。

○尾辻かな子君 いや、コピーでも可なんてどこに書いているんですか。

○山越労働基準局長 わたしどものとりあつかいでは、これはコピーではいけないというとりあつかいにはしていなかったところでございまして、コピーでも、これは、調査票として、集計の対象となるものでございます。

〔……〕

○尾辻かな子君 調査の基本で、コピーがだめだって書いていなかったらコピーがいいって、おかしいと思いますよ、私、調査として。こんなんだった、だから混入がおこるんです。もともとの調査設計がまちがっているんですよ。だから、こういう混入がおきて、本来コピーしたものと原票なんて混ざるわけがないものが、ここで最初に調査設計をまちがえているからコピー混入しているんでしょう。本当の調査結果とコピーしたぶんがわからなくなるなんて、調査の基本的な設計ができていないということなんですよ。
 で、もう一つ、なぜ事業所がコピーでふえたのにわからなかったのか、ここ明確にこたえてくださいよ。だって、この事業所に、この労働基準監督署に、たとえば100調査しろとおりていくわけでしょう、なのに、101かえってきたらおかしくないですか。なぜここでわからないんですか。

○山越労働基準局長 お答え申し上げます。先ほど申し上げましたように、今般、原本のコピーが本体とあわさってあったケースがあったわけでございますけれども、それがどこで混入したかということはわかってないところでございまして、いまおっしゃられたのは、地方局から本省に、どういうふうに管理をしているかということでございますけれども、その時点で枚数はうけとりのときにおそらくチェックをしていると思いますけれども、そのなかで、どうして、その前なのか後なのかをふくめまして、どのように混入したかというのは現時点ではわかっていないところでございます。

〔……〕

○酒光政策統括官〔厚生労働省 政策統括官〕 先生、すいません、私どものところで再集計のほうをさせていただきましたので、その状況でお答えいたしますと、残っているものでいえば、労働局から送られてきた調査票と調査の枚数というのは、混入がないほうにあっているようなかたちになっている、というふうに考えております。ですから、これははっきりとしたことはわかりませんけれども、混入は本省の作業のなかで生じたんだろうというふうに考えておりまして、なぜそれが起きたかというと、受付のときの処理について、まだちょっと手なれていない職員がとりあつかったからじゃないかというふうには想像しております。
 なぜわからなかったかということにつきましては、データを処理するときに事業場名とかそういうものはもういっさい取っていますので、事業場の受付番号といいますか、事業場の番号ですね、新たに振った事業場の番号で管理していますが、それはあの、混入したコピーも含めてもう番号が振られていたので、集計の段階ではちょっと気がつかなかったということであります。今回先生から御指摘いただいて、おなじものがあるんじゃないかということでいろいろなデータのチェックをしたところ、6件、総数で12件になりますけれども発見した、こういう経緯でございます。

○尾辻かな子君 あのう、ですからね、それ自身が、なぜもともとの事業所の調査にユニーク番号、固有の番号が振られてないのかということなんですよ。で、〔配布資料の〕めくっていただいたところの2ページ目に、ここには32と書いてありますよね。普通、事業所に固有の番号をつけ、それをデータにやっていかないと、これはひもつけられませんよね。今どうやって原票にあたってるんですか。ひもつけどうしてるんですか。

○酒光政策統括官 お答えいたします。今、原票にあたるあたりかたは、そこに書いてある番号にもとづいてあたっているわけなんですけれども、この番号を振られたのが、調査の集計をおこなう機関、委託している機関がございますけれども、そこに送った段階でたぶん振られたというふうに考えております。ですから、送られる段階ですでに混入があったので、混入されたものにも番号がついていたと。〔……〕

〔……〕

○山越労働基準局長 今回のその25年の調査に際しまして、いま統括官からも御説明しましたように、調査票を監督署で配付した時点で何らかの番号を振るということはしておりませんでした。この点については、今後調査をおこなう場合には、まぎれがないようにするという観点からどのように対処するか、反省すべき点であるというふうに考えているところでございます。

○尾辻かな子君 〔……〕 各労働局に、たとえば、おたくは100やりなさいよ、って言うわけですよね。それで、101とか102とか、そういうふうにかえってくるような調査方法になっているんですか。つまり、指定された事業場を調査するのか、それとも数さえあればどんな事業所でもいいのか、そして指定されていない事業所を調査してもいいのか。この辺ね、なぜふえたのにわからなかったのか、っていう理由が私は知りたいんです。なぜふえたのにわからなかったのか、事業場がふえたのに。

○山越労働基準局長 この調査、でございますけれども、業種別・規模別・地域別に事業場の数を勘案して、本省のほうで各労働局ごとの業種別・規模別の調査対象事業数を決定いたしまして、それにしたがって、各労働局で対象となる事業場を抽出して実施しているところでございます。

〔……〕

○酒光政策統括官 今回の調査にあたりましては、調査設計にもとづいて、事業種とか規模別に事業場数を決めて、各労働局で、この規模この業種のこのカテゴリーに相当する事業場をいくつ選べというような指示をしておりまして、その指示にもとづいて、各監督署が台帳を持っておりますので、その台帳から無作為抽出をする、そういうやりかたをしております。ですから、本省で事業場まで指定しているものではない。数は当然管理をしているというものですので、数の管理は、さきほどのかえってきた返送票などによって管理をする、そういうことになります。

〔……〕

○初鹿明博君〔立憲民主党〕 コピーが混在という、なにか混在ということばの使いかたがよくわからないんで確認をさせていただきたいんですけれども、なんでこのね、6つだけコピーが複数あったんですか。

○酒光政策統括官 お答えいたします。あの今となっては本当に正確なところはわかりませんけれども、状況的なことで申し上げますと、調査票を委託会社に送るにあたって、手元にコピーを持ってたほうがいいだろうということでたぶんコピーをしたんだと思います。そのコピーを手元に置くべきところをあやまって業者のほうに送ってしまったということではないかと思っておりまして、業者のほうではそのチェックができてないので、ちがった調査票だということで、これは全部原票だということで処理をした、とまあそういうことだと思っています。

○初鹿明博君 そんなことってあんのかなとまず思いますけれども、件数が何件というのがわかってれば、複数になって計上されていたら、件数ちがうじゃんというので、あらためてみるんじゃないんですかねえ。そこがね、私理解できないです。
-----
衆議院 インターネット審議中継 (2018-05-30) 厚生労働委員会「厚生労働関係の基本施策に関する件」。
〔 〕内は筆者による補足。〔……〕は省略をあらわす。

http://www.shugiintv.go.jp/jp/index.php?ex=VL&deli_id=48224&media_type=fp

厚生労働省からは山越労働基準局長と酒光政策統括官のふたりがでてきて説明しているのだけれども、ふたりのあいだで説明がくいちがっている。

山越労働基準局長の答えは、一貫して、経緯は不明というものである。「どの時点でそういったコピーが混在してしまったかということは判明していない」「原本のコピーが本体とあわさってあったケースがあったわけでございますけれども、それがどこで混入したかということはわかっていない」「枚数は〔本省での〕うけとりのときにおそらくチェックをしていると思いますけれども、そのなかで、その前なのか後なのかをふくめまして、どのように混入したかというのは現時点ではわかっていない」。

一方、酒光政策統括官は、実際の調査にあたった労働局での作業ではなく、厚生労働省に調査票が送られてきたあとの問題だという。「労働局から送られてきた調査票と調査の枚数というのは、混入がないほうにあっているようなかたちになっているというふうに考えております」「はっきりとしたことはわかりませんけれども、混入は本省の作業のなかで生じたんだろう」「なぜそれが起きたかというと、受付のときの処理について、まだちょっと手なれていない職員がとりあつかったからじゃないかというふうには想像しております」「調査の集計をおこなう機関〔……〕に送った段階でたぶん振られたというふうに考えております。ですから、送られる段階ですでに混入があったので、混入されたものにも番号がついていた」「調査票を委託会社に送るにあたって、手元にコピーを持っていたほうがいいだろうということでたぶんコピーをしたんだと思います」等々。もっとも、断定を避けて「……と考えております」「想像しております」「たぶん……というふうに考えております」のような言いかたをしているし、根拠が示されるわけでもない。

つまり、データ重複が起きた経過はわからないのだろう。調査票 (あるいは「付表」) の原票 (あるいは「原本」) とそのコピーの両方が入力されていたということは確かなようであるが、それがいつ起きたのか、なぜ起きたのかは特定できていない。

労働時間等総合実態調査の実施体制

上記の国会答弁からは、そもそも調査のやりかたに大きな問題があったこともわかる。

各労働局から送られてくる調査票について、酒光政策統括官は「数は当然管理をしている」と答えている。しかしその内容は、「返ってきた返送票などによって管理」というものである。「返送票」というのは、調査要領の最後にある「別紙4」のことであろう。


-----
厚生労働省 労働基準局長 (2013-03-08)「労働時間に関する調査的監督について」(基発0308第1号) 別紙4
(2018-02-19 衆院予算委員会(昼)理事会提出資料による)。

https://www.minshin.or.jp/download/37459.pdf

ここに書くのは合計の票数だけ。もし各労働局が調査票原票とそのコピーをごっちゃにして送ってきたのだとしたら、そのときの「返送票」には、当然、原票とコピーをあわせた票数が書いてあるだろう。それと実際に送られてきた調査票の件数は、当然のことながらおなじであろう。本来は、各労働局が自己申告してきた調査票数が正しいかどうかを、 本省の側で持っている数値 と照合しなければならないが、そうしたチェックの仕組みがなかったようなのである。

本省で標本設計をして、調査すべき対象数を層別に指定する、というこの調査のやりかたからすると、このような回収票の管理方法は、ふつうはありえない。尾辻議員の指摘のとおり、「100調査しろとおりていくわけでしょう、なのに、101かえってきたらおかしくないですか。なぜここでわからないんですか。」というのが常識的な感覚である。しかしこの調査においては、労働局から「今月分の調査票を101部送ります」という返送票付きで送られてきたら、それはそのまま受けとっているのだろう。すべての月の返送票が出そろってから、調査票の合計数をチェックして標本設計と突き合わせる、という手順が踏まれていたなら、おそくともその時点で、指示したとおりの調査票数が提出されたかどうか確認できるわけであるが。

通常の調査手続きでは、この部分はもっと厳密に、各々の調査対象に固有の番号 (いわゆるID) を振って管理する。どの労働局からどのIDの調査票が返ってくるはずであるかのリストを調査本部に置いておき、受領時にはそれと突き合わせて確認する。さらに最後に全調査票のIDを確認し、どのIDの調査票が回収できていてどれができていないのかをチェックし、回収率を確定する。しかし「労働時間等総合実態調査」はこのような体制をとっていなかったので、標本設計どおりに調査がおこなわれたかどうかを確かめるすべがない。

回収率100%超の調査?

もちろん、労働局から調査票が返送されてきた以降にも、コピーが混入する機会はある。酒光政策統括官はこちらの立場をとっているようである。「今となっては本当に正確なところはわかりませんけれども」という慎重な前置き付きではあるが、「調査票を委託会社に送るにあたって、手元にコピーを持っていたほうがいいだろうということでたぶんコピーをした」「そのコピーを手元に置くべきところをあやまって業者の方に送ってしまったということではないか」と述べている。

まあそういうことなのかもしれない。すでにみたように、問題の「重複」ケース8件のうち6件は、連続した番号のものだった。それらが16件あとにごっそり挿入されたような格好になっている。たとえばコピーを16通ずつセットでとっていたところ、そのひとかたまりのコピーを積む場所をうっかりまちがえて原票といっしょにしてしまった、というようなストーリーを考えるといい。同一規格で印刷・製本されたもので原票を統一しておけば、そうでないものとは見た目ではっきり区別できるから、そういうことが起こりにくくなる。しかし実際には労働局からかえってきた時点でコピーの調査票が混在していたということなので、とりちがえがおこりやすい状況でコピー作業していたわけである。

しかし、仮にそうだとしても、コピーによって件数が水増しされた状態で業者がそのままデータ入力してしまうことはふつう起きない。初鹿議員のいうように「件数が何件というのがわかっていれば、〔……〕件数ちがうじゃんというので、あらためてみる」はずだからだ。入力すべき票数は決まっているのだから、その数に調査票1冊あたりの入力量をかけたものが業者に発注する入力作業の分量である。当然、業者はその票数を念頭に置いて作業工程を組み、見積もりを出したうえで契約を結んでいる。実際に送られてきた票数がちがっていたなら、「受け取った調査票の数が契約より多いんですけど」という問い合わせがくる。

なんらかの事情で、件数が増えていることにそこでは気付かなかったということはあるかもしれない。しかし、 最終的に納入されてきたデータの件数は重複分だけ増える のだから、それを知らなかったということはいくらなんでもありえない。実際、労働政策審議会に提出した資料では、重複したデータをふくめて「11,575の事業場を対象」と書いていたのである (https://remcat.hatenadiary.jp/entry/20180319/mhlw2013)。本当に調査の対象としたのはもっとすくないはず (情報が公開されていない (後述) ため不明だが、厚生労働省の担当者は当然知っている) だから、データが増えているのはわかっていたにちがいない。

「労働時間等総合実態調査」の過去の資料をさかのぼると、1997年度調査のみ、回収率が公表されている。これ以外の年度には回収率の記述は見当たらない (https://remcat.hatenadiary.jp/entry/20180319/summary)。これは、1997年度以外には、調査対象数と集計データの件数とを突き合わせる作業をやらなかった (あるいは、やった結果、齟齬が出たので情報を隠した) ということなのではないか。

実際、前回の2005年度「労働時間等総合実態調査」においては、集計されたデータの件数が標本規模を上回っている。この調査の調査票や調査要領をふくむ通達「労働時間等に関する調査的監督について」(基発第0311008号 2005年3月11日) は、全国労働安全衛生センター連絡会議のサイト (http://www.joshrc.org/~open/doc/a05.htm) で公開されているが、その別紙3の1「労働時間等に関する調査的監督対象事業者数 (全国)」によれば、調査対象の事業場数は11,663である。しかし労働政策審議会では調査対象事業場数は11,670と報告 (https://remcat.hatenadiary.jp/entry/20180319/mhlw2005) しており、7事業場増えている。11,663件の調査対象から11,670件のデータをえたということなら、回収率は100%を超える。このときにも水増しされたデータを使っていたようである。

また、調査対象数を管理していなかったとなると、件数は増えるだけでなく、減る場合もありうる。たとえば、どこかの段階で調査票を紛失すれば、それだけ件数が減る。この場合、出来上がったデータからはそのことはわからない。今回のように重複データが水増しされている場合には、完全におなじ内容のデータが複数あるという奇妙なことが起きるのでそこから摘発できるが、単にデータがなくなっていた場合には、そのような手掛かりはないのである。

さて、2013年度の「労働時間等総合実態調査」の調査票・調査要領は、ほとんどが黒塗りになった読めない状態のものしか公開されていない。標本規模が書いてあるはずの別紙3の1は、つぎのような感じである。


-----
厚生労働省 労働基準局長 (2013-03-08)「労働時間に関する調査的監督について」(基発0308第1号) 別紙3の1 (2018-02-19 衆院予算委員会(昼)理事会提出資料 による)。橙色の書き込みは筆者による。

https://www.minshin.or.jp/download/37459.pdf

この「別紙3の1」の様式が 2005年度調査のもの とほとんどおなじだとすると、橙色の楕円で示したあたりに対象事業場数が書いてあるはずだ。その数値はいったいいくつなのだろうか? もしこの値が11,567であれば、そこから8件が重複入力されて11,575になったのだろうということで納得がいく。しかし、事業場数が増えていたにもかかわらず、そのことを隠して「調査は、11,575の事業場を対象に〔……〕実施」という虚偽の資料を作成した経緯については、きちんと説明してもらう必要がある。一方、ちがう値だったとすれば、重複データ入力以外にも合計数がずれる原因が別にあったということだから、そちらも究明しないといけない。

「労働時間等総合実態調査」は、合計の調査対象数すら管理しないという、ちょっと信じられないレベルの杜撰な調査体制でおこなわれてきた。それは2013年に突然そうなったわけではなく、ずっと以前からそうであったと推測できる。そして政府は、調査方法の質を吟味することなく、集計結果を政策立案に利用してきたのである。