remcat: 研究資料集

(TANAKA Sigeto)

捨てられていたサンプル: 毎月勤労統計調査2001-2003データの検証

前回の記事 https://remcat.hatenadiary.jp/entry/20190123/1548237122 で、2002-2003年の毎月勤労統計調査では、調査対象として選んだはずの事業所のうち一部しか調査していなかったこと、そしておそらくそのために調査の精度が大幅に下がっていたことを紹介した。

この記事では、この不正な調査手法によってどのくらいの割合でサンプルが捨てられていたかを推計する。対象となるのは、おそらく不正開始前である2001年調査と、標本誤差率が最高を記録した2003年調査である。「第一種事業所」のうちこの不正の対象である30-99人規模と100-499人規模の事業所の標本誤差率をもとに、2003年調査の真の抽出率を推定する。

分析結果から、100-499人規模事業所では、抽出したサンプルの約半分しか調査していなかったと推測できる。30-99人規模事業所では、調査をおこなった事業所はわずか1割程度であり、一部の産業では95%以上のサンプルを捨てていた可能性がある。

目次

問題の所在

毎月勤労統計調査 (全国調査) は、毎年の調査どれだけの数の事業所を調査したかについて、精確な数値を報告してこなかった。『毎月勤労統計要覧』には約33200事業所という数値がずっと掲載されているが、実際に調査している事業所はそれよりかなりすくなかったとされている。

1月22日の監察委員会の報告書では、2003年までの調査において、調査対象として抽出したはずの事業所の一部を実際には調査していなった、という担当課長の発言が載っている。しかし、それでどれくらい調査対象が減っていたかはわからない。以下ではこの点の検証を試みる。

方法

毎月勤労統計調査に関して報告されている数値のなかで、調査対象事業所数を知る手がかりになるのが、前回記事 でもとりあげた「標本誤差率」である。

第一種事業所については、「標本誤差率」はつぎのような式で定義される。事業所を規模と産業で区分した層のひとつについて、その層の事業所が全国にいくつあるかをN、そこから抽出して実際に調査した事業所の数をn、調査結果から求めたなんらかの推定値 (ひとりあたり給与など) についての「変動係数」をφとして

標本誤差率2 = ( φ2 / n ) ( N - n ) / ( N - 1 ) .

N や φ は年によってちがうので、精確な議論をするには、当時の統計を調べることがのぞましい。今回は、とりあえずの試算ということで、N と φ は2001年でも2003年でもおなじ値とみなすことにした。

2001年における標本誤差率を2乗したものを C0 であらわすことにしよう。また、この年の調査の抽出率の逆数を q0 とする。この年にはまだ不正調査ははじまっておらず、抽出率の設定にしたがってサンプリングした事業所をすべてちゃんと調査していたとすると、調査対象事業所数は n = N/q0 で置き換えられる。すると標本誤差率の2乗はつぎのようになる。

C0= ( φ2 q0 / N ) (N - N/q0 ) / ( N - 1 )
= φ2q0(1 - 1/q0) / ( N - 1 )
= φ2 ( q0 -1 ) / ( N - 1 )

では、2003年調査についてはどうなるか。2003年調査の標本誤差率の2乗を C であらわすことにしよう。またこの年の調査における真の抽出率の逆数 (母集団事業所数を調査対象事業所数で割ったもの) を q とする。先ほどの2001年の標本誤差率と同様に、つぎの式が成り立つ

C = φ2( q - 1) / (N-1)

以上の2つの式から、これら2年分の標本誤差率の比の2乗はつぎのようになる

C / C0 = ( q - 1 ) / ( q0 - 1 )

この式の中で、C, C0, q0 は『毎月勤労統計要覧』からわかる。そこでつぎのようにして2003年の真の抽出率の逆数を知ることができる。

q = 1 + ( q0 - 1) C / C0

この値が『毎月勤労統計要覧』に載っている公称の抽出率の逆数より大きければ、標本設計に基づいて抽出したはずのサンプルを捨てているということである。数値の比をとると、公称の抽出率とどれくらいちがっていたかがわかる。

データ

使用するデータは、『毎月勤労統計要覧』記載の抽出率と標本誤差率の表である。前回記事では2001年調査の抽出率表を載せていなかったので、下記に示すことにする。


-----
厚生労働省 (2001)『毎月勤労統計要覧』(平成12年版). p 247.
(1999年の第一種事業所抽出替えの際の抽出率表)

2003年調査の抽出率表と、2001年、2003年の標本誤差率表については、前回記事 を参照。

これらのデータは、当記事付録のスクリプト にもまとめてある。

「製造業」と「サービス業」の事業所については、下位分類によって抽出率を設定しているため、抽出率逆数の欄が空白である。これらは、分析の際にはとりあえず大きい値 (99999) を代入した。この場合をふくめ、2001年と2003年の両方の公称の抽出率がおなじである場合、2003年の真の抽出の逆数 q は、標本誤差率の両年の比だけできまる。

結果

計算した結果はつぎの表の通り。「q」の値が、上のやりかたで求めた2003年調査の真の抽出率の逆数の推定値である。「q1」は『毎月勤労統計』記載の公称の抽出率の逆数。これらの比をとったのが、「ratio」であり、この値から、どれだけの事業所が実際に調査されずに捨てられていたかがわかる。「SE_ratio」は『要覧』記載の標本誤差率の2001年と2002年の値 (「SE2001」と「SE2003」) の比であり、この2年間でどれくらい誤差率が増加したかがわかる。

表1: 100-499人規模事業所の2003年調査における「真の抽出率」推定結果

industry SE2001 SE2003 q0 q1 q ratio SE_ratio
D 鉱業 3.67 4.30 1 1 1.00 1.0 1.17
E 建設業 2.10 2.20 16 16 17.46 1.1 1.05
F 製造業 0.83 1.15 99999 99999 191969.87 1.9 1.39
F12-13 食料品、たばこ 2.92 4.17 12 24 23.43 1.0 1.43
F14 繊維 2.49 4.20 6 6 15.23 2.5 1.69
F15 衣服 3.75 8.95 8 10 40.87 4.1 2.39
F16 木材 2.85 5.82 4 6 13.51 2.3 2.04
F17 家具 3.93 4.76 6 4 8.33 2.1 1.21
F18 パルプ・紙 2.70 3.88 8 12 15.46 1.3 1.44
F19 出版・印刷 2.96 4.88 6 8 14.59 1.8 1.65
F20 化学 2.90 2.52 12 18 9.31 0.5 0.87
F21 石油・石炭 2.66 3.10 2 6 2.36 0.4 1.17
F22 プラスチック 2.94 3.75 12 12 18.90 1.6 1.28
F23 ゴム 2.54 3.49 6 4 10.44 2.6 1.37
F24 なめし革 5.94 7.89 2 2 2.76 1.4 1.33
F25 窯業・土石 3.28 2.72 12 8 8.56 1.1 0.83
F26 鉄鋼 2.37 4.18 12 24 35.22 1.5 1.76
F27 非鉄金属 3.48 3.29 8 8 7.26 0.9 0.95
F28 金属製品 2.47 2.88 16 12 21.39 1.8 1.17
F29 一般機械 2.22 2.60 32 60 43.52 0.7 1.17
F30 電気機器 2.21 2.11 24 36 21.97 0.6 0.95
F31 輸送用機器 1.97 2.42 24 24 35.71 1.5 1.23
F32 精密機器 2.74 4.51 6 6 14.55 2.4 1.65
F33-34 武器、その他 3.53 7.46 6 8 23.33 2.9 2.11
G 電気・ガス・熱供給・水道業 1.81 2.87 8 24 18.60 0.8 1.59
H 運輸・通信業 1.92 3.72 32 24 117.37 4.9 1.94
I 卸売・小売業,飲食店 2.08 4.46 18 18 79.16 4.4 2.14
J 金融・保険業 5.32 3.89 16 12 9.02 0.8 0.73
K 不動産業 5.32 6.26 2 2 2.38 1.2 1.18
L サービス業 1.30 1.29 99999 99999 98466.49 1.0 0.99
TL 調査産業計 0.68 1.02 99999 99999 224996.50 2.2 1.50

100-499人規模の事業所についてみると、たとえば 「F15 衣服」産業 の事業所は、2003年の公称の抽出率は1/10のはずであった。ところが実際には1/40程度の数の事業所しか調査されていない。つまり、本来の標本設計の1/4程度だけ調査したということであり、サンプリングされた事業所のうち4つに3つは調査されていない。

「H 運輸・通信業」 では公称の抽出率が1/24であった。しかし抽出した事業所のうち5つに1つしか調査していない。真の抽出率は1/117程度となっている。

そのほかの産業では、 「I 卸売・小売業、飲食店」 で q が q1 の4.4倍、 「F32 精密機器」 で2.4倍などとなっている。

一方で、q よりも q1 のほうが大きいケースもある。たとえば「F21 石油・石炭」では比が0.4である。ほかに「化学」「電気機器」「一般機械」などで、1より小さい比率である。これらの産業では、抽出率で指定した事業所数よりも、多めに調査している可能性がある。

このように、調査対象事業所がすくなくなっていた産業と多くなっていた産業が混じっているが、どちらかといえば前者のほうが多い。結果として、全産業をあわせると、 q が2.2程度。本来の調査対象事業所数の半分以下になっていた とみられる。

表2: 30-99人規模事業所の2003年調査における「真の抽出率」推定結果 [2019-03-19 「D 鉱業」の行訂正]

industry SE2001 SE2003 q0 q1 q ratio SE_ratio
D 鉱業 3.49 3.83 4 6 4 4.61 7.02 1.2 1.8 1.10
E 建設業 2.22 2.38 96 96 110.19 1.1 1.07
F 製造業 1.00 1.30 99999 99999 168997.62 1.7 1.30
F12-13 食料品、たばこ 3.73 5.16 64 64 121.57 1.9 1.38
F14 繊維 4.08 4.10 12 18 12.11 0.7 1.00
F15 衣服 2.85 9.17 72 32 736.03 23.0 3.22
F16 木材 3.55 3.68 16 16 17.12 1.1 1.04
F17 家具 2.71 3.56 24 16 40.69 2.5 1.31
F18 パルプ・紙 2.57 2.76 24 16 27.53 1.7 1.07
F19 出版・印刷 3.77 3.78 32 24 32.16 1.3 1.00
F20 化学 3.52 3.46 32 12 30.95 2.6 0.98
F21 石油・石炭 5.19 5.76 4 2 4.70 2.3 1.11
F22 プラスチック 3.43 2.63 36 12 21.58 1.8 0.77
F23 ゴム 2.92 2.57 8 4 6.42 1.6 0.88
F24 なめし革 4.61 3.94 4 4 3.19 0.8 0.85
F25 窯業・土石 3.01 2.34 36 16 22.15 1.4 0.78
F26 鉄鋼 2.22 3.09 32 24 61.06 2.5 1.39
F27 非鉄金属 3.74 2.51 12 4 5.95 1.5 0.67
F28 金属製品 2.85 3.98 96 96 186.27 1.9 1.40
F29 一般機械 3.46 2.36 64 48 30.31 0.6 0.68
F30 電気機器 3.44 4.00 48 48 64.55 1.3 1.16
F31 輸送用機器 2.82 2.16 48 16 28.57 1.8 0.77
F32 精密機器 4.07 4.15 12 12 12.44 1.0 1.02
F33-34 武器、その他 5.01 4.55 16 12 13.37 1.1 0.91
G 電気・ガス・熱供給・水道業 2.31 2.90 24 24 37.25 1.6 1.26
H 運輸・通信業 2.27 2.63 84 96 112.41 1.2 1.16
I 卸売・小売業,飲食店 1.73 9.14 108 128 2987.65 23.3 5.28
J 金融・保険業 5.48 3.66 64 48 29.10 0.6 0.67
K 不動産業 4.39 5.42 8 8 11.67 1.5 1.23
L サービス業 1.08 1.31 99999 99999 147125.97 1.5 1.21
TL 調査産業計 0.68 2.23 99999 99999 1075434 10.8 3.28

30-99人規模の事業所の結果を産業別にみていくと、100-499人規模事業所の場合のような、 q が q1 の4倍や5倍になっているケースはない。2.5程度の値はいくつかみられる (「F17 家具」「F20 化学」「F26 鉄鋼」 など)。

一方で、極端に大きい値を示す産業がふたつある。ひとつは 「F15 衣服」 で、23.0。もうひとつは 「I 卸売・小売業、飲食店」 で、23.3である。これらの産業では、本来調査するはずだった事業所の5%以下しか調査しておらず、ほとんどのサンプル (22/23) を捨てていることになる。

「F29 一般機械」や「J 金融・保険業」など、値の小さい産業もあるものの、全産業をトータルで見ると、標本誤差率が大幅に上がっており、調査すべき対象の1/10くらいしか調査していなかった 計算になる。

付録: 分析用スクリプト

以上の分析で使ったスクリプトを以下に示す。残念ながらCOBOLではなく、Perlである。抽出率と標本誤差率のデータはスクリプト最後に埋め込んである。

$" = $, = "\t";
$\ = "\n";

sub kibo {
	return '30-99' if $_[0];
	return '100-499' unless $_[0];
}

sub real_q {
	my ( $q0, $q1, $c0, $c ) = @_ ;
	warn ( "Invalid SE 2001: $c0.\n" )  unless $c0; 
	warn ( "Invalid SE 2003: $c.\n" )  unless $c ;
	my $C = $c * $c; 
	my $C0=$c0 * $c0; 
	
	1 + ($q0 - 1) * $C / $C0   ;
}

print qw( _size industry SE2001 SE2003 q0 q1 q ratio SE_ratio); 

while(<DATA>){
	chomp;
	($ind, @q0[0,1], @q1[0,1], @c0[0,1], @c[0,1]) = split /\t/ ;
	foreach( 0..1 ) {
		$q0[$_] ||= 99999 ;
		$q1[$_] ||= 99999 ;
		my $q = real_q( $q0[$_], $q1[$_], $c0[$_], $c[$_] );
		print kibo($_) , $ind, $c0[$_], $c[$_], $q0[$_], $q1[$_], $q, $q/$q1[$_], $c[$_]/$c0[$_];
	
	}
}

__END__
TL 調査産業計 					0.68	0.68	1.02	2.23
D 鉱業 	1	4	1	4	3.67	3.49	4.3	3.83
E 建設業 	16	96	16	96	2.1	2.22	2.2	2.38
F 製造業 					0.83	1	1.15	1.3
F12-13 食料品、たばこ 	12	64	24	64	2.92	3.73	4.17	5.16
F14 繊維 	6	12	6	18	2.49	4.08	4.2	4.1
F15 衣服 	8	72	10	32	3.75	2.85	8.95	9.17
F16 木材 	4	16	6	16	2.85	3.55	5.82	3.68
F17 家具 	6	24	4	16	3.93	2.71	4.76	3.56
F18 パルプ・紙 	8	24	12	16	2.7	2.57	3.88	2.76
F19 出版・印刷 	6	32	8	24	2.96	3.77	4.88	3.78
F20 化学 	12	32	18	12	2.9	3.52	2.52	3.46
F21 石油・石炭 	2	4	6	2	2.66	5.19	3.1	5.76
F22 プラスチック 	12	36	12	12	2.94	3.43	3.75	2.63
F23 ゴム 	6	8	4	4	2.54	2.92	3.49	2.57
F24 なめし革 	2	4	2	4	5.94	4.61	7.89	3.94
F25 窯業・土石 	12	36	8	16	3.28	3.01	2.72	2.34
F26 鉄鋼 	12	32	24	24	2.37	2.22	4.18	3.09
F27 非鉄金属	8	12	8	4	3.48	3.74	3.29	2.51
F28 金属製品 	16	96	12	96	2.47	2.85	2.88	3.98
F29 一般機械 	32	64	60	48	2.22	3.46	2.6	2.36
F30 電気機器 	24	48	36	48	2.21	3.44	2.11	4
F31 輸送用機器 	24	48	24	16	1.97	2.82	2.42	2.16
F32 精密機器 	6	12	6	12	2.74	4.07	4.51	4.15
F33-34 武器、その他 	6	16	8	12	3.53	5.01	7.46	4.55
G 電気・ガス・熱供給・水道業 	8	24	24	24	1.81	2.31	2.87	2.9
H 運輸・通信業 	32	84	24	96	1.92	2.27	3.72	2.63
I 卸売・小売業,飲食店 	18	108	18	128	2.08	1.73	4.46	9.14
J 金融・保険業 	16	64	12	48	5.32	5.48	3.89	3.66
K 不動産業 	2	8	2	8	5.32	4.39	6.26	5.42
L サービス業 					1.3	1.08	1.29	1.31

この記事の履歴

2019-01-25
記事公開
2019-03-19
表2の「D 鉱業」の行、2001年調査の抽出率逆数 (q0) の入力ミスを訂正 (4→6)。それにともない、「q」「ratio」の計算結果も訂正。なお、記事末尾のPerlスクリプト中のデータも間違っているが、そこは訂正していない。当記事執筆後に作成した英語版プレプリント http://tsigeto.info/19m では、スクリプトもふくめ、値を修正している。また http://tsigeto.info/maikin/ でも修正したスクリプトとデータを配布しているので、そちらも参照されたい。