Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 ·...
Transcript of Let's データ分析コンテストに用いる 新擬似ミクロデータの概要 ·...
12017.3.16 高橋行雄
Let's データ分析コンテストに用いる新擬似ミクロデータの概要
〇高橋 行雄1,周防 節雄2,宮内 亨3
1BioStat 研究所(株),2兵庫県立大学,3(独)統計センター
22017.3.16 高橋行雄
教育用擬似ミクロデータ
教育用擬似ミクロデータを用いてSASユーザー総会で「Let'sデータ分析コンテスト」を過去4回開催してきたが,2016年度末で提供打切りとなった
統計センターから新たな分析コンテストに用いる擬似ミクロデータが早急に提供される見込みはなく,「Let'sデータ分析コンテスト」の継続が極めて難しい状況なった
32017.3.16 高橋行雄
新擬似ミクロデータ
統計センターから,匿名データを用いた擬似ミクロデータ作成について賛同が得られた
新擬似ミクロデータ作成は,匿名データ(47,797世帯分)から導いた複数の統計表のみから作成することが必須の条件
匿名化の観点から多次元クロス表でのセル度数が3以上となることが必須.セル度数が2以下となるデータにノイズを入れ69,131世帯分のデータ(集計乗率付き)を作成
42017.3.16 高橋行雄
69,131世帯から統計表の作成
① 世帯に関する情報14 項目と集計乗率
② 14 次元クロス表のセル毎に収支に関する203
項目の対数変換した平均値と標準偏差
③ 年間収入3階級別の主要21項目間の相関行列
これらの統計表をウェブ上に公開
さらに,この公開情報のみから新擬似ミクロデータを作成し,ウェブ上に公開
新擬似ミクロデータ作成は,試行錯誤の連続であったので,SASではなくJMP(V13)を用いた
52017.3.16 高橋行雄
年間収入は対数正規分布?
匿名データ
左側に長く裾を引いている
対数変換データに対して正規 分 位 点 プロ ッ ト で 点 が直線上に乗れば対数正規分布とみなすことができる
62017.3.16 高橋行雄
多重正規混合分布
匿名データ
対数変換データに対し多重正規混合分布のあてはめを適用したところ低年収の母集団の存在が見出された
72017.3.16 高橋行雄
母集団数を1から5まで変化
この構造を新疑似ミクロデータでも再現したい ‼
母集団数
(‐2)対数尤度
対数尤度の差
構成比対数
母平均母平均(万)
1 36995.97 - 100.0% 2.698 498.9
2 31081.06 -5914.91 13.4% 2.388 244.3
3 30585.67 -495.39 1.7% 2.040 109.6
4 30539.85 -45.82 0.021% 0.513 3.3
5 30539.84 -0.01 0.025% 0.587 3.9
χ2(df =2, 5%) 5.99
最 小 の 母 集 団
82017.3.16 高橋行雄
正規乱数を用いた復元
14次元表の14,246レコードのセル度数分の複製
順次縦方向に連結.正規乱数を用いて擬似ミクロデータ
最終的には,セル度数の合計69,131レコードのファイル
14次元
番号繰り返し
番号複製 項目名
log10
平均
log10
SD
正規乱数
loga10
擬似疑似
年間収入
1 1 1 年間収入 2.192 0.005 -0.840 2.190 154.92
1 2 2 ″ ″ ″ -1.380 2.189 154.45
1 3 3 ″ ″ ″ 0.400 2.193 156.06
2 4 1 ″ 2.430 0.006 0.360 2.431 269.96
2 5 2 ″ ″ ″ -1.580 2.426 266.38
2 6 3 ″ ″ ″ -0.480 2.429 268.41
:14246 61311 1 ″ 3.112 0.011 0.31 3.114 1299.57
14246 61312 2 ″ ″ ″ -0.37 3.110 1288.84
14246 61313 3 ″ ″ ″ -0.61 3.109 1284.99
92017.3.16 高橋行雄
互いに相関を持つ主要21項目
公表した主要21項目の年間収入3階級別に21×21の相関係数行列
互いに相関を持つ正規乱数の作成
相関係数行列をコレスキー分解した行列(21×21)と正規乱数行列(21×61,131)の積
結果は転置してJMPファイルとして保存
JMPのスクリプトを例示
102017.3.16 高橋行雄
3×3 での例示roh(相関行列)
1 0.8 0.5
0.8 1 0.7
0.5 0.7 1
chol(コレスキー分解)
1 0 0
0.8 0.6 0
0.5 0.5 0.707
chol=Cholesky(roh);
ysnorm(正規乱数・相関 0)
0.274 -0.224 0.219 -0.420 0.246
0.908 1.485 1.663 -1.682 -0.761
0.629 1.432 0.360 -0.023 0.467
ymnorm
0.274 0.764 1.036
-0.224 0.712 1.643
0.219 1.173 1.196
-0.420 -1.345 -1.067
0.246 -0.260 0.073
ymnorm=(chol*ysnorm)`;
112017.3.16 高橋行雄
互いに相関を持つ正規乱数
下位1/3階級用 69,131行 21列
122017.3.16 高橋行雄
相関関係の例示
列1:年間収入
列8:消費支出
列9:食糧費
列10:住居費
132017.3.16 高橋行雄
14次元番号=1 の平均とSD
14次元番号毎の主要21項目についての統計表から,69,131世帯分の統計表を作成
太線枠を転置,世帯番号毎に繰り返す
14次元
番号世帯番号
繰り返し
Y001_年間収入
Y040_消費支出
Y041_食料
Y083_住居
1 1 1 平均 500 200,000 50,000 10,0001 1 1 SD 50 20,000 5,000 1,0001 2 2 平均 500 200,000 50,000 10,0001 2 2 SD 50 20,000 5,000 1,0001 3 3 平均 500 200,000 50,000 10,0001 3 3 SD 50 20,000 5,000 1,000
:14,246 69,131
142017.3.16 高橋行雄
年間収入3区分別の擬似データ
疑似データ = 平均+SD×年間収入区分別の正規乱数
年間世帯番号
繰り返し
項目名 平均 SD収入3区分
1低所得
2中所得
3高所得
疑似データ
1 1 年間収入 500 50 2 0.31 0.19 0.90 5101 1 消費支出 200,000 20,000 2 0.26 0.21 0.24 204,2001 1 食料 50,000 5,000 2 1.29 1.27 1.18 56,3501 1 住居 10,000 1,000 2 -0.02 -0.10 -0.09 9,9002 2 年間収入 500 50 2 -0.46 -0.49 -0.47 4762 2 消費支出 200,000 20,000 2 0.04 -0.07 0.20 198,6002 2 食料 50,000 5,000 2 1.82 1.80 1.68 59,0002 2 住居 10,000 1,000 2 1.82 1.56 1.71 11,5603 3 年間収入 500 50 2 -0.53 -0.76 -0.34 4623 3 消費支出 200,000 20,000 2 1.67 1.52 1.02 230,4003 3 食料 50,000 5,000 2 -0.93 -1.09 -0.12 44,5503 3 住居 10,000 1,000 2 -0.35 -0.30 0.10 9,700:
69,131
互いに相関/正規乱数
152017.3.16 高橋行雄
階段状の分布:住居費
匿名データ
10万世帯比33,887世帯が支出 0 円
162017.3.16 高橋行雄
尖りが大きい分布:教育費
匿名データ
10万世帯比71,460世帯が支出 0 円
172017.3.16 高橋行雄
0 円 の割合を保持
Ni=5で,データ数nij =3, 世帯中2世帯は欠測値
一様乱数uijを発生,3/5=0.60 未満 擬似データあり
0.60以上 欠測値
世帯番号
14次元
番号
レコード
数 N i
繰返しj
項目名データ数
n ij
対数平均
対数SD
一様乱数
n ij /N i判定
扱い
9999 8888 5 1 教育費 3 4.00 0.10 0.70 0.60 × 欠測値
9999 8888 5 2 教育費 3 4.00 0.10 0.20 0.60 〇 採用
9999 8888 5 3 教育費 3 4.00 0.10 0.80 0.60 × 欠測値
9999 8888 5 4 教育費 3 4.00 0.10 0.39 0.60 〇 採用
9999 8888 5 5 教育費 3 4.00 0.10 0.50 0.60 〇 採用
182017.3.16 高橋行雄
新擬似ミクロデータ:やや平坦化
10万世帯比n=61,832
10万世帯比n=29,066
192017.3.16 高橋行雄
足し上げ構造(抜粋)
202017.3.16 高橋行雄
乱れた足し上げ構造
元の匿名データ 47,797世帯の202項目には,足し上げ構造が確保されている
正規乱数を用いて擬似ミクロデータ化
足し上げ構造は,乱れてしまう
下位項目から足し上げると誤差が拡大
上位項目から下位に逆足し上げを行なう
上位の金額に一致するように,下位の項目の金額を一定比率で増減する
212017.3.16 高橋行雄
逆足し上げの例示
穀類の下位項目の合計は360円,合計が400円になるように,下位の項目の金額に1.111倍する
魚介類の下位の金額に,0.833倍する
調整前
階層新擬似 Y名
項目名 区分足上
データ0の計
1の計
データ足し上げ
6 Y042 穀類 602 0 400 400 360 x 400 400 o7 Y043 米 602 1 200 400 360 2227 Y044 パン 602 1 100 400 360 1117 Y045 めん類 602 1 50 400 360 567 Y046 他の穀類 602 1 10 400 360 116 Y047 魚介類 603 0 250 250 300 x 250 250 o7 Y048 生鮮魚介 603 1 150 250 300 1257 Y049 塩干魚介 603 1 100 250 300 837 Y050 魚肉練製品 603 1 0 250 300 07 Y051 他の魚介加工品 603 1 50 250 300 42
調整後合計レベル 6
222017.3.16 高橋行雄
匿名データ vs 新擬似ミクロ
232017.3.16 高橋行雄
203項目のデータ数と平均の比較
変数 匿名 新擬似 差異% 匿名 新擬似log10
差異%逆対数差異%
Y001_年間収入 643 652 1.3 2.730 2.734 0.1 0.8Y002_収入総額 679,579 653,741 -3.8 5.852 5.848 -0.1 -1.0Y003_実収入 324,750 315,927 -2.7 5.497 5.495 0.0 -0.4Y004_経常収入 314,359 307,482 -2.2 5.512 5.503 -0.2 -1.9Y005_勤め先収入 261,033 259,507 -0.6 5.541 5.518 -0.4 -5.2Y006_世帯主の勤め先収入210,906 210,715 -0.1 5.509 5.485 -0.4 -5.2Y007_世帯主の配偶者の勤め先収入33,509 30,416 -9.2 5.008 4.984 -0.5 -5.3Y008_他の世帯員の勤め先収入16,618 18,375 10.6 4.991 4.946 -0.9 -9.7Y009_事業・内職収入 1,686 1,788 6.0 4.427 4.410 -0.4 -3.9Y010_農林漁業収入 354 325 -8.0 4.228 4.132 -2.3 -19.9
Y201_財産購入 3,186 2,271 -28.7 5.868 5.269 -10.2 -74.8Y202_その他の実支出以外の支出1,152 1,433 24.4 3.376 3.360 -0.5 -3.5Y203_繰越金 62,555 60,122 -3.9 4.656 4.655 0.0 -0.1総平均 28,794 27,923 -3.0 3.811 3.765 -1.2 -10.0
平均(データ) 平均(log10)
242017.3.16 高橋行雄
今後の展望
今年の第5回目コンテストの実施に間に合うように,新擬似ミクロデータを提供できたことに安堵している.
ただ,急造したために,一部にケアレスミスがあったことは,深くお詫びしたい
今回の2004年データに加え,1989年,1994年,1999年の全国消費実態調査についても,匿名データを用いて擬似ミクロデータを作成し,来年以降の「Let'sデータ分析コンテスト」に供したい