January 4, 2016

20160105 JLPSデータハンドリング

備忘録としてつけておきます(そのうち分析の再現ができるように整理するかもしれません)。


1. ワイド形式のデータをロング形式にする準備段階として、変数名を加工する。
1.1. SPSS シンタックスを用いた加工
複数の変数を組み合わせて作る必要のある変数に関しては複雑になるのでstataに移してから加工している(savからCSVに変換した後、テキストで開いて欠損の値を置換するとよい)。
使用するファイル名:recode_spss_syntax_JLPS_20160105

1.2 stataを用いた加工
stata上で作成する変数は本人父親、本人母親、配偶者父親、配偶者母親の同居ダミー(father, mother, spfather, spmother),  本人職業小分類アフターコードから作成した8分類(jobnewcode), 同配偶者(sjobnewcode), 就労フラグ(flag), 勤続年数(tenure) , 子ども人数(numchild)および年齢(age1child, age2child, age3child, age4child, age5child)、末子年齢(ychild)の作成。そして時間あたり賃金(wage)。職業小分類から時間あたり賃金までは、麦山さんのシンタックスを利用させていただきました。
使用するファイル名: recode_stata_wide_JLPS_20160105

2. これらのデータを作成した後、stataでreshape longをかける。私の問題関心は夫婦を単位として分析することにあるため、配偶者のデータでも本人と同じように細くできる場合は、本人が男性の場合、配偶者を女性として考えて夫の値に本人、妻の値に配偶者を当てるが、変数によっては厳密に左右対称にならないものがある。例えば、配偶者の年齢については、配偶者の生年はわかるものの生まれ月がわからないため、以下のようなことが生じる。JLPS調査は毎年1-3月に行われているため、本人については、1-3月生まれの場合、4月生まれ以降の対象者よりも同一生年でも1歳年齢を加えるとする。しかし、配偶者に関してはこれができない。

使用するファイル名:recode_stata_long_JLPS_20160105



No comments:

Post a Comment