September 20, 2015

パネルデータ構築について

久しぶりにパネルデータを分析するにあたって、ロング形式のデータにするまでの過程を思い出すのに時間がかかってしまったので、備忘録としてメモしておきます。

まず、ロング形式にするにはstataを使っています。したがって、stataで加工できるまでの下準備が必要です。また、ワイド形式のsavファイルがあるとします。

具体的な手順としては、
1. savファイルの状態で変数名をロング形式用にrenameする。
2. savファイルをcsvに変換してからRに読み込むか、もしくは直接Rに読み込む。
3. Rにデータフレームで読み込んだファイルから、必要な変数だけを取り出す(x[, c("x1", "x2",,,"x10")]のように(Rstudioは不推奨)。
4. 編集したファイルをwrite.csvで書き出す。
5. 新しくできたcsvファイルでは、欠損値がNAとなっているので、これをstataに入れる前に.に変換する(エクセルを使った手作業になるが、もっと効率的な方法があるはず)
6. 欠損値処理をしたファイルをstata上でインポートし、reshapeする。

2-5の作業が必要なのは、私の持っているStataがICのため、約2000以上の変数を持つデータの場合、編集ができないため。Stata SEをもっていたり、変数がこれより少ない場合はsavファイルをcsvに変換した後、(欠損値を処理して)直接stataにインポートすればいいと思います。

これ、絶対もっと効率的な方法があると思うのですが、何分我流でやってきた事情でこんな感じになっています。もっと楽な方法があれば教えてください。



No comments:

Post a Comment