2週間前から査読から返ってきた論文を改稿していることはすでに書いたが、ここ最近の研究時間の大半をそれに費やしている。再提出の締め切りまでは半年もあるので、別にここまで根詰めてやる必要がないのは頭ではわかってるのだが、なんとしても早く出したいので、ほとんどそれしかやってない。結果、他人の論文を査読する時間を作れていない、多分早く結果が来て欲しいと思ってるだろうから、がんばらないといけない。ドラフトをアドバイザーに送って返事を待ってる数日は、すごく解放的な気分になる、その数日に溜まった仕事をこなしてる。ブログを書く時間もないのだが、今週取り組んでいたウェイティングについて、その作業を簡単にまとめておく。
サーベイはたとえ無作為に抽出されていて代表性があるとしても、調査に協力してくれる人とそうではない人の間に差があり、それがシステマチックに生じている場合には、代表性に歪みが生じてしまう。そのため、よく国勢調査などを用いて年齢や婚姻状態、学歴といった変数でケースあたりの重み付けを変える。これを俗にcross-sectional weightsという。
パネル調査では、これに加えてlongitudinal weightsというものがある。継続調査には、脱落がつきものである。調査に回答してくれなくなる人は、例えば結婚して家を出て行って追跡できなくなったり、仕事が忙しくなって回答する時間が見つからなくなる人もいる。こちらもランダムに生じるものではないので、代表性を持たせるためには補正が必要になる(例えば、未婚者が結婚を経て脱落しやすくなる場合、未婚者を多めに見積もらないといけない)。
具体的には、脱落を予測する回帰分析から予測確率を出し、その値で1を引いた値が、継続確率になる。この継続確率の逆数をcross-sectional weightsにかけたものが、longitudinal weightsになる。
ただこう書くと、なんだ求めるのは簡単じゃないかと思われるかもしれない。たしかに、1回きりの調査ならば、そこまでは大変ではないだろう。しかし、現在用いているデータは、数年おきに新規サンプルの追加をしている(これも、脱落によってサイズが小さくなっていくパネル調査ではよくとられる方法だ)。そのため、2004年に抽出されたサンプルについては、例えば2005年の国勢調査の値を使う一方で、2009年の調査には2010年の国勢調査の値を参照する必要がある。たかだか5年と思われるかもしれないし、実際ウェイトに使う年齢分布などがそこまで変わることはない。しかし、例えば女性の学歴は若年層では高くなっているので、5年でみても変化がある。 調査年に近い官庁統計を参照するに越したことはない。
別のプロジェクトで、世界7ヵ国の世帯パネル調査をハーモナイズしたデータを使っているが、この手の調査には上記のcross-sectional/longitudinal weightsはデフォルトで調査者が提供している。個々人が異なるウェイトを使ったら、結果にもばらつきが出てしまうし、何よりパネル調査のウェイティングはかなり面倒くさいからだろう。
しかし、残念ながら現在使っている日本のパネルデータには、ウェイティング情報が提供されていないので、一から作る必要があり、これに2日とられた。かかった時間よりも、estat apiと睨めっこしたせいで生じた肩こりが辛い。
この作業の数少ないメリットは(査読者のコメントに答えられるという点を除いては)、作業を通じて、ウェイトは(デフォルトで配られているので)あまりありがたがられることのない情報であるが、この情報を提供するまでに結構な時間が投資されていることを知るに至った点である。縁の下の力持ち的なウェイトの重みを、過小評価してはいけない。ただ、正直にいうと平均値に興味がないのにウェイティングをしなくてはいけない直感的な説明が欲しい。