January 22, 2017

1月22日

20日にワークショップでの報告、21日に研究会報告ですっかり疲れてしまい、ほぼ丸一日寝ていました。午後,というか夜から作業を再開して、ggplotをきれいにしたり、原稿改稿、あとはパネルデータの話も少し進めてみました。この休日は、全豪オープン、全日本卓球選手権、全国駅伝など色々催し物がありましたが、個人的にはやはり稀勢の里の初優勝、嬉しかったですね。インタビュー見て、我慢して努力し続けることの大切さを改めて感じました。

January 18, 2017

1月18日

最近もっぱらデータ分析と言ってましたが、修士論文を基にした論文の原稿執筆に明け暮れておりました。1月序盤に昨年家族社会学会で報告したものを原稿にし、すこし休んで、今は昨年の日本社会学会で報告したものを書き進めています。並行して、数理社会学会大会の要旨を作成中。

21日に原稿を院生研究会で検討してもらいますが、その前の20日に東洋文化研究所でアジア学生調査を用いた報告を行います。
3rd Joint Conference between NTU and UTokyo

2月は今のところ、5日に二次分析研究会報告会、6-7日に東北大学でリーディング関連のカンファ、13日に某研究会、少し間をおいて3月末に別の二次分析研究会で報告します。3月中旬の数理もおそらく報告すると思います。多いですね。きちんと計画を立てる必要性を痛感します。

特に先週の記憶がないのですが、修論要約を提出し、入れ子ロジットや代入法、傾向スコアの勉強をしてました。あとは温泉ですね。日記も忘れずつけたいと思います。

January 12, 2017

『理論と方法』に論文掲載

まだ手元にはありませんが、今月刊行された数理社会学会の機関誌 『理論と方法』に拙論「分析社会学の理論構造」なる研究ノートサイズの論考が掲載されております。色々と条件重なって、特集企画として執筆する機会をいただき、感謝する次第です。関心ある方はご高覧ください。執筆時は修士論文でてんやわんやだったので、何を書いたか記憶があやふやで、届いたら自分でも読んでみようと思います(苦笑)。

最近データ分析しかしてませんが、この手の話には関心があり、バランスよく勉強していきたいと思います(とはいっても、仕事としては計量の方が比重重く、、、)。頑張ります。

January 8, 2017

nlogitトラブルシューティング

25分かかってようやくnlogitの推定結果が出ました。いくつかエラーに見舞われ、ウェブで検索しても満足な回答がなかったので、備忘録がてらつけておきます。基本的なマニュアルはこちらを参照。

note: xxxx cases (yyyy obs) dropped due to no positive outcome or multiple positive outcomes per case

nested logitは一つの個体に対して、当たり前ですが一つの選択肢しか認めません。最初はnlogtiのoption部分で ", case(id)"としていたのですが、今回はイベントヒストリーを走らせているので、一つの個体が複数のリスク期間を経験しています。したがって、個人*時間通りのidyear変数を別途作らないと、以上のようなエラー(というか忠告)が出て、大部分のケースが除外されてしまいます。

at least one alternative of var2 is contained in multiple alternatives of var1; this is not allowed

var1がtreeのレベル1とします(レストランのタイプなど)、var2が具体的な選択肢(店名)とします。var2が複数のvar1のカテゴリに入っている場合、以上のようなエラーが出ます。単純に用いる変数をミスっていました。ある個体が4つの最終的な選択肢を持つ時、分析に用いるケースは個体*4に等しくなります。実際には、その4つの選択肢のうち、どれか1つが個体によって選択されます。

note: branch 1 of level 1 is degenerate and the associated dissimilarity parameter ([first_tau]_cons) is not defined; see help nlogit for details

選択肢が一つしかネストされていない場合、以上のような警告が出ます。ここで必要な作業は、一つしかサブカテゴリがない選択肢に関して、以下のような制約をかけることです。

constraint 1 [altvar1_tau]_cons = 1

altvar1は、var1の選択肢です。最初の1はラベルに等しいので、数字ならなんでも良いはずです。後者の1は、dissimilarity parametersの係数を1に固定するという指示です。nlogitの際には、オプションのところにconstraints(1)のようにします。
先のようなnoteが出てしまいますが、事前にこのような処理をしていれば、推定結果は以下のようになります(処理をしても警告は出るので驚かないでください)。degenerateは割とよく発生する事態ですが、先のマニュアルには具体的な対策については書いていません。制約をかけないと、all constraints are invalidというエラーが出てしまうかと思います。

      choice |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
(省略)
dissimilarity parameters
type         |
  /first_tau |          1  (constrained)
 /second_tau |  -2.361679   .0556322                     -2.470716   -2.252642




January 7, 2017

1月7日

論文を書かなくてはいけないのですが、湯島天神に初詣に行ってきました。昨年と変わらずの人混み。受験シーズンですからね。

参拝後、渋谷まで行ってマリメッコ展。なかなか良かったです。前半は、歴代の著名デザイナー、後半はデザインに焦点を当てた展示。なかなか図案レベルまでの資料は残っていないようで、工夫していると思われる箇所が散見されました。初代デザイナーのヌルメスニエミのインタビューが非常に興味深く、戦後女性は解放されたのだからコルセットに縛られるようなファッションではなく、女性の体からスタイを作っていくようなゆったりとしてデザインにしたのだという一言は印象的。ちなみに、ファッションというのは時代を追っていくものだけど、デザインというのは前向きに時代を作っていくものだという言葉も唸りました。

吉祥寺に戻って、井の頭動物園。といってものみたのははな子の展示と彫刻館。井の頭動物園のはな子の展示ですが、単頭飼育が批判されてきたとまでは書いてないが、現在は自然環境に近い群れ飼育が世界的な潮流であることにも触れていました。改めてみると象一頭には狭いコンクリのスペースも、慣れ親しんだ場所と考えればそれもありだったのかもしれないと思います。はな子の歴史は日本の動物園史を反映しているのでしょう。

ただ、今後はな子の展示に使っていたスペースをどうするかと考えた時、新しい象を招こうとしたら批判されるだろうし、群れ飼育は無理だろうと思います。別の動物か、あるいはしばらくの間は見学スペースとなるのかもしれません。なお、今年5月に吉祥寺駅北口にはな子の銅像を立てるべく、寄付を募っています。

井の頭公園には北村西望のアトリエがあった関係で、動物園の中に彫刻館が何故かあり、それ以外にもちらほら像(象ではなく)が園内に建っています。長崎平和祈念像の試作品は10m弱ですが圧巻。


そのあと、商店街で買い食いして、帰宅。寝てしまいました。


January 5, 2017

diagonal reference model (DRM) -地位の組み合わせがアウトカムに与える影響の推定-

社会移動にしろ、夫婦の地位結合にしろ、パターンの組み合わせは掛け算でm*n通りあるわけだが、社会学ではこうした地位の組み合わせが出生力や社会的態度に与える影響が検討されてきた。カテゴリが同じならば、2m通りの組み合わせがある。ここで、上昇移動なり、下降婚の効果を知りたい、まあ何と比べてという点が重要なわけですが、とりあえず比べたいとする。

ここで、幾つかアプローチがある。Eeckhautのレビューが参考になるが、大きく分けると「差分」(difference)アプローチと「合成」(compound)アプローチの二つがあるらしい。前者は、量的にしろ質的にしろ、二つの地位の差分を取る。例えば、3分類の学歴だとして、夫が1、妻が3だとすれば、引き算して-2のように。この手法は、心理学界隈では批判されてきたらしい。例えば、両者の学歴は似かよる傾向にあるので、差分を取っても測定の信頼性に疑問符がつくらしい。また、線形にとらえる場合には、本当にリニアなのかという点に疑問がつく。あるいは、9パターンあったとしても3-2と2-1は同じ1なので、情報をロスしてしまう。

合成アプローチとは二つの変数の差分を取るのではなく、両者を組み合わせる。m*n通りのパターンがあるとすると、それらを全て指標化したり(mn-1のダミー変数)、あるいは主効果を残して交互作用を検討する((m-1)+(n-1)+(m-1)(n-1)のダミー変数)方法が検討されてきた。この合成法では、情報量が多いというメリットはあるが、大抵極端な値はケースが少ないので推定が不安定になり、結果的にマージすることになる。また、前者の場合にはベースラインの効果を入れていないので、主効果込みの解釈になってしまう。もちろん、主効果込みで別途交互作用を入れることは可能ではあり、素朴な方法としてはこれが一番納得のいくものと考えられるが、Sobelらは解釈が煩雑になることに懸念を表している。

では何がいいのか。Sobel (1981, 1985)で提唱されているのが、diagonal mobility model、より一般的にはdiagonal reference model (DRM)である。この手法の発想は、名前の通り、対角セルをレファレンスとするところから出発している。要するに、i*jのクロス表を考えた時、対角セルとはi=jのセルのことである。このセルにいる人は、非移動であったり、同類婚の状態にある。
ここで、移動した人や、異類婚の人の地位を考える。この人たちは、二つの異なる地位から組み合わされたケースと考えられる。RiCj (ただしi != j)のセルを考える。DRMの発想は互いに異なる地位からなるセルの度数を、二つの地位がそれぞれ同一である場合のセルの度数の重み付けによって定義しようとしている点が重要である。

すなわち、p+q=1、セルの平均度数をμとすると、

Fijk=p*μii + q*μjj + εijk

ここで、εは誤差項、kは各個人とする。μはそれぞれ対角セルiiとjjの期待度数を示している。したがって、異なる地位からなるセルの度数は、任意の二つの対角セルの度数の重み付けによって定義される。このp, qを非線形モデルとして推定するのがDRMである。ちなみに、対角セルの場合にはp+q=1なのでμiiないしμjjに等しくなる。pの値がわかればqも自動的にわかるので、度数の予測はpと対角セルの度数がわかれば計算できることになる。

パラメータp, qの解釈は「平均的な行と列の影響力」と解釈できる。あるいは、重み付けと解釈しても良い。例えば、pの値は0.7であれば、各非対角セルの度数を決定する際に、行の効果(親の地位なり一方の配偶者の地位)が7割を占めているということである。帰無仮説的に考えるのであれば、p=q=0.5であろう。

このモデルだけだと、あまりに素朴なので、幾つかの拡張方法がある。例えば、行列の重み付け効果は下降移動の場合に異なると考えるのであれば、下降移動の場合に1となるようなパラメータを設定して、p'とq'を推定することもできる。また、個人ごとの共変量を入れることもできる。下降移動が度数に対して独立に影響すると考えれば、それも別途入れられる。前者をXijl、後者をDijwとすれば、

Fijk=p*μii + q*μjj + +βl*Xijl + βw*Dijw +εijk

のように推定される。なお、度数を独立に予測する下降移動と、行列の重み付けが下降移動とそれ以外とでは異なるというのは、別個のものである。

推定されるパラメータは重み付けのスコア、対角セルの平均値、ならびに共変量の係数(と標準誤差)となるので、gnmで推定した結果はやや気持ちが悪くなる点には注意。Eckhautらの以下の論文がわかりやすい例である。

Eeckhaut, M. C., Van de Putte, B., Gerris, J. R., & Vermulst, A. A. (2014). Educational heterogamy Does it lead to cultural differences in child-rearing?. Journal of Social and Personal Relationships, 31(6), 729-750.

DRM誰かやっていないか探してみましたが、いました、なんと岩澤先生笑(1995SSMのメンバーだったとは...) DRMは社会移動のアウトカムを測定するために発達した手法で、Sobelがこの方法を提唱した時に用いたのが出生ということで、岩澤先生もやってみたという感じでしょうか。先生が実際に分析されているのはHopeのダイヤモンドモデルですが、結構感動します。
http://srdq.hus.osaka-u.ac.jp/PDF/SMM1995_r2_5.pdf

動機としては、以下の二つの論文に触発されました。社会移動の効果を簡潔に表現したいという欲求でDRMは発展しているが、夫婦の地位結合に関しても同様の議論は応用できると考えられ、すでに幾つか研究もあります。
Eeckhaut et al. 2013. Analysing the Effect of Educational Differences between Partners: A Methodological/Theoretical Comparison. ESR.

Gong. 2007. Does Status Inconsistency Matter for Marital Quality? JFI.

以上、1月31日までの宿題。DRMについてはあとで山口先生の論文も読んでおく。
https://www.jstage.jst.go.jp/article/ojjams/20/2/20_2_137/_pdf

ちなみに、最初はこのツイートから、Omar Lizardoが開発したdiagrefパッケージを使ってみようとしたが(解説もあるが http://www3.nd.edu/~olizardo/Stataprogs/diagref/diagref.pdf)、なぜかサポートされていない、というかパッケージ自体が見つからない。
https://twitter.com/familyunequal/status/239371679212642305

従って、Rのgnmパッケージを使うことにする。
https://cran.r-project.org/web/packages/gnm/gnm.pdf

1月4-5日

4日は遅く起きて、作業したのち駒場で地熱ミーテ、久しぶりに共著者の先生と会い、色々と話す。アメリカの大学システムというか、大統領選の結果と今後の展望も踏まえると、なかなかアメリカという国はすごいなと。
この1ヶ月ろくに英語話してなかったりで、衰えを感じる。海外ドラマ見ればいいのかな、ヒーローズとか見ようかな...一体この話で何百件メールをやり取りしたのかわからないけど、少しずつ前に進んでいるし、いろいろ課題はあるけどfirst stepとしては悪くないと思う、なにより日頃二次分析していては考えられないようなチャレンジがたくさんあるので勉強になる(けど疲れるしため息もでる)。やはり彼の仮説は面白い。自分がエネルギー政策の研究しているのであればその発想力に嫉妬するだろう。日頃から人と話し、考えているのだなと思った。久しぶりに人とアカデミックな話をして元気でたし、人間は関係の中で生きていることを実感した。エコノメの人は好きかもしれないが、都道府県じゃなくて市町村(それもこの20年でどさくさ合併してる)、単年じゃなくて40年なのでスケール的にはこだわりすぎなのではと思ってしまう(でもエコノメの人と話したら、理想的には自治体をさらに地点レベルにしてマルチレベルにすることを勧められ…略

終了後、図書館で作業して(疲れた)、アップリンクの見逃した映画特集でキャロル。実は見逃してなくて二回目。脚本、音楽、映像美どれを取っても素晴らしかった。。。キャロル再び観てみて、ハージはどのタイミングでキャロルとテレーザが一緒に旅に出たことを知って密偵を送ったのか、あとアビーはどのタイミングでハージの行動を知ったのかよくわからないなと思った。前後関係として二人が旅に出たあとにハージがアビーの家に行ったので、そのあとに密偵を送ったとしてらどうやってモーテルの場所を突き止めたのか見当がつかない。

5日、早起き。午前中に欠損データの勉強。ログリニアモデルを使った多重代入への理解が少し進んだ、つまるところ全てカテゴリカルなデータで代入する時の話と、階層的なモデルが予測する度数を(B)IPFで推定する話が混ざっているっぽい。多分よく使われるMIパッケージでログリニアがないのは、一部の階層的なモデルがclosed formではないので色々めんどいのではないかと予想。

大学へ行って、初こくわ。院生室でスキャンしたり、地熱の分析したり、修論ようやく書いたり(明日提出したい)。帰宅後、ご飯を食べて寝て、その後二次分析研究会の論文の方向性を考える。メモを書いたので明日まとめてしばらく寝かせておく。明日も引き続き分析やら論文やら。


January 3, 2017

1月3日

朝起きて「現代日本人のライフコース」、「現代日本の人口問題」に目を通す。前者は、藤見先生の戦争体験の章、後者は河野先生の上位婚選好を仮定した時の配偶者性比。兵役の経験がライフコース上のイベントの遅延や錯乱をもたらすという知見、この本は割と大きなプロジェクトの成果本といったところだが、昨今の家族社会学界隈では耳にすることは稀である。池岡先生の兵役体験の章は渡邊先生が引用している。河野先生の章は、山田先生の「結婚の社会学」(1996, 80頁)で女性の学歴上位婚(自分より同じか高い男性としか結婚しない)と男性の下位婚を仮定すると、一部の学歴で構造的な配偶者候補の供給不足が生じるという知見が引用されていたため。実際には、河野論文では、女性は自分より年齢の高い男性と結婚する傾向を踏まえたり、上位婚の程度を変えたり、ログリニアのようなデザイン行列思しき表を掲げながらいくつか試している。

そのあと、Blossfeldらが編集,寄稿している、合理的的選択と大規模調査に関する本の中の、EriksonがHedstromに対して投げかけているコメントを読む。曰く、のちに分析社会学となるこの立場、やはりメカニズムの説明自体に関心があるゆえに、現実で起こっている事象の重要性よりも、説明できるかどうかで問題を選ぶ傾向にある点に警鐘を鳴らしている。結局、分析社会学は説明のツールボックスなのではないかという批判だ。これに加えて、Hedstromらは大規模データではメカニズムの特定ができず、今後はより理論的にサンプリングした焦点を絞ったデータでメカニズムを検討するべきだという点、この点を重視するならば、データはランダムサンプリングである必要はない。これ自体には、個人的には賛成。Eriksonの批判は、代表制のないサンプルでは社会変動はわからない,集合的な皇后の帰結もわからないというもの。大規模ランダムサンプリングデータは趨勢の確認くらいに考えていたが、Eriksonに言わせれば、代表性があるからこそ社会変動について検討できるそうだ。そして、彼はあくまで社会変動、集合的なレベルの帰結を個人の行為から説明するという立場なので、小規模でもいいじゃないかというHedstromの考えには批判的。なるほどという感じ。メカニズムの観察可能性についてもコメントしている。

そのあとは論文執筆、締め切りは1ヶ月後だけどひとまず書き上げて投げる。そのあと、外をブラブラして、本当は銭湯に行きたかったのだが、三が日でしまっていた。地熱作業の復習をして明日に備える。ログリニアモデルによる欠損データの分析を今度の数理でやろうかと考えているのだが、間に合うか不安。ひとまず、Schaferと保田先生の論文を読む。

January 2, 2017

選択バイアスについて

昼過ぎに帰京して、院生室で作業。

傾向スコア法を用いた分析を進めているのだが、代表的な教科書であるGuo and Fraserでは、一応というか、傾向スコア法を用いた生存分析についても言及がある。生存分析の中で、cox比例ハザードで共変量が時間で変化しないのであれば、パーソンピリオドにする必要はないが、時間依存の共変量や、離散時間ロジットなどのような手法を用いる場合には、パーソンピリオドに変換する必要がある。ともあれ、時間で変化する変数を投入して、例えば賃金などを推定したい場合というのは少なくない。

ここで、関心を持つ処置変数に対して、選択バイアスの可能性が考えられる事例を想定する。例えば、あるプログラムへの割り当てを処置とする場合に、割り当てられるかどうかに共変量と相関があり、例えば企業規模が大きい場合には割り当てられやすいとする。このような共変量がたくさんあり、かつ共変量が量的変数の場合には次元の呪いとよばれる共変量調整が実質的に不可能になる事態が生じる。この問題を解決するために傾向スコアは開発されているわけだが、ふと、バランス後に処置変数を説明変数、何らかのアウトカムを従属変数として、処置変数の割り当てに対して調整した変数を統制変数として投入する場合に、これらの統制変数が時間で変化することは傾向スコア法を用いた因果推論に対して何もおかしなことは招かないだろうかと不思議になった。

おそらく、処置変数の割り当てに対しては時間依存の変数であっても、処置がされた時点やその前に遡った時点の変数を調整に用いて、実際のアウトカムの推定の際に共変量が時間によって変化することは特に問題がないだろうと思うのだが、やや不思議な感じである。

話は変わるが、またセレクションの話。今分析を進めているテーマの既存研究では、計量経済学の人たちが就業と結婚の同時決定性について議論することがある。要するに、賃金などは基本的に就業している人にしか与えられないが、就業していない人を分析に含めないことで推定にバイアスがかかるというもので、その理由は、就業していない人が何らかの留保賃金を設定しており、現実の労働市場を受け取れる対価がこの水準に満たない場合には就労しないという選択を取るのであれば、仮にその人が就労していた場合に受け取っていただろう賃金が分析に上がってこないからである。この留保賃金あるいは提示される賃金が男女などのグループ間で異なるのであれば、セレクションが問題となる。

当初、このサンプルセレクションを考えていたが、自分の関心はあるプログラムへの割り当てに対するセレクションであって、それ以前に就業しているかどうかのセレクションではない。さらに言えば、就業するかどうかにセレクションがあることと、就業を前提にプログラムを受けるかどうかにセレクションがあることは異なる位相にあると考えられる。すなわち、仮にサンプルセレクションのモデルで同時決定性を考慮に入れたとしても、なお、プログラムを受けるかどうかに対して選択バイアスが含まれる可能性は考えられる。と考えていくと、おそらく?サンプルセレクションのモデルが想定しているのは、学歴や性別といった就業以前に決定されている個人の属性のようなものが賃金に与える影響を正確に推定したいという動機があるのではないかと考えた。これに対して、処置それ自体の選択バイアスに関心がある場合には、処置を受けるかどうかに際して必要な前提条件(就業していること)は考慮しなくても構わないのではないかと、要するに、母集団を就業していない人も含めて考えるか、それとも就業している人に限定して考えるのかのいずれかなのですが。