February 7, 2016

ログリニア・モデルに関するメモ書き

*アクセスが良いようなので、定期的に更新します。

/*LEMでLinear by Linear Association Modelのスケーリング*/

/*ログリニア・モデルに関する勘違い*/

ここ数日、ログリニアモデルについて勉強していて、ようやく自分がやりたい分析に必要な手順が理解できた。数理社会学会の教科書で保田先生が指摘されているように、ログリニアの特徴の一つは柔軟にモデリングができる点にある。そもそも、モデリングの作業は、回帰分析のようにどのような変数を投入するかというものよりも、分析に用いるデータの分布を適切に(かつ節約的に)反映できるものを探すという、モデルの適合度の観点から行われる。回帰分析の発想では、変数を投入・コントロールすることで説明力をあげることが試みられるが、ログリニアの場合、あまり変数を多くしてしまうと、たくさんの複雑なモデルを考慮しなくてはならなくなる。ログリニアモデルでは、少ない変数(2-5)同士の関連を確かめるという点が特徴であり、従って分析の目的もあくまで主要な連関をみたい変数のみに限定する。コントロールするべき変数については、その後のロジット回帰の場面などで考慮される。検討される変数が増えれば増えるほど、複数のパターンを考慮しなくてはいけないため、柔軟なモデリングができるという特徴はともすると、とても一度では検討しきれないモデルを厳選する作業を伴う苦労を招くかもしれない。

今回は、勉強していて、いくつか理解に手こずったところについて言及しておく。

まず、パラメータの推定についてだ。ログリニアモデルではクロス表の頻度分布を推定することを目標とするが、教科書を見てもそのパラメータをどのように推定するかについて、明確に定義がされている箇所は少なかった。何がまずかったというと、明確に定義がされているはずだという先入観を私が持って読んでしまったことにあるのだが、恐らくログリニアモデルでは頻度推定のためのパラメータについて、2つの方法があると考えた方がよい。一つは太郎丸先生の本に書かれているように、対数化されたパラメータμについて、Σμi=Σμj=Σμij=0となるようにパラメータの効果を推定する方法がある。もう一つは、Powers and XieとTreimanが主に用いているような、あるセルをレファレンスとしてダミー変数のような形でパラメータを推定する方法だ。後者の方法では、たとえばRμ1=Cμ1=RCμ1j=RCμi1=0というルールを守る(という表現の方が分かりやすい)ようにパラメータが推定される。どちらの方法でも、推定結果は変わらないのだが、太郎丸先生の本とPowers and Xie及びTreimanの教科書ではその方法が異なっていたため、先のような先入観もあって理解が追いつかなかった。繰り返すと、どちらの推定方法を用いても、期待度数とその対数の算出には違いはない。

次に、デザイン行列を用いた時の、パラメータのアドホックな設定について、しょうもない誤解をしていた。太郎丸先生の本では、デザイン行列については解説していない(とはいいつつ、対角セルの話など、片足を突っ込んだ説明になっている)が、Powers and Xieでは解説している。そこでは、各セルの予測パラメータがどれも異なる固有のものであるという設定や対角のセルとそれ以外のセルとの間で効果が異なると想定する設定などを含めて、行列を用いて説明をしている。Stataなどでも、実際に行列を用いてパラメータのアドホックな設定をするのだが、ここで私は各セルにちりばめられた数字に何か意味があるものだと勘違いをしていた。実際には、これはダミー変数を作成するための単なる名義尺度のようなものと考えればよい。つまり、行列の中身は文字でも構わない。この点については中澤先生がディスカッションペーパーで解説しており、助かった。繰り返すと、行列における数字は、アドホックに設定した異なるパラメータを区別するものであって、それ自体に意味はない。ちなみに、全てのセルに対して異なるパラメータを想定した場合には、そのモデルは飽和モデル(Saturated model)と呼ばれる。Saturated modelは実際の度数分布と等しい値を導くパラメータを求めてくれるが、それぞれにパラメータを指定しているため、自由度はゼロである。どの教科書でも指摘されているように、実際には変数間の関係を想定しない独立モデルから飽和モデルの間で、どのモデルがもっとも分布を上手く予測できるかを、適合度指標等を用いて検討する。ログリニアモデルの良さである柔軟さは、そうしたパラメータをかなり自由に設定できる点にある。節約的(parsimonious)かつ複雑なモデルを選ぶことに、ログリニアのミソがある。

以上の二点についてひどく勘違いをしていた。教科書としては、太郎丸先生の教科書の9−10章から入って、Powers and Xieの4章を読むのがいいと思われる。初めに保田先生の解説を読んでもいいと思う。Powersのページには様々なソフトウェアを用いた実例が載っているため、実際にどのような分析をするかについては、こちらの方が参考になる。例えば、Stataでglm (pois)を用いた時の推定では、変数同士の交互作用 (e.g. i.so*i.co i.diag*i.co のように、準独立モデルのためのdiagnal matrixとコホート効果の変数のかけ算)をすれば、自動的にそれぞれの変数の効果も推定してくれる(というか、interactionを指定した場合にすでにそれぞれの変数の推定も考慮するのがログリニアモデルの手順になっている)。こうした点は実際にdoファイル等を見ながらの方が分かりやすい。個人的には、RosenfeldのようにLEMをできるだけ使わずにログリニアを勉強してみる方法も大切かなと思うので、いろんなパッケージを見たほうがよいと考えている。

3重クロスの話が理解できれば、自動的に4重、5重セルの分析もできることになるが、どうも4-5重クロス表を作る時にどうやって行列を用いて表現するかで頭がなかなか追いつかない。それと、小さな勘違いとしては、各モデルの有意確率は、有意であれば期待度数の分布と違いがないという帰無仮説を否定していることになるので、モデルとしては採用すべきではないことになる。有為差が重要になるのは、一つのパラメータのみの違いしかない2つのモデルそれぞれの尤度比統計量G二乗値と自由度を引き、それをχ2分布に照らして、減少幅に有意さがあるかどうかを確かめる時である。有意であれば、自由度の少ない複雑なモデルを採択するべきということになる。あまり親切ではない論文の場合、なぜそこであるモデルが採択され、違うモデルが棄却されたのかについて、(当然分かるだろ?というノリで)十分に説明していない時がある。その時は、表に載っている自分でモデルの有意水準を見たり、モデル間の尤度比統計量と自由度を引いてみて、その差分が統計的に有意かどうかを自分で確認してみる必要がある。

とにかく、ひとまずやるしかない・・・

参考文献(本当に「参考」になった。)

教科書
太郎丸博,2005,『人文・社会科学のためのカテゴリカル・データ解析入門』ナカニシヤ出版 第9、10章を参照
Powers, D. A., & Xie, Y. (2008). Statistical methods for categorical data analysis. Emerald Group Publishing.
(実習ページ:http://la.utexas.edu/users/dpowers/Powers&Xie%202nd%20Ed/) Ch.4を参照
Treiman, D. J. (2014). Quantitative data analysis: Doing social research to test ideas. John Wiley & Sons.
(実習ページ:http://www.ccpr.ucla.edu/dtreiman/quantitative-data-analysis-stata-files-and-data-sets)
保田時男. 2006. 「社会的カテゴリー間の結びつきのパターンを明らかにする:ログリニアモデル」,与謝野ら編集、数理社会学会監修『社会の見方、測り方 計量社会学への招待』,勁草書房,268-276.

論文
ログリニアと言えば社会移動だが、今回参照したのは結婚や社会化など、なかなか多様だった。
Torche, Florencia. 2010. “Educational Assortative Mating and Economic Inequality: A Comparative Analysis of Three Latin American Countries" Demography 47(2): 481-502. (Crossing Modelを用いた同類婚の国際比較)
Rosenfeld, Michael J. 2005. “A Critique of Exchange Theory in Mate Selection.” American Journal of Sociology 110(5):1284–1325. 
Rosenfeld, Michael J. 2010. “Still Weak Support for Status-Caste Exchange: A Reply to Critics.”(人種と地位の交換理論に対するRosenfeldの批判とそれへのリプライに対する再批判、ログリニアモデルの解釈が争点になっている)
Mare, Robert D. 2008. “Educational Assortative Mating in Two Generations.” Working Paper (August).(同類婚は連鎖するか?という問いを立ててログリニアモデルで検討している)
Starrels, M. E., & Holm, K. E. (2000). Adolescents' plans for family formation: Is parental socialization important?. Journal of Marriage and Family, 62(2), 416-429.(親の期待と結婚行動が子どもの家族形成に影響するかについての検討)
白波瀬 佐和子、1999「階級・階層、結婚とジェンダー 結婚に至る階層結合パターン」『理論と方法』(25): 5–18.
中澤渉、2008、「進学アスピレーションに対するトラッキングと  入試制度の影響」、『東洋大学社会学部紀要』(一様連関モデル(uniform  association  model)と対数乗法連関モデル(log-multiplicative  model)を用いた分析)
中澤渉、2013、「パネルデータを用いた個人内職歴移動の対数線形モデル分析」、『東京大学社会科学研究所パネル調査プロジェクト ディスカッションペーパーシリーズ 』
三輪 哲、2007、「日本における学歴同類婚趨勢の再検討」、東京大学社会科学研究所、『家族形成に関する実証研究』81-94.




No comments:

Post a Comment