September 10, 2014

Stataでお遊び

ちなみに英語圏では「すたーた」らしい。

今日扱ったコマンド、備忘録として。

drop if v2 ~= 2 *条件に従ってケースを削除
tab v228, sum(v224) *sum以下の変数の平均やSDを層別(ここではv228)に見る

gen bior = 1 if v5 == 0 & v6 == 0 *変数の作成(generateの略、gでも動く)**条件指定の場合、==となる。

recode bior .=2 *誤って欠損値にされたのでリコード
gen cohort5 = 2006 - age *gen 新しい変数=既存の変数の他、関数を入れることもできる。
recode cohort5  1910/1914 = 1 1915/1919 = 2 1920/1924 = 3 1925/1929 = 4 1930/1934 = 5 1935/1939 = 6 1940/1944 = 7 1945/1949 = 8 1950/1954 = 9 1955/1959 = 10 1960/1964 = 11 1965/1969 = 12 1970/1974 = 13 1975/1979 = 14 1980/1984 = 15 1985/1989 = 16 *生まれ年からコーホートを作成
label define cohort5 1"10-14"2"15-19"3"20-24"4"25-29"5"30-34"6"35-39"7"40-44"8"45-49"9"50-54"10"55-59"11"60-64"12"65-69"13"70-74"14"75-79"15"80-84"16"85-89" *コーホートにラベルを設定(反映されなかったorz)
tab3way cohort5 bior v228  *このコマンドは自分でインストールする必要有り(findit command名で可能)

gen inf = v231
recode inf 1/2 = 1 3/4 =2 5=. *SPSSのthru にあたるのが/

ipf [fw=freq], fit(r*s+r*f+s*f) exp *iterated proportional fittingを用いたログリニアモデル(ipfは要インストール)**あらかじめr,s,fの組み合わせと各々の頻度を表にしたものを使用する。下記のような例。
glm freq r s f rs rf sf, family(pois) link(log) *pois(poisson)を使ったログリニアモデル(こちらでやると各モデルのBICとAICも出る)、ただし下ごしらえとして
gen rs = r*s
gen rf = r*f
gen sf = s*f

ipfとpoisに関してはここ及びUCLAのオンライン学習サイト(IDRE)を参照しました。


modelを比較してs*fのpartial associationを出す(手計算)。今回は例として本人学歴(r)と配偶者学歴(s)と本人父親学歴(f)とする。
ipf [fw=freq], fit(r*s+r*f)  G^2 =  94.7352 df = 36
ipf [fw=freq], fit(r*s+r*f+s*f) G^2 =  20.0725  df = 27

G^2(r*s+r*f)-G^2(r*s+r*f+s*f) = 74.6627
df = 9
1%水準で有意


作成する表の例、この場合は4*4*4の64通り(実際のデータではない)

r s f fre
1 1 1 173
1 1 2 3
1 1 3 3
1 1 4 6
1 2 1 57
1 2 2 3
1 2 3 1
1 2 4 6
1 3 1 4

September 7, 2014

雑記

先週と今週の土日を犠牲にして、近所で開かれていた数理社会学会と家族社会学会に参加してきました。
4日間で学生価格4500円でいくつも発表を聞くことができたのでかなり満足しているのですが、家族でも計量的な発表はまずまずあったのですが、因果まで考えた発表は僅かでした。後述の分析社会学的な観点とは異なり、家族社会学会の発表での「因果」のほとんどは、端的に言ってしまうと「相関と因果の区別」という対比で用いられる因果でした。その意味で、変数間のメカニズムにまで踏み込んだ分析は少なかったです。一日目の苫米地さんの出生順位と教育達成の話くらいが厳密な意味での因果推論の研究と言えるものだったかなと思います。他にも政策提言をする報告が予想より多かった、ウェブ調査を用いた(割とヤバい)分析などが多く、なんとなく学会のトレンドみたいなものを把握できました。なんというか、今日の結婚部会みたいに、若者の最近の恋愛事情のインタビュー→パネル調査を用いた夫婦の出会い方の生存時間分析→大正期の恋愛結婚言説みたいなコンビネーションが成立する日本の社会学は、ただ寛容なのか、それとも分業が進んでいない結果としての共存なのかはなかなか興味深いところです。(個人的に面白かったのは、徳川期の宗門帳を用いて、長崎の漁村を例に九州型の結婚慣行(子どもが生まれてから結婚する、事実上の結婚機関が長い形態)が徳川後期から変化し、近代化の中で収斂していくことを明らかにした報告でした。スケールの大きさに圧倒されます。計量をやるにしても、歴史的なモノグラフは入れたいと思いました。)

近年の(といってもアメリカでは僕らが生まれる前からだと思われますが)社会科学で求められている因果関係の解明とヨーロッパで盛んな分析社会学のアイデアで言う因果というのは、Aが起こるのはBが原因である、というのを単なる変数間の統計的関係ではなく、その過程までも明らかにすることを想定しています。今日の発表であった例だと、家族構造による離婚の連鎖という話がありました。アメリカでは、一人親世帯の子どもは自らも離婚を経験しやすいという知見がはっきりと出ています。明らかに親世代の家庭環境の方が先行しているので親→子どもという因果関係が想定できるような気がしますが、実際には両者の間にあるメカニズムはブラックボックスのままです。それは、親世代の家庭環境の直接効果だけが子ども世代の家庭環境を生み出すと考えるのは難しいからです。
両者の関係を説明する複数の経路が存在すると思いますが、最もリーズナブルなのは幼少期の家庭環境が子どもの教育達成を媒介して不安定な過程を再生産するという仮説でしょう。これは親世代の家庭環境と子ども世代のそれが子ども世代の学歴を媒介するメカニズムと考えることができます。一方で、離婚という経験や家庭におけるDVを経験すること自体が子ども世代の家族の不安定さを招いている可能性もあります。このように、AとBの間の関係を捉えるにも、様々なパスがあり、それを総合的に明らかにしていくことが僕のざっくりとした「因果」や「分析的」の言葉に対する理解です。戻ると、このような視点から分析をした報告は少なかったということです。

それでは、日本の社会学ではこうした因果を重視している研究がないかというと、そうではないと思います。「〜〜のメカニズムの検証」と題した書籍・論文や高度な統計的な手法を用いた因果効果の推定を行っている研究は数多いと思います。ただ、こうした研究の多くは先行研究に則り、AとBの間の関係を説明しようとした結果、「実質的に」因果を考えていると思われます。昔々「探索的/説明的」みたいな区分も習いましたが、僕個人として思っているのは、メカニズムに重点を置いた分析視角を、それ以外の分析方法と概念的に峻別した方がいいのではないかという点です。もちろん、こうした分析的な視点は一部の日本の社会学者も精力的に勧めているとは思います。例えば、先日の数理社会学会で学会賞を取られた東北大の大林さん(学部は盛山ゼミだったとのことです)は、講演で自らの量的・質的方法を横断した上で理論にフィードバックできる経験的な知見を提供する研究がHedströmらのAnalytical Sociologyに刺激を受けたものだと言っておられました(次回の理論と方法に講演の内容が載ると思います)。その一方で、(最近知ったのですが)一橋の院生の方で社会科学の哲学を専攻して、分析社会学に批判的な検討を加えている人もいます(http://www.wakate-forum.org/data/2014/abstract/shimizu_wakate2014.pdf)。