October 23, 2019

10月23日

今日のempirical seminarは自分の研究に関わる論文をレビューする回だったのだが、結構驚きの連続だった。

最初は(他の人と同様に)レビューを滞りなく30分程度で済ませるのかと思ったのだが、スライドで報告している途中で議論に入ってしまい、この論文はこうした方がいい、この方法ならプラセボで確かめられるのではないか、ポリジェニックスコアを使えばunderlying distributionとの区別がつくと言った点で、収穫が非常に多く、リサーチクエスチョンが5、6つ見つかるくらいだった。

ちなみに、レビューした論文の著者は授業を受けている先生のNYU時代の指導学生。いつもはジャーナルクラブ的な雰囲気なのだが、なぜか自分がこの論文を書いていて、自分に対してツッコミが来ているような錯覚を覚えた。

もらったコメントをここにメモ。

- map does not make sense(check the definition)
- definition of south and north is unclear (check the definition).
- the question is more oriented towards partial equilibrium rather than general equilibrium
- why no SE for the association parameter (yes but...)
- need to figure out adding fixed effects to the regression (is this possible...?)
- if education is a proxy in the marriage market, then what does it reflect? earning potential? cognitive ability? gene? to disentangle this question it might be worth examining polygenic scores for educational attainment. AddHealth or HRS are good candidates. (RQ1)
- replicate the paper's finding by looking at (1) south states which adopted the law earlier and (2) north states which adopted the law late. Also examine the age homogamy as well as race/education assortative mating to see whether education accompanies changing values or clustering. (RQ2+)
- try to examine the effect of educational attainment on (1) life expectancy or (2) geographical mobility while controlling for genetic scores. (RQ3 and RQ4)
- try to think about how distributional changes matter or not. educational expansion only affects compliers, if so, whom do they marry? (RQ5) this question is interesting if one side of distribution does not change.

ひとつの方向性としては今日レビューした論文のreplicationをして、仮説について再度検証するという方向性。もうひとつは、polygenic scoreを用いて学歴がプロキシとして機能していると考えられる遺伝や認知能力をコントロールした上で学歴の効果をみるもの。かなり議論が盛り上がったので、意外とこのテーマはアメリカでもウケるのかもしれない。

October 19, 2019

10月19日

低体重出生の文献が気になって昨日は一日中調べてて、だいぶ疲れてしまった。朝からオックスフォードにいる友人(後輩)とスカイプ。軽くご飯を食べて低体重グループのslackをつくりオーガナイズ。お昼はこちらの日本の後輩の人とランチ。終了後オフィスに戻って単著論文の改稿と共著論文へのコメント。あとはメール返信や来週・再来週の予定調整。19時から映画(joker)。

October 18, 2019

Synthetic control

今日のQSS(計量社会科学、主に政治学のメソドロジストの報告)のトークは、synthetic controlの拡張としてgeneralized synthetic controlというものがあり、さらにこの枠組みに基づいてベイジアンでsynthetic control でestimateを出すというかなり応用的なものだった。ペーパーはおそらく以下に該当する。

メソッドの詳細はわからなかったのだが、結局contributionが予測値のuncertanityを出すところくらいしか見出せず(しかもベイジアンのuncertanityが頻度論とは違うので比べられない)、サブスタンティブにはそこまで興味は惹かれなかった、スモールケースのIRでは結構発展がみられているみたい。スモールケースのIRとかには向いてる方法だけど、人口学とかでは見ない、でも応用できるかもしれない。政治学のメソドロジストはほとんど統計学者と名乗っていいくらいメソッドを発展させている(サブスタンティブに役にたつかは別として)。

October 17, 2019

10月17日

少し早めに起きてしまいやや眠かった日。携帯の通知はオフにしとくべきだと思った。
今日はセミナーもなく、授業もないのでのんびりして研究に集中できた。午前にメールを返し、11時からindependent study。英語の試験は無事パスしたが、1 on 1でカウンセリングしてくれるサービスを提供してくれるというので、アメリカのアカデミアのコミュニケーションなどでわからないことや自信が持てないことをクリニック形式で潰していこうと思う。その後、自転車のロックがきつくなってきたので油を買って、本屋で少し立ち読みし、昼ごはんを買って、本を借りてオフィスに戻りひたすら論文を書いていた。

最近夜ご飯オフィスでお弁当食べて長居してたのだが、レンチンご飯が切れたので今日は早めに帰ってしまった。オフィスで夜ご飯食べないと長時間労働が抑制できて素晴らしい(

本当に新しい研究

忙しいような忙しくないような日々である。コースワークは二つしかないし、文献をスキムすればそこまで大変ではないのだが、環境に慣れたとは言ってもまだ知らなくてはいけないことに日々直面するし、なによりこっちにきてから「知らなくてはいけないこと」がどんどん増えていて、正直限られた時間でコースワークと研究の合間でフォローできるものではない。

この大学は図書館やその他研究支援のサービスはすごく充実していて何も不満はなく(私みたいな人間が不満を抱かないのは本当に珍しい…)、その辺りの時間のロスは全くと言っていいほどないのだが、毎日どこかで何かしらのセミナーが開かれていて、外部からスピーカーを読んで報告してもらう形から、院生がコースワークの一環として発表したり、とにかく毎日誰かが発表している(ちなみに、昼時のセミナーにランチがつかないことはない)。どういうセミナーに出席しているかは以下の記事

報告は基本的にどれも面白い。院生の報告はややばらつきがあり、準備段階のものや、手堅い研究にはそこまで大きく感動することはないが、たまに外部のスピーカーの報告よりも先を行っている研究報告を聞くこともある。例えば、先日の人口学研究所のセミナーはうちの5年生のトークで機械学習のメソッドを取り入れて、社会学の因果推論の研究を2ステップくらい飛び越えてた。まだ論文にもなっていない研究によって従来の知見がアップデートされる瞬間に立ち会うのは、感動さえする。周りの「こいつはヤバいこと言ってるんだ」という空気が伝わってくる感じ。

自分の研究関心(日本の家族人口学)に当てはまる研究報告は皆無に等しいが、できるだけ自分の関心から遠いセミナーでも出るようにしている。社会学は色々なサブトピックがあるので、そもそも知っておかないといけない研究の幅が広い気がする。また、そういうセミナーから自分の研究に活かせるポイントが見つかることも少なくない。

とはいえである。報告を聞いた後にわからなかったことやチェックしておきたい文献があれば確認するようにしているが、掘れば掘るほど先行研究があることに驚く。当たり前に聞こえるかもしれないが、各報告者の研究は基本的にどれもその分野のフロンティアなので、彼らのlit reviewは一朝一夕では済まないものだ。文献をまじまじ読むことはないが「今こういう分野ではこういう研究が読まれているのか」と覚えておいて機会があるときに掘ってみるようにするだけでも、結構な時間になる。転学して、本当に最先端のことをやってる人に会い始めて、勉強しなきゃいけないことがどんどん増えてるのが現実だ。翻って私の関心のような(重要だとは思うが)「新しくはない」研究をしている一人としてこうした研究をどのように消化して自分の研究に反映させていくかについては、常日頃から考えている。

知的にはエキサイティングだが、同時に精神的に疲弊するのは、先ほどの人口学研究所のセミナーのように、本当に新しい研究結果が報告され、我々の持っている知識がアップデートされる瞬間に出くわす時である。あたらしい知識が生まれてまもない現場に立ち会っていると考えれば、それは刺激に満ちたものだが、また新しい知識が出てきて自分の過去の情報を更新しなくてはいけないと考えると、それはストレスにもなる。このバランス感覚を取るのは、意外と難しい。

話はややそれるが、こうした「本当に新しい研究」はもはや伝統的なディシプリンに収まっているものではない。例えば社会学で言えばCSS、ゲノム、因果推論、社会移動の研究は他の分野の研究者とのコラボから新しい知見が生まれている。経済学者のトップ研究者のチェティが社会学部にも所属する時代だから、上位の研究大学では分野の垣根はなくなりつつあるのかもしれない。

重要なのはこうした「本当に新しい研究」が伝統的な社会学部では必ずしも評価されない傾向にある点だ。ゲノムが最たる例だろう。遺伝情報を用いた社会学的な分析には、まだ毛嫌いする人が少なくないのも事実である(実際に文献を読んでみると、彼らの懸念はとっくの昔に終わっているのだが)。就職戦略としてこう言った新しい分野を選択することは非常に「リスキー」になる。というのも、ティーチング中心の非研究大学ではこうした分野の研究者を(教える需要がないので)雇うメリットがないからだ。

これに対して、研究大学、特にトップ校になると、こうした「本当に新しい研究」が評価される傾向にある。これらの大学で教員を雇うのは教育よりも研究業績がメインであり、今後成長が見込まれる新しい分野の研究者を雇用するメリットが大きい。したがって、ゲノムのような「新しい研究」がリスキーなのは、その分野で一流と認められれば研究大学に就職できる可能性が高まるが、そうでない場合には就職市場で不利な立場に陥るためである。

こうして分野間の垣根が消失しながら共同研究が行われる中で、近年の社会学のトップ研究者はAJSやASRといった社会学のトップジャーナルを飛び越えてScience, Nature, PNASなどの雑誌に投稿、掲載するようになっている。こう言ったジャーナルの引用数は社会学のそれに比べると桁違いだ(本当に桁が違う)。私が予想しているアメリカの社会学アカデミアの将来像の一つは、こうした傾向が続いた結果として、エリート校と非エリート校の研究者間でcitationの格差が広がってくるのではないか、というものだ。先ほどの就職事情と同じ理屈で、非社会学系のトップジャーナルに雑誌が載っても、トップ校でしか評価されない。そのため、非研究型の伝統的な社会学部にいる研究者は引用数が少なくても、社会学部で「社会学」と認められている雑誌に出さないとテニュアを取りにくくなってしまう。そもそも、そうした「新しい研究」をしている人は、地方の非研究大学などではそもそも雇用されにくい。結果として、非社会学系のトップジャーナルに論文を投稿する研究者がトップ校の社会学部に在籍する一方、社会学系の引用数の少ないジャーナルに論文を投稿する研究者が非研究大学の社会学部に所属するようになると、上に述べたような格差がますます広がっていくのかもしれないと考えることがある(非常に単純な図式なので、実際にそんなことは起こらないと思いますが、一つの可能性として)。

October 15, 2019

積読エコノメ論文

主に結婚をアウトカムにした論文あるいは学校歴の因果効果を求めたものです。興味がある方は一緒に読みましょう。

Ajutor, D., Dorn, D., and Hanson, G. (2018). When Work Disappears: Manufacturing Decline and the Falling Marriage Market Value of Young Men. CESifo Working Papers:27.
Bertrand, M., Cortes, P., Olivetti, C., and Pan, J. (2018). Social Norms, Labor Market Opportunities, and the Marriage Gap for Skilled Women. IZA Discussion Paper No. 11382:88.
Choi, S. (2015). When everyone goes to college: The causal effect of college expansion on earnings. Social Science Research 50:229–245. doi:10.1016/j.ssresearch.2014.11.014.
Dale, S.B. and Krueger, A.B. (2002). Estimating the Payoff to Attending a More Selective College: An Application of Selection on Observables and Unobservables. Quarterly Journal of Economics 117(4):1491–1527.
Dale, S.B. and Krueger, A.B. (2014). Estimating the Effects of College Characteristics over the Career Using Administrative Earnings Data. Journal of Human Resources 49(2):323–358.
Gay, V. (2017). The Legacy of the Missing Men: The Long-Run Impact of World War I on Female Labor Force Participation. SSRN Electronic Journal. doi:10.2139/ssrn.3069582.
Ge, S., Issac, E., and Miller, A. (2018). Elite Schools and Opting-In: Effects of College Selectivity on Career and Family Outcomes. NBER Working Paper No. 25315.
Kawaguchi, D. and Lee, S. (2017). Brides for Sale: Cross-Border Marriages and Female Immigration. Economic Inquiry 55(2):633–654. doi:10.1111/ecin.12411.
Kesternich, I., Siflinger, B., Smith, J.P., and Winter, J.K. (2014). The Effects of World War II on Economic and Health Outcomes across Europe. The Review of Economics and Statistics 96(1):103–118.
Long, M.C. (2008). College quality and early adult outcomes. Economics of Education Review 27(5):588–602. doi:10.1016/j.econedurev.2007.04.004.

October 14, 2019

10月14日

引き続き他愛もない日常の連続である。

土日は地熱の分析で疲弊したので、日曜の夜は11時台に寝た。そのおかげか、久しぶりに気持ちの良い目覚めで授業が始まるまで家で理論のリーディングを済ませる。

10時半からプロセミナー。今日の担当はYu Xieで、私にとっては特にインタラクションはないが非常に意識する研究者である。私の指導教員の指導教員であり、日本時代の指導教員ともよく交流している。というわけで、親戚のおじさん感が強い。

これまでの例に漏れず、professional developmentの気配は全くなく、ひたすら彼の研究紹介で時間が過ぎる。今回に限って特徴的だったのは、強烈な研究アプローチの近さを感じたことである。というか、私が彼の論文を何本も読んできて、population heterogeneityこそ私のとる立場と考えているので、当たり前といえば当たり前なのだが、自分の立場をあそこまで大袈裟に紹介されるのも、心なしか恥ずかしかった。もちろん、当人はそんなことは知らないので、GaltonやらDuncanやらの紹介をしていく。

この強烈な類似性は、ウィスコンシン・ミシガンに代表される中西部社会学の特徴かもしれない。サーベイデータを中心とする量的データをもって人口集団の規則性に着目し、さらにその規則性が集団間で異なるかを分析単位を社会的な属性に分けてみていく、といえばシンプルそうに聞こえるが、この奥には深遠な哲学的な立場があるといっても、嘘ではないだろう。マディソンにいるときには、このアプローチを取る人がたくさんいたので当たり前かと思っていたのだが、プリンストンに来てからというもの、これ以外の考え方を取る研究をセミナーなどで聞くことが多く、その意味で私の研究上の立場が(良い意味で)グチャグチャされている途中だったので、ハッとさせられた。急に自分の国に帰ってきたような錯覚だった。しばらく、自分の社会学的なアプローチに自信をなくしていたのだが、このアプローチでもプリンストンの先生になって堂々としている人がいるので、自分も自信を持とうと思った。

ちょっと自分と近過ぎる回だったので、終了後にちょっと自分を落ち着かせるために20分ほど散歩した後、図書館でマイクロフィルムのスキャンをした。OPRの礎を築いたAnsley J. Coaleは文字通り世界中を旅して、世界のセンサスのレポートを集めていたのだが、日本も例に漏れず、センサスの集計表がマイクロフィルムの形で残っている。ライブラリアンの人に聞いたところ、マイクロフィルムリーダーにOCR機能もあるというので、その切れ味を試してみた。

使用したのは、写真左にあるリーダーと専用のアプリケーションScanPro 2200。どうやら、このアプリの中にabbyy finereaderがインストールされているらしく、それで読めるようだった。結果としては、英語にしか対応しておらず、日本語は読めない、さらに数字もスキャンはイマイチだったので、やや期待はずれ。問題は文書が古すぎてスキャナーが対応できていないところだろう。実際に文字に起こすことになるとすれば、人の手を借りる必要がありそうだ。絶対このリーダーは最新のマシンで、アプリケーションも結構高いはずなのだが、プリンストンの図書館には結構設置されているらしく、ここでも金持ち大学アピを感じてしまった。


October 13, 2019

プリンストン第二回高山ゼミ

今日はほとんど研究しなかった。午前中は疲れて寝てて、お昼から高山先生とランチ。IASの食堂でご馳走になった。くるたびに思うけど、ここは本当に静か。

先生の自宅(?)で、暖炉を囲みつつ、いつの間にか第2回プリンストン高山ゼミになる。気づいたら5時だった。贅沢な時間。

毎日狭いテーマで研究しているので、高山先生、そしてゼミの先輩の山田さんとの三人で話す時は、大局的な視点で物事を考えることの大切さを感じている。高山先生は西洋中世史、山田さんは中東研究で、それぞれの分野における各国の大学の位置付けや出版事情などを知ることも、とても勉強になる。今日は先生が今度プリンストンのワークショップで講師をするというので、その延長でセミナーのトークでは何が求められているのか、という話になり、日本では実際の論文も含めて「ファクト」が大切にされる一方で、英語圏の研究ではどういう事実がわかったかよりも、どのような視点でそれがわかったのか、という物の見方の切れ味の方が評価の軸になるのではないか、という話になった。

この点はわりと首肯するところがある。日本の学会報告では理論的な貢献よりも「何がわかったか」が重視されてきた印象を受けるが、こっちの報告を聞いていると「わかるためのツールは何の意義があるのか」ともいうべき点が強調されている。ともすると、その結果からその主張を導くのは無理があるんじゃないかと思うこともあるが、視点が面白い研究ほど(ある程度経験的に確かめられていることを条件とした上で)評価されている気がする。これは共著論文を書いていることでも感じることがあり、指導教員は視点の鋭さや、結果からサジェストされる知見の深さを重視するのだが、たまに論文を書いていて「その結果からその主張はサジェストされないんじゃ」と思うこともある。もちろん、何も支持されない結果を提示することはできないのだが、分析の精緻さだけを気にしていたら論文を出せなくなってしまうので、どの塩梅で「サジェスト」されるのかは、結構判断の分け目が難しい時がある。どちらかというと、分析を精緻にしすぎるよりも、アイデアを提示することの方が大切で、そのアイデアが間違っている可能性も限界で書きつつ、批判可能性にオープンでいることが大切なのかなと思った。

そうしたことを思った1日だった。

October 8, 2019

なぜ論文が書けないのか

ライティング関係のセミナーや本を読むと、だいたい「どうやったら論文が書けるのか」という説明をしているのだが、誰しもが取るべきコツはあっても、おおくの人が思ったように論文をかけていないのではないかと思う。

と考えて、最近はむしろ逆に「なぜ論文が書けないのか」という発想でものごとを考えなくてはいけないのではないかと考えるようになった。例えば、

- 論文を書く時間をとってない

が一つの「なぜ」に対する回答だとすると、

なぜ論文を書く時間を取れていないのか?

が次に考えるべきことになる。

- コースワークの用意があるから
- 時間が細切れになるから
- 休日には疲れてやる気が出ないから
- その疲れが蓄積して時間があってもやる気が出ないから
- ツイッターを見てる

ここまで理由が出れば、その次に「どうすればこの原因を取り除けるか」と考える。

- コースワークの用意→仕方ないが研究とのバランスを考えて最低限にする
- 時間が細切れになる→細切れでもできる仕事を見つける
- 休日には疲れてやる気が出ない&疲れが蓄積→休む時にしっかり休む
- ツイッターを見る時間を制限する(携帯でしか見ない or 夜だけみる設定など?)

ここまで考えて、論文を書く時間をとってないに対する回答ができたので、「どうすれば論文を書けるのか」を考える。
- 週に何時間コースワークに使うのかを事前に決める
- 細かい仕事リストを週の初めに作っておく
- 休む

なぜできないのかをもう少し考えてみる。自己問答しかない。

- 定期的にreflectionする機会も欲しい
 -自分で振り返る
 -人と振り返る
- 日毎に集中して論文を書く時間を決める

October 7, 2019

Is sociology a social science?

今日のプロセミナーはプリンストンに来て当初からお世話になっているダルトンの回。この学部のプロセミナーは「プロ」とつくわりには、特にprofessional developmentの要素はなく、いかにしてファカルティの教員が今の研究をするようになったのかという話で、つまらないときは本当につまらないのだが、今回は面白かった。

彼は当初は「トラディショナルな階層論研究者」としてトレーニングを受けたと言っていて、この「トラディショナル」が何を意味するかは、階層論の研究をしている人ならわかるだろう。status attainment modelである(ちょうど、昼のセミナーでトマスコビッチさんがこのモデルを批判していたのも面白かった)。初期の代表作は2001年にSoc of Edに掲載されたCapital for collegeだろう。この論文の貢献は、従来のstatus attainment modelでは注目されてこなかったwealthがpost secondary schoolの進学に対して影響を持っていることを指摘、さらにwealthによる差が人種間の格差を大きく説明することを主張し、今では300回以上google scholarで引用されている。

その後、彼はNIHポスドクとしてバークリーに2年ほど滞在していたのだが、その間にアウトカムを健康に変えて、BMIやmortalityの研究をしていた。しかし、このポスドク時にbirth weightの報告をしたところ、ある環境経済学の研究者から、母親の栄養状態にのみ影響する操作変数を提案された。しかし、当時の彼はエコノメのトレーニングを受けていなかったので、何を言っているのかわからなかったようだ。

彼は自分の自己紹介をする時に、5年、10年というプランで研究をするのではなく、その時obsessするものを見つけたらそれにとことん取り組むというスタイルらしく当初の研究は人種と富の格差だったのだが、この出会いをきっかけにcausal identificationの道に進んでいく、ポスドク中にエコノメの手法を身につけたらしい。

その後、彼が関心を持ったのがきょうだいと出生順位だった。特に、後者については第一子の性別はおおくの西洋諸国ではランダムに決まるため、子どもの性別が親の価値観に影響するかなどは因果的に確かめることができる。私には何が面白いのかよくわからないところがあるが、彼は基本的にidentificationができるものには強い関心を持つ(その後、かれはベトナム戦争時のロッタリーの研究をしている)ため、子どもの性別もその流れで関心を持ったのだろう。

そうやってひたすら自然実験的なアプローチで因果推論の論文を書いていたのだが、どういうきっかけかゲノムに興味を持ち出し、生物学の博士号を取り直し(!)、今は社会科学にゲノムの分析を組み込む社会ゲノミクスの一人者として知られている。人生、どうなるかわらかないことが、彼の履歴からよくわかる。

そういう変わり者扱いされることのある彼だが、私は彼の科学者としての姿勢に尊敬の念を抱いている。冒頭のあいさつでは、彼はじぶんの昔の研究をrefuteすることが好きで、それができるのが科学者だろう、という趣旨のことを言っていた。社会学が「社会科学」であるためには、自説を否定できる可能性を将来に担保しておくことが必要だと。最近の社会学の潮流からすると、こうした科学的な志向性はやや煙たがれる傾向にあるので、逆に新鮮だった。社会学は多様なアプローチを許容するので、こういう人がいてもいいだろう。私も考えは近い気がする。

さらに、5年計画をしない彼のようなスタイルで、突如としてゲノムに関心を持ち出してリスキーではなかったのかと質問されると、確かにゲノム研究は10年前の学生には勧めなかったという。しかし、今ではゲノムの研究をメインにしても(特に新しい分野に寛容なトップスクールであれば)就職できるだろうと言っていた。しかしながら、そのあとに加えて、確かに10年前にゲノムの研究をするのはリスキーだったが、研究者の仕事は既にホットなトピックを研究することではなくこれからホットになるだろうトピックを研究して、なぜその研究が今後ホットになるべきなのかを説得することだろうと言っていた。この一言はちょっとビビっときた。たまにこの人はすごくかっこいいことを言う。

研究テーマは異なるが、私が考えている社会科学者としての社会学者像に一番近いのが彼なので、2人目のアドバイザーになってもらおうかと考えている。

Relational inequalities

最近標題の本を出版したトマスコビッチさんがきてトークをしてくれた。コロキウムに参加してくれたスピーカーの先生は、その後1時間、院生と話す時間を取ってくれるのだが、今回、初めて参加してみた。

本の内容はざらっとさらっていたので、トークにおいて新しい発見はそこまでなかったのだが、院生とのミーティングでの話は色々と勉強になった。

まず、彼がトークの冒頭でbetween organization levelでみたearnings inequalityは日本を含めおおくの先進諸国で上昇していることを指摘した。日本については、overallでみたinequalityはstableなので、withinが減少していることになる。組織(企業)内の不平等が減少しているというのは非正規雇用の増加を考えるとcounterintuitiveだったので、其の点について質問したところ、withinが減っていることは認めてたけど、何が起こっているのかはわからないらしい。ただ、先行研究は基本的にこうした組織を無視して不平等のトレンドを語ってきたので、counterintuitiveな結果は日本以外にもみられるとのことだった。

ミーティングで面白いなと思ったのは、彼がorganization推しというところは割り引かないといけないと思うが、segregationとinequalityの研究が始まったころは(1960ー70年代)managerの人はどこでも白人男性ばかりだったので、組織間のvariationはなかった。しかし、今の時代になると組織間の異質性は拡大していて、例えばgoogleみたいな最先端の企業は組織の中をどんどんdiverseにしている一方で、他の企業では昔のままみたいなところもあるから、overallに見ててはダメなんだと言っていて、確かにと思った。

これと関連して、アメリカではbetween ornigazation levelでみたraceのsegregationは最近上がってて、それは統合的な会社が倒産してなくなっているから、という非常に興味深い知見を出した最近の論文を紹介してくれた。

もう一つなるほどと思ったのは、日本だと職域分離と賃金格差の関係はアメリカほど強くないので、どうやってlit reviewすればいいのか(言い換えると、日本的な文脈で分離がどのような意味があるのかまだfiguring outしている)と質問した。トマスコビッチさんのリプライとしては、先ほどのように、60-70年代に研究がスタートした時期は分離と賃金格差の関係がロバストにあったのだが、最近のアメリカでももっとorganizationalに見ないと賃金格差の説明はできないのではないかと言っていて、先行研究のpath dependencyがあるといっていた。と考えると、必ずしもlit reviewを賃金格差に引き付けなくてもいいのかなとも思えた。

October 6, 2019

Durkheim’s implausible methodology


In sociology PhD program, we are encouraged to find research interests and then decide on a research question. The methods we choose depend on what we are interested in and how we approach them. Durkheim’s Suicide does not follow this usual path. Rather, he selected suicide as a case study to “demonstrate the possibility of sociology” (37), which treats social facts as things. Given the interest in this book, this memo focuses on the methodological aspects of Suicide. Specifically, I discuss (1) Durkheim’s causality with a comparison of Weber’s one, (2) his interpretation of statistics (means and variances), and (3) his lack of interest in probability.

1.     Causality in Durkheim and Weber’s Sociology
Durkheim’s methodology is often called methodological holism (Coleman 1986). This perspective treats macro-level social things as a unit of analysis to explain other social phenomena. On the other hand, Weber is a founder of methodological individualism, in which we explain macro-level associations focusing on individual’s actions. In addition to this well-known distinction between them, another notable difference in their sociological approach is their understanding of causality. To discuss this point, it is helpful to use typologies of causality developed by John Stuart Mill. Among them, Weber’s approach is the method of difference. This approach compares two cases that are the same except for one trait. The assumption is close to the idea of a natural experiment, or “imaginary experiment” (Smelser 1976: 69). Of course, experiments are often not possible in social sciences, and some studies (including Weber’s work) look at a few historical cases. Weber’s approach is historical, not statistical, but he used this method, as we saw in the reading last week (Weber 1906=1978: 119).
In contrast, Durkeim used so-called method of concomitant variation (Smelser 1976: 63-64), which is simply a correlation between two variables (such as suicide rate and solidarity) given a variety of cases. One contrast between these two methods happens when we find third causes (Smelser 1976). On the one hand, since the method of difference focuses on the difference caused by the presence of one single cause, problems of third causes will not happen. On the other hand, the method of concomitant variation allows the possibility of third causes.
In modern statistics, we control for these third variables to examine the effect of X on Y. Durkheim attempted this without using statistics. For example, in detecting the effect of religion on suicide, he controlled for influences of culture or race by looking at different states in the same country (Germany or Switzerland). However, he was not able to distinguish the effects of education and religion, because they are strongly correlated. Instead, he found a distal cause, which is integration (159), and argued that this explains the societal differences in suicide rates. Well done.
We can be skeptical about his conclusion, however. Jewish population has a lower suicide rate (154) while their education tends to be higher (167). Durkheim picked up another arbitrary explanation, arguing that it is because of their desire for knowledge as “religious minorities”. If this hypothesis is correct, however, we can speculate that Protestants and Catholics are also highly educated when they are religious minorities in a given society. Unfortunately, this point was not examined in the Suicide. As Smelser (1976: 107) critically argued, “unsystematic appeal to a third variable was built into the logic of Durkheim’s theory.” To put it further, he was confident in his focus on integration as the explanation (Sato 2010). One methodological advantage using the method of difference is to control unobserved characteristics because they are able to compare cases with only one difference, while the method of concomitant variations is not. However, as Durkheim (1901=1982: 150) argued elsewhere, the same effect always corresponds to the same cause. In this sense, his discussion suggests that he already fixed the causal relationship before observing the data. If some anomaly happened, he added a third variable to arbitrarily solve the contradiction.

2.     Interpretation of Means and Variance
Although Durkheim criticized Quetelet’s idea of the ‘average man’[1], Hacking (1990: 178) argued that he nevertheless “stayed in the Queteletian mould,” in a sense that he still stuck with average rather than deviations (Sato 2010) or their similar assumption that “the forces acting on people were like cosmic forces or gravity” (Hacking 1990: 131). In Durkheim’s methodology, the forces are social (Hacking 1990: 177).
For Durkheim, who was interested in average rather than variation, deviations from the mean reflect pathological states of society (Hacking 1990: 178). In contrast, Galton was interested in the deviation itself. For him, the normal is just average and deviation from the mean is something we need to explain (Hacking 1990: 178, 184). This distinction has a persistent influence on quantitative reasoning in contemporary sociology (Xie 2007). Quetelet’s idea of ‘average man’ is close to what Mayr (2001) called ‘typological thinking,’ which dates back its origin to Plato. This perspective focuses on typical phenomena, and treats deviations from the mean as errors or nuisances. Thus, this perspective considers heterogeneity within the population as trivial.
In contrast, another approach towards population, ‘population thinking,’ treats deviation as a serious subject to be explained (Xie 2007). According to this perspective, a deviation is not a mismeasurement of reality. Rather, it also reflects a part of reality. Galton, who developed regression and correlation, belongs to this tradition. The latter perspective is dominant in demography, or social demography, which is interested in heterogeneity across subpopulation.[2]  

3.     Silence about Probability
As Hacking (1990: 177) pointed out, Durkheim was not interested in probability (or chance). This critique might be harsh given that he did not have individual-level data and was not able to calculate standard errors in his correlation estimates. On the other hand, however, his lack of interest in probability is understandable because, unlike survey data, the data he used targeted a whole society (vital statistics or census).
As argued, he thought that the same effect always corresponds to the same cause. Also, he theorized that suicide is not a sum of individuals but influenced by external factors. In this deterministic approach, he could justify the lack of probability in this work. That being said, it is still worth pointing out that Suicide is the book that used statistics. Weber’s approach is historical, but he does not assume these historical causes in a deterministic way (Weber 1906=1978: 116). This contrast suggests that the distinction between deterministic and probabilistic approaches is independent of which data (statistical or historical) we use.

5.     Conclusion
A summary of Durkheim’s methodology is shown below. His methodology is often compared with that of Weber, typically through an illustration of methodological holism versus individualism. Although important, this distinction masks several important criteria taken by them. Their methodology is different not only in the unit of analysis (collective versus individual), but also in causality and statistical thinking. Also, Durkheim’s quantitative reasoning is close to typological thinking, which makes contrasts with population thinking.
It is hard to discuss Durkheim’s contribution to sociological methodology (at least to me). His choice of methods of concomitant variations to identify causality results in pursuing endless arbitrary third explanations. His statistical thinking was mostly wrong. As a demographer, I take on the population thinking rather than typological thinking. We can learn more from reading Weber, especially for methodology. One contribution, however, is his focus on social forces and methodological manifests that we should treat social facts as things. This is a tentative conclusion I have so far, after reading the Rules and the Suicide.

Table Overview of Durkheim's methodology

Durkheim
Opposing ideas
Causality
Methods of concomitant variations
Methods of difference (Mill, Weber)
Quantitative reasoning
Typological thinking (Quetelet)
Population thinking (Galton)
Statistical thinking
Lack of interest in probability (deterministic?)
Indeterministic (Weber)

References
Coleman, James S. 1986. “Social Theory, Social Research, and a Theory of Action.” American Journal of Sociology 91(6):1309–35.
Durkheim, Émile. 1901. Rules of the Sociological Method (2d ed.) (W.D. Halls trans.) Free Press. 1982.
Hacking, Ian. 1990. The Taming of Chance. Cambridge University Press.
Hauser, Philip M., and Otis D. Duncan (Eds.) 1959. The Study of Population: An Inventory and Appraisal, Chicago: University of Chicago Press.
Mayr, Ernst. 2001. “The Philosophical Foundations of Darwinism.” Proceedings of the American Philosophical Society 145(4):488–95.
Sato, Toshiki. 2010. Syakaigaku no Hoho [Methods in Sociology]. Yuhikaku. [In Japanese]
Smelser, Neil J. 1976. Comparative Methods in the Social Sciences. Prentice-Hall Inc.
Weber, Max. 1906. “The Logic of Historical Explanation.” in Max Weber: Selections in Translation. (W.G. Runciman, ed.; Eric Matthews, trans.) Cambridge University Press, 1978. 111134.
Xie, Yu. 2007. “Otis Dudley Duncan’s Legacy: The Demographic Approach to Quantitative Reasoning in Social Science.” Research in Social Stratification and Mobility 25(2):141–56.




[1] Statistically speaking, his critique on Quetelet (300-306) was incorrect (Sato 2010: 103). He first argued that Quetelet assumed that the invariability is found in some activities with which the great majority of individuals is involved, and this idea is wrong because the suicide rate, which is exceptional in population, is “even more stable than that of general mortality” (303). Those who studied an introduction to statistics know that the variability (standard deviation) depends on sample size, not the variable of interest itself. Also, the suicide rate is calculated by the number of incidences of suicide over a given population, which is exactly the same as mean, or the idea of ‘average man’. This point is also related to his silence about probability. He did not pay attention to variation.
[2] One well-known definition of demography is “the study of the size, territorial distribution, and composition of population, changes therein, and the components of such changes” (Hauser and Duncan 1959: 2).

October 5, 2019

多重検定

GWASで使われている閾値 (p < 5*10^-8)は多重比較の偽陽性の補正で使われるBonferroni correction によって求められていることを知った。論文だとGenome wide significanceしか書いてなかった。SNPが100万あるという想定なのか。

10月5日

午前中は積読状態だった論文に目を通す。ブランチにギリシア料理屋。その後なんども昼寝をしつつ、職域分離の本を借りたいlit reviewを進めたりする。途中でメールの返事や、調べておかなければいけなかったことを調べているうちに夜になる。月末の飲み会の調整なども。出版予定の本についても考えた。

October 4, 2019

10月4日(買物)

寝起きはそこまで悪くはなく、9時半に大学へ。ほぼ理論のレジュメを終え、出たセミナーのまとめや新しく出た論文を読んでインプットの一日。

今日は1ヶ月ぶりに買い出しに出かけた。「買い物」は日常的にしていて、家から徒歩数分の距離にスーパーがあるのでほとんど困ることはないのだが、やはりレンジでチンできるご飯や和食の調味料は置いていないので、そういったものを「買い出し」に行く。プリンストンの駅の近くにある韓国系スーパーが最近できて、ほぼそこで必要なものは買えるので、今回もそこに。私の携帯だと(SIM freeだからか)UberやLyftが使えないので、前回(9月初頭)に続き、知人(東大では後輩、こっちでは先輩)を誘っていった。夜ご飯を先に中華で済ませ、日曜日にルームメイトと焼きそばを作ることになっているので、その材料などを購入していた。

10月3日

29歳2日目

ちょっと考え事をしていたのでよく眠れず、眠気まなこで10時半ごろに大学へ。ティーチングをしなくなったものの、結局それはそれでだらけるのかもしれない。朝活のモチベーションが欲しい。

今日は主として二つ。来週のempiricalの論文を決めシェア、少し要約を進める。および来週の理論の授業でコメントすることになっているので、メモを作成。半分くらい終わったのはまずまずの進捗で、金曜に書き上げ土曜にチェックして送るのが理想。

29歳はまだ若いと指導教員に言われたけど(彼は30歳で大学院に入っていることもあるので、その点は首肯する)、やはり年齢を重ねるとできないことは増えている(一方で、できることのうちで、よりできるようになることも増えるけど)。私は5年前に比べるとだいぶ精神的に成熟したのではないかと考えているけど(昔はひどかった)、その代わりに「勢い」みたいなものを失ってしまった。

人生のうちで、この瞬間を逃したらもうチャンスはない、みたいな機会はあり、私はその機会をたくさん逃してきた一方で、いくつかは得てきたと思う。今回の転学も「突然」だったが、それでも連絡が来てから数時間考えることはできた。しかし本当の「機会」は一瞬で訪れ、一瞬で消えてしまうのかもしれない。そう考えていると、「風」を読んで、タイミングが来たら行動に移せる気持ちで生きていることが大切な気がするのだが、そうした機敏な感覚を、歳をとるにつれて無くしてしまっている気がする。

あるいは、そういった機微を読み取ることに慣れ過ぎてしまい、いくつかの可能性を考えているうちにリスクのない選択肢を選んでいる気がしている。考え事をしていたのはそれで、後から考えると、もしかしたらあそこで一言言っておけば、違ったかもしれないなと思うことが増えている気がする。人生、反実仮想の連続である。

文字にすることで、多少自分が今何を考えているのか、少々明確になった気がするので、今日はこれでいいことにする。

October 3, 2019

SIMEX

独立変数Xに測定誤差がある場合、係数bの値が真の値に比べてattenuateしてしまう。OLSにおいても測定誤差は問題になるが、固定効果モデルの場合には測定誤差が大きくなることが知られており、より重要な問題になる。

どれだけ関心のある変数に測定誤差があるのか、それを前提としてもeffect sizeに大きな違いはないのかなどを調べる時には、SIMEXと呼ばれる測定誤差のシミュレーションの手法がある。

Simulation-Extrapolation: The Measurement Error Jackknife

これまた同じくDaltonの論文から具体例
Changing Polygenic Penetrance on Phenotypes in the 20th Century Among Adults in the US Population

標本データの正規性の検定

統計の授業で、調査から得られた標本データが正規分布に従っているかどうかは、ヒストグラムを描いたり、qq plotを出して視覚的に確かめるものしか紹介されていなかったが、実際には統計的に得られた確率分布が正規分布に従っているかどうか(あるいは複数の標本が同じ確率分布か)を検定する方法が存在する。その名も「Kolmogorov–Smirnov test」(コルモゴロフ・スミルノフ検定)という。

Rによる実装
https://data-science.gr.jp/implementation/ist_r_kolmogorov_smirnov_test.html

Daltonの授業で意外と知られていないと指摘されていた。彼の最近の論文では、p-valueのdistributionがuniformかどうかを検定する際に使われている(つまり、正規分布以外についても応用可能である)。
Testing the key assumption of heritability estimates based on genome-wide genetic relatedness
https://www.nature.com/articles/jhg201414