February 13, 2020

2月12日:科学化する社会学

昨日は今日のセミナーで報告予定の原稿を詰めていて、午前1時半くらいまで作業してしまった。集中できて書けたので進捗はだいぶあったが、予想通り翌日の気分はブルー。先学期に根を詰めすぎて夜まで予習をしてしまい、その結果気分が悪くて翌日のセミナーで発言できない、ということは珍しくなかったので、今学期は詰めすぎないのが目標なのだが、報告予定のセミナーは、用意すればするだけ丁寧に、そして厳しくコメントしてくれるので、なるべく進めたいという思いがあり、相反する。

そんなわけであまり気分は良くなかったのだが、10時40分から疫学の授業。今回は少々テクニカルで、カプラン=マイヤーをはじめとする生存関数の話。マイヤーは先生が院生時代のインストラクターだったらしい。といっても、今年72歳の超ベテランの先生なので、彼女が院生だった頃というのは、50年近く前になる。人口学の授業では、その距離の近さとは裏腹にカプラン=マイヤーを勉強しないのだが、今日はそのあたりの解説もあり勉強になった。人口学では基本的にperiodレベルのデータを使って生命表を作り、平均余命などを求めるが、ここでは観察の欠損がないことを仮定している。というか、synthetic cohortの概念は一個人を追いかけるという発想をそもそも放棄している。これに対して疫学では、典型的には診断を受けてから観察が開始され、個人を追いかけて疾病の死亡リスクなどを評価するので、観察の打ち切りやアトリションが生じる。こうなると、生命表で考えていたような欠損のないsynthetic cohortのアプローチは相性が良くない。カプラン=マイヤーの肝は、欠損を許容して条件確率を出し、それを積算して生存関数を書くところにあるのだなと思った。欠損がなければ、平均余命などは生命表のそれと同じになるのもエレガントである。生命表とカプラン=マイヤーのアプローチの違いを理解するためには、やはり直接手を動かしてみるのが良い。

お昼を挟んで2nd year paperを書くためのセミナー。リーディングなどはないのに、この授業がもっとも疲れる。先学期まででリサーチクエスチョンやデータ、大まかなアプローチは決めており、学期間の課題でNIH型のプロポーザルを出した。先週から来週にかけては、各自が1時間ほど発表時間をもらって、そのプロポーザル、あるいはあとで述べるpre-analysis planを持っていて、分析を始める前に詳細を詰める。

社会学でも「科学化」が進んで久しい。もちろんここでの「社会学」とはアメリカの社会学である(もっというと、博士課程の学生を恒常的に出すような研究大学における社会学プログラムに限定される)。1年生の終わりに関心のある論文のreplicationを行わせるのは珍しくないし(プリンストンでも行なっている)、最近は政治学の方で進むオープンサイエンス化の流れに影響されて、計量的な論文の分析コードの公開をする人も増えている(もちろん、それは院生から卒業して10~15年以内くらいの比較的若い研究者に限定されるが)。私も渡米前には、アメリカのこういう雰囲気を学会で見て取って、分析コードの公開などはしていたが、今回の2nd year paperは、単に論文を書くというものには止まっておらず、実験的に「科学的な」論文を書いている。

まず、2nd year paperは正式にはempirical paperといって、1-2年生の間に理論やメソッドを習った集大成として、自分で経験的な論文を書いてみようというものである。うちでは、これは修論相当になる。社会学では経験的な研究をすることが推奨されるので、これはわかる。ただし、なんでもempiricalでいいかというとそうではなく(おそらくインスラクターのDGSの先生の判断で)計量的な論文しか書けない。この時点で質的な論文を書いている人にとっては追加の論文をかかなければいけない不公平があるが、アメリカ社会学のジョブマーケットでは卒業時までには2本ほどパブリケーションが必要になるので、比較的時間のかからない計量的な論文をこの時点で誰もが持っておくことは、彼らのジョブマを不利にはしないだろうという判断かもしれない。

ここまでなら、まあそうかとなるが、追加でcausalな論文でないといけないという制約が付いている。インストラクターの先生はキワモノ揃いの社会学者の中でもかなりのキワモノで、社会ゲノミクスの第一人者で生物学の博士号も持っている。この授業の裏テーマは、サイエンス色の強い社会学論文の執筆なのだ。結果として、受講する二年生のidentification strategyは、IVを使ったものが多く、その次にDiD、傾向スコアを使っている。ちなみに、私はゲノムのデータを使った論文を書いているからか、identification strategyは比較的ゆるめで普通のOLSを走らせる予定。

これらに加えて、先ほど言及したpre-analysis planを書き、それをレポジトリにあげることが求められている。pre-analysis planというのは実験系の分野ではよくあるのだろう、事前に実験計画とどのような方法で推定するか、power analysisをしてサンプルサイズを幾つにするかなどをあらかじめ書いておくことでp-hackingを防ぐ目的がある。p-hackingに限らず、データを得てから分析を考えるというのは、あまり科学的ではない(とは言っても、実際には社会学者の多くはデータを触りながら -これを都合の良い言葉では「探索的」な分析と呼ぶ-仮説を考えたりするし、私も実際にそうしてきた)。なるほど、pre-analysis planというのは非常に「科学的」だなと思うのだが、問題は社会学が分析するような論文はすでに調査され、データセットも出来上がっているものである。したがって、レポジトリにあげてタイムスタンプ(いつ提出したのかが永久に残る)を押されても、その前にどこかでデータを手に入れて、それをいじりながら仮説を考えることは、不可能ではない。したがって、先生によればpre-analysis planはあくまで建前というか、性善説に基づいていることになるのだが、彼の理想の世界では、社会学でも、分析を始めるまでに仮説やidentificationを全てそろえてから、コードを走らせるのがベストらしい。この辺りは、私も完全に賛同できるかというとそうではないが、教育的な意味ではやってみてもいいと思う。実際に、データをいじらないで仮説を考えるという作業が非常に新鮮で、これに関して色々と発見もあったからだ。ちなみに、社会学ではほとんど見ることのない多重仮説検定による罰則も必須である(私はあまり納得できず、まだ進めてないが)。

こうした社会学の「科学化」が今後どれくらい進んでいくのかはわからないが、少なくとも今後もデータ分析の過程の透明性を高める努力は続けられるだろう。これに従って論文を執筆するために必要な作業も増えてくるし、それを自分の手で一朝一夕に身に付けるのは非効率なので、博士課程のうちに教育を受けておくのがベストだと思う。これがアメリカの一部の社会学だけで止まるとは思えず、業界のスタンダードは多少変わっていくだろう。ただ、replication fileが当たり前になっても、pre-analysis planが当たり前になるような世界は、私にはまだ想像できない。

もちろんどこか一つに収斂する必要はなく、イメージとしては社会学の計量的な論文の書き方は少なくとも、二つくらいになっていくかもしれない。一つは上記に述べたような、実験系の論文とかなり近いスタイルで、これは透明性も高く、他の分野の人が読んでも「科学的」だと思ってもらえるかもしれない。ただすでに言及したように、社会学で必ずしもここまで実験系の論文に書き方を寄せる必要はないと思っている。社会学が知りたいものに迫る一つのやり方として、実際にデータから何が起こっているかを推論する、探索的な、あるいは解釈的な分析は、計量的な分析でも割にあるからだ。こういうのは、大きな理論的な命題を述べたい時に書く、ストーリーテリング型の論文と相性が良く、社会学の関心的にはこちらへの需要は無くならないだろう。

ただ、こちらのストーリーテリング型の論文も時として科学的な論文の擬態をしていることは多く、さも仮説検証をしているかのようなスタイルで論文が書かれることは珍しくない。やや過激な主張かもしれないが、いっそのこと、仮説検証型の論文は第一の科学的なスタイルで書いて、pre-analysis planもしっかり公開してみてもいいかもしれない。これに対して、ストーリーテリング型の論文では、データを使っている場合でも、仮説の検証ということは一切言わず、データを泥臭く解釈したらこういうことが言えるんじゃないかと思います、という仮説提案型の論文に集中したほうがいいかもしれない。


No comments:

Post a Comment