May 8, 2019

社会学者から見た因果推論の一例を人口学徒が解釈する

今学期は必須の授業の一つである統計の授業を取っていたのですが、先ほど期末試験が終わりました。まだ最終的な成績は分かりませんが、一学期間授業を取った所感を残しておきます。

統計の授業なのですが、先学期は今学期と違う先生が線形回帰までを教えてくれて、今学期は社会学の因果推論では知られた先生が講義を担当しています。先学期がSOC361で、今学期が362です。番号でわかる方はわかると思いますが、この授業は学部生も取れる授業です。ただし、社会学博士課程の必修になっているほか(一定の条件を満たすとwaiveは可能)隣接領域(社会福祉、教育政策、教育心理)の院生も多く取っていました。したがって、学部生にとっては恐らく難易度はかなり高い授業だと思います。私も一学期間とってみて、レベル的には700番台(院生向けの授業の中級?)くらいだなと思いました。

因果推論は奥が深いですが、この授業では観察データから因果効果をestimate(推定)する方法(傾向スコアなど)、及び因果効果をidentify(同定?)する方法(RDD, IVなど)の双方がカバーされていて、因果推論の世界は一通りカバーされていた印象です。ただ、時折effect heterogeneityの話を急に深く踏み込んだり、先生の最近の関心であるネットワークにおける因果効果の例が出てくるなど、応用的な話もあるので、全体としては中級と上級の間くらいのラインアップだったと思います。

この授業の特筆すべき特徴は、DAGと呼ばれるグラフィカルに因果推論にアプローチする方法がほぼ全ての授業で紹介されている点です。後半の授業になると、例えばDIDの回であれば、最初にエコノメチックな紹介をした後、これをDAGで表現するとどうなるかという、非常にマニアックといえばマニアックな世界に入る構成になってきました。DAGのメリットは多くありますが、理論の中で考える変数間の関係性をcausal, cofounding, colliderの三つに分けることで、どのようなモデルを自分が想定しているのか、またその想定のもと変数を条件づけていくとどこでまずいことが起こるか(具体的にはcolliderを条件づけることによるendogeneous selection bias)を、非常に分かりやすく可視化してくれる点にあると思いました。また、DAGのpath modelで表される変数間の関係性はそのまま分析する人が想定する理論(data generating process)へと直結するため、potential outcome modelを想定した上で、理論と実際のモデリングの世界を架橋してくれる道具でもある点が非常に便利だなと思いました。

タイトルとの関連で本題に入ると、私は授業を取る前に、因果推論に対してはエコノメや最近では政治学の人がかなり時間をかけて取り組んでいるテーマで、そういう人たちは(当たり前といえば当たり前ですが)、実験的な環境における因果効果を理想とした上で、どう現実を実験の環境に近づけるかという思考で研究をしているという印象を持っていました。そういうこともあり、この授業の先生も、観察データからいかに因果効果を導くかに関心があり、ともすればそれ以外の記述的な研究の価値をあまり評価していないのではないかと思っていた節がありました。

この授業を取った嬉しい誤算の一つは、先生がそうした因果推論至上主義(またの名を因果推論警察、私はそんな言葉を使ったりはしませんが)の流れにいる人では必ずしもなかったということでした。どちらかというと、因果推論の力を認めつつも、その短所も同時に指摘することで、従来主流だったアプローチが必ずしも意味をなさないわけではないと示唆することが多かったように思います。

どれだけエコノメの授業で強調されるのかは分かりませんが(ある程度は強調されるとは思いますが)、どの因果推論のアプローチも、外的妥当性の問題を抱えています。例えばIVやRDDを使った推定はLATEになるため、その因果効果がどれだけ一般化できるのかについてはわからないところがあります。傾向スコアも、まずは観察される変数でバランスできているのかという問題と、マッチングに関してはマッチされなかった集団を分析から除くことでどれだけ求められる因果効果が集団全体に適用可能なのかも分かりません。そもそも実験的なアプローチについても、対象となる集団の代表性については問題とならないため、因果効果を求めても外的妥当性の問題はなお残ります。

この授業を取るまでは、固定効果なども含めてエコノメから発展してきたこれらの手法は非常に強力で、やはりどの研究者もこうしたアプローチを分析に取り込むべきなのだろうかと考えていたこともありました。授業をとってみて変わった点は、当たり前に聞こえるかもしれませんが、因果推論的なアプローチを取るかは問いによるというものです。

何かしらの手法を駆使して因果効果を求めることが適切な問いである場合もあると思いますが(特に介入が可能な政策効果などの場合)、外的妥当性が議論のコアになるような問題については、必ずしもこのアプローチを取る必要はないのかなと考えています。そして社会学、あるいは人口学的な志向を持つ社会学的な研究ではこの外的妥当性の考えにより比重を置いているという印象を持っています。代表性を気にしなければ、依拠するサンプルが何だろうと因果効果を求めて一つの貢献になるのかもしれません。

しかし、一旦外的妥当性を気にし始めると、その分析が想定している母集団とは一体何なのかという疑問が解決しない限り、その研究を評価することが難しくなります。少なくとも人口学、あるいは人口学的な志向を持って研究している社会学の人にとっては、想定する母集団がまずあり、その集団において何が起こっているかを理解しようと考える傾向が強い(と私は勝手に感じている)ので、まずは集団の明確な定義が必要になります。また、社会制度や規範の変化に伴って学歴と結婚、年齢と性別役割意識の関係は変わったのか、あるいはそれらの関係は国ごとに異なるのか、という構成的な問いを立てることも多いため、こういう研究の場合も、対象とする母集団が明確になっていないと、どの集団とどの集団を比較しているのかよくわからなくなってきます。

以上述べたような問いに関心がある場合は、ひとまず因果推論的な考えは多少棚に上げて記述的にみてみることも大切かなと、改めて考えているところです。もちろん、例えば学歴と結婚の関係が1960年代と2000年代で変わった場合、可能性としては(1)学歴の結婚に対する因果効果が本当に変わった、という説と(2)学歴と結婚の間にある交絡要因が変わったという説の少なくとも二つが考えられますが、こういった時点間で因果関係が変わっていることに対して、因果推論の人はどのようにアプローチするのか、私はまだ(どれくらい意義があるかも含めて)よく分かっていません。なぜかというと、これまで授業やそれ以外の機会で読んできた因果推論の文献は、ある特定の集団を対象にした時の因果効果に言及することがほとんどで、その関係が他の集団、あるいは同じ集団でも異なる時点で異なることに関心を向ける研究は知らないからです。

一般に、まずはassociationがあるかを確認して、それが本当にcausalなのかを確かめようというステップで因果推論の利点が紹介されることが多いように感じるのですが、上記のような問いはまさしくassociationalな問いで、数えきれない交絡があると考えられます。そういう現象に対して、どうやってcausalな問いを組みこんでいくか、そもそもそういう問いにどれだけ意味があるのかは、今後考えていく必要があるのかなと思っています。少し踏み込んで言えば、今までassociationからcausationへという、両者は架橋できるという意味を含んだ言葉で回収されてきたassociationalな問いの一部は、実はconstitutionalな問いといったほうが適切なのであって、constitutionalな問いとcausalな問いを架橋することは一見すると簡単そうに思えて、実はかなり距離があって難しいのではないかというものです。先の例を使うと、「学歴と結婚の関係はこの50年間で変わったのか」という問いと、「学歴が結婚に対して与える因果効果はどれくらいか」という問いの二つは、似ているように見えて、実は翻訳が不可能なのではないか、ということができます。

そういう点について改めて考える機会を与えてくれた今学期の統計の授業でした。

No comments:

Post a Comment