March 17, 2018

計量分析を用いた論文も社会的な構築物なのか?:経済学と政治学の再現性ポリシーの違い

*2018年10月31日追記
再現性ポリシーの概要と動向をまとめた論文が東大社研のリサーチペーパーとして出ました。詳細の議論を知りたい方はご覧ください。
打越文弥・三輪哲, 2018, 社会科学分野における再現性ポリシーの概要と今後の課題----経済学・政治学・社会学を中心としたレビュー, SSJ Data Archive Research Paper Series 66.

社会科学にも再現性(replication)の波がきています。経済学ではトップジャーナルの多くが、掲載の際にデータとプログラムの共有を求めるようになっていますし(How to Make Replication the Norm, Nature)、政治学でも2015年に46誌の共同声明の形で再現性ポリシーを持つことが宣言されています(Data Access and Research Transparency, DA-RT)。

再現性ポリシー(replication policy)とも呼ばれることもある、研究論文の分析結果の再現を目指すこの運動、定義はいくつかありますが、今回はさしあたり「分析に用いたデータとプログラムを公開することで、分析結果が再現される可能性を担保すること」としておきましょう。

ただし、この定義だとある重要な点、すなわち実際に分析結果を再現できるかをチェックする作業が抜け落ちています。これを検証(verification)と呼ぶことにしましょう。

データとプログラムを公開するだけでは、分析結果が再現できるかわからないではないか。その通りです。ただし、実際のところ、掲載までに分析結果が再現できるかをチェックする雑誌は多くありません。検証まで行うことで有名なのは、政治学のトップジャーナルAmerican Journal of Political Science(AJPS)ですが、この雑誌が再現性チェックを依頼しているノースカロライナ大学チャペルヒル校のオーダム社会科学研究所(the Odum Institute for Research in Social Science)では、AJPSの他にState Politics and Policy Quarterly、合計すると二つしか再現性のチェックを請け負っていません.経済学では、ほとんどの雑誌が再現性ポリシーを掲げていても、検証までは必須としていないのが現状です。

掲載の際に再現性チェックを行わないと、何が起こるのか。結局、分析結果が再現できない論文が掲載されてしまうことになります。若干ショッキングな数字かもしれませんが、先のNatureの記事では、出版時に再現性チェックを行わない経済学において、データとプログラムが提供されたとしても分析結果を完全に再現できたものが、わずか14%程度にとどまるとしています。

なぜ再現率がここまで低いのか。思いつく理由はいくつかありますが、それで全てを説明できる自信はありません。ただ、大きな理由の一つとして、経済学の雑誌においては掲載時に検証をせず、データとプログラムの提供だけで済ませてしまうことがあるのは、間違いないと考えられます。少なくとも、全ての雑誌がAJPSのように掲載時に再現性チェックを行えば、多少は再現率は上昇する気がしますよね。

なぜ掲載時に再現性チェックを行わないのか。この点は、私もまだよくわかっていないところがあります。社会学者のアンドリュー・アボット氏は再現性ポリシーに強硬に反対している論者の一人ですが、彼によれば、この数十年でソフトウェアの発展や早いキャリアからの論文投稿を推奨する流れが強まったことで、彼が長年編集長を務めてきたAmerican Journal of Sociologyへの投稿論文数が大きく増加したらしいです。そのような状況で、再現性ポリシーを導入すると、査読者の仕事がさらに増えることになり、結果的に査読自体の質が落ちる可能性を彼は危惧しています(Abbott 2007)。

ただ、再現性チェックを査読者が行う必要は、必ずしもありません。AJPSのように外部委託すれば良いのです。とすると、再現性ポリシーを掲げる雑誌が増えても、再現性チェックを行う雑誌が必ずしも増えていないのは、単にチェックを行うためにかかる費用が大きいからなのでしょうか。

もちろん、そういう金銭的、あるいは時間的な理由(AJPSのレポートによれば、再現性チェックに平均46.32日を要することが報告されています)で、再現性チェックが広がらないのかもしれませんが、今回は別の理由を考えてみたいと思います。

先ほど確認したように、再現用データやプログラムを共有したとしても分析結果を再現することは、非常に難しいです。この点を踏まえ、再現性ポリシーの意義を分析結果の厳密な検証(verification)という意味での再現(replicate)ではなく、異なるデータから似た結果を得ることを追求する意味での再現(reproduce)に見出しているのがMirowski and Sklivas(1991)であると考えられます。

Mirowski and Sklivas(1991)はDewald et al.(1986)の論文を引用しながら、論文の出版は、社会的なプロセスによって生み出されることを主張します。Dewald et al.(1986)は再現性ポリシーの古典的な論文の一つで、雑誌に掲載された論文の再現性が必ずしも高くなかった(というか、低かった)ことを指摘した、最初期の研究です。要約すると、1982年にJournal of Money, Credit and Banking(JMCB)誌が、直近のJMCBに掲載された論文の著者にデータとプログラムを提供してもらい、結果を再現できるか確かめるプロジェクトを開始しました。このプロジェクトの一環として,Dewald et al.(1986)はデータが提供された論文の分析結果の再現性を検討したのですが、データセットに誤りや情報の不足がなかったものは、わずか15%にとどまることが分かりました。この結果を受けて,論文が掲載されたAmerican Economic Reviewの同じ号において、編集委員会の方針が発表され、再現性に関する条件が著者に求められるようになるなど、この論文が経済学、広く言えば社会科学の再現性にもたらした影響は、小さくありません。

というわけで、Dewald et al.(1986)のもたらした知見のインパクトはすごかったのですが、Mirowski and Sklivas(1991)は、このプロジェクトから、論文の出版過程が社会的な要因に左右されていることがわかると指摘します。例えば、Dewald et al.(1986)では、分析結果の再現の過程で、再現者が原著者にコンタクトをとる他、データセットの訂正や、推定に用いたアルゴリズムにおける丸め(rounding)の違いなどが再現性チェックの過程でみられたと報告されています。

Mirowski and Sklivas(1991)によれば、これらの事実は、論文として提出された分析結果が時間的に不変で、場所や人に依存しない客観的なものではなく、むしろ多分に社会的・主観的な要素を含んだものであることを示唆するというのです。要するに、分析結果を再現しようとしても、人と人の相互作用によって結果が異なって提示されたり、あるいは用いているソフトウェアやアルゴリズムといった環境的な要因によっても、結果が変わってしまう可能性があり、とても客観的な事実であるとは言えないということですね。

以上より、Mirowski and Sklivas(1991)は、これまで蓄積されてきた研究を客観的に検証できない以上、それらの知見を認めた上で、異なる対象に対しても知見が確認できるかを、さらなる経験的な研究から確かめることの方が重要であると主張します.

さて、この立場を敷衍すると以下のようなことが考えられはしないでしょうか。一方で、出版時に再現性チェックをするAJPSのような政治学のジャーナルは分析結果が完全に再現できるという検証主義的な立場をとっているように見えます。他方で、提供を求めるだけの経済学のジャーナルは、完全な再現は難しいと考える構築主義的な視点に立っているのではないかと。

このように考えると、一見似たような再現性ポリシーを掲げながらも、実際のところ、両者は全く異なる科学観に立脚している可能性があります。

以上の議論は、一口に再現性といっても、いくつかのヴァリエーションがあることを示唆するわけですが(なので、冒頭で再現性の定義をあらかじめ緩くしておきました)、最後に、このような変種をどう分類できるかを確認しておきたいと思います。

この点については、Freese and Peterson(2017)のannual reviewで紹介された四象限図式が便利です(図参照)。この論文では、計量社会科学における再現性の形態が、(a)用いるデータが同じかどうか、及び(b)用いる手法が同じかどうかによって4つに分けられるとしています。

この二軸で考えると、(1)同じデータを同じ手法で検証することは「検証可能性」(Verifiability)となり(2)同じデータを異なる手法を用いて同じ結果が得られるかを検証することは「頑健性」(Robustness)となります。

これに対して、(3)異なるデータを同じ手法を用いて検証することは「反復可能性」(Repeatability)とされ、最後に(4)異なるデータを異なる手法を用いて同じ結果が得られれば「一般化」(Generalization)となります。

AJPS、あるいは政治学における再現性ポリシーを主導したギャリー・キング氏らの再現性ポリシーは、検証可能性に重きを置いたものであると言えそうです。これに対して、Mirowski and Sklivas(1991)、あるいは(これは私の解釈が強いですが)データとプログラムの提供のみが義務付けられる傾向にある経済学における再現性は、頑健性、あるいは反復可能性を重視することで、知見をより一貫して、広い対象に適用することに重きを置いている可能性があります。科学における「再現」(replicate)とは,厳密には同じ母集団から異なるサンプルを抽出して、同じ結果が確認されるかを指すものであるため(Herrnson 1995)、経済学的な「再現」の考え方の方が、replicateの元来の意味に近いのかもしれません。

図:計量社会科学における再現性の諸形態

文献
Abbott, A., 2007. ‘‘Notes on Replication.’’ Sociological Methods and Research 36:210-19.
Herrnson, P. S. 1995. ‘‘Replication, Verification, Secondary Analysis, and Data Collection in Political Science.’’ PS: Political Science and Politics 28(3):452-55.
Mirowski, P. and S. Sklivas. 1991. “Why Econometricians Don't Replicate (Although They Do Reproduce),” Review of Political Economy, 3(2): 146-163.
Dewald, W. G., Thursby, J. G., and Anderson, R. G. 1986. “Replication in Empirical Economics: The Journal of Money, Credit and Banking Project.” The American Economic Review, 587-603.
Freese, J. and D. Peterson. 2017. “Replication in Social Science,” Annual Review of Sociology. 43:147–65.

No comments:

Post a Comment