最近、計算社会科学の界隈で、社会学が注目してきたアウトカム(例:大学に行くかどうか)をサーベイデータに機械学習応用して予測しても、精度は単純な線形回帰とそこまで変わらない、みたいな話がある。
Salganik, Lundberg... McLanahan. 2020. Measuring the predictability of life outcomes with a scientific mass collaboration. PNAS.
この研究の知見から、社会学者が手塩にかけて実施してきた社会調査では、個人のライフコースを予測する重要な変数を聞けてないのではないか?という話になり、アメリカでは予想と現実が一致しない人(モデル上は大学に行ってない確率が高いのに実際には行ってる人)にインタビューをして、何が見逃されてきたのかを、調査しているグループもある(というか、僕の同僚のチームがやってる)。
このプロジェクトで使用された調査データについては、今度出る「社会と調査」で、そのプロジェクトと一緒に解説しているので、ご笑覧ください。
(ここで急に自分語りに入る)そういう意味では、自分も調査でわかる出身階層(地方出身、両親高卒、ひとり親家庭)的にはアウトカム(学部東大、アメリカで博士課程)はかなり予想から反すると思う。反実仮想はわからないけど、上記の不利を克服したと思える要素を並べると、
- 小中学校の同級生の親の階層(県庁周辺で働く高学歴の人が割と多かった)
- 家から通える距離に月2千円の自習室があった(ないと高校受験の勉強は多分しなかった)
- 「偶然」地元で1番の進学校に入った(下から5番目で合格で危なかった)
- 男性(女性だったら浪人に拒否反応を示されたかもしれない)、そんな話を最近書きました。
偶然、地元の進学校に入ると、周りが難関大学志望に囲まれるので、実力不相応でもそういう大学を志望しがちになる(ピアエフェクト)。そういう意味では、地方とはいえ、県庁所在地で進学校や予備校も自宅から通える距離にあったのも重要かもしれない。東大に入っても、上記の不利はあまり問題にならなかった気がする(俗にいう大学の平等化効果かもしれない)。
ということを、進路選択の調査を企画しながら思った次第。深夜の一人語り終了。
No comments:
Post a Comment