February 15, 2022

ウェイティングの重み

  2週間前から査読から返ってきた論文を改稿していることはすでに書いたが、ここ最近の研究時間の大半をそれに費やしている。再提出の締め切りまでは半年もあるので、別にここまで根詰めてやる必要がないのは頭ではわかってるのだが、なんとしても早く出したいので、ほとんどそれしかやってない。結果、他人の論文を査読する時間を作れていない、多分早く結果が来て欲しいと思ってるだろうから、がんばらないといけない。ドラフトをアドバイザーに送って返事を待ってる数日は、すごく解放的な気分になる、その数日に溜まった仕事をこなしてる。ブログを書く時間もないのだが、今週取り組んでいたウェイティングについて、その作業を簡単にまとめておく。

サーベイはたとえ無作為に抽出されていて代表性があるとしても、調査に協力してくれる人とそうではない人の間に差があり、それがシステマチックに生じている場合には、代表性に歪みが生じてしまう。そのため、よく国勢調査などを用いて年齢や婚姻状態、学歴といった変数でケースあたりの重み付けを変える。これを俗にcross-sectional weightsという。

パネル調査では、これに加えてlongitudinal weightsというものがある。継続調査には、脱落がつきものである。調査に回答してくれなくなる人は、例えば結婚して家を出て行って追跡できなくなったり、仕事が忙しくなって回答する時間が見つからなくなる人もいる。こちらもランダムに生じるものではないので、代表性を持たせるためには補正が必要になる(例えば、未婚者が結婚を経て脱落しやすくなる場合、未婚者を多めに見積もらないといけない)。

具体的には、脱落を予測する回帰分析から予測確率を出し、その値で1を引いた値が、継続確率になる。この継続確率の逆数をcross-sectional weightsにかけたものが、longitudinal weightsになる。

ただこう書くと、なんだ求めるのは簡単じゃないかと思われるかもしれない。たしかに、1回きりの調査ならば、そこまでは大変ではないだろう。しかし、現在用いているデータは、数年おきに新規サンプルの追加をしている(これも、脱落によってサイズが小さくなっていくパネル調査ではよくとられる方法だ)。そのため、2004年に抽出されたサンプルについては、例えば2005年の国勢調査の値を使う一方で、2009年の調査には2010年の国勢調査の値を参照する必要がある。たかだか5年と思われるかもしれないし、実際ウェイトに使う年齢分布などがそこまで変わることはない。しかし、例えば女性の学歴は若年層では高くなっているので、5年でみても変化がある。 調査年に近い官庁統計を参照するに越したことはない。

別のプロジェクトで、世界7ヵ国の世帯パネル調査をハーモナイズしたデータを使っているが、この手の調査には上記のcross-sectional/longitudinal weightsはデフォルトで調査者が提供している。個々人が異なるウェイトを使ったら、結果にもばらつきが出てしまうし、何よりパネル調査のウェイティングはかなり面倒くさいからだろう。

しかし、残念ながら現在使っている日本のパネルデータには、ウェイティング情報が提供されていないので、一から作る必要があり、これに2日とられた。かかった時間よりも、estat apiと睨めっこしたせいで生じた肩こりが辛い。

この作業の数少ないメリットは(査読者のコメントに答えられるという点を除いては)、作業を通じて、ウェイトは(デフォルトで配られているので)あまりありがたがられることのない情報であるが、この情報を提供するまでに結構な時間が投資されていることを知るに至った点である。縁の下の力持ち的なウェイトの重みを、過小評価してはいけない。ただ、正直にいうと平均値に興味がないのにウェイティングをしなくてはいけない直感的な説明が欲しい。

February 14, 2022

代替可能性をどう測るか

 人口減少関連だと、たまにオートメーションの話が出てくる。自分がフォローしてるイギリスの研究だと、職業に必要なスキルで代替可能性を算出してるのだけど、そうするとサイゼリヤの調理スタッフと高級イタリアンのシェフはともに「調理人」になってしまう。恐らく代替可能性は前者の方が高いだろう。

職業内で代替可能性が異なる可能性は十分あり、それをどう測るか。そんな話を今日、NYで高ゼミの後輩とした。いっそのこと、スマートシティの監視カメラで、働く人の行動を全て記録し、一人一人の代替可能性を算出するのはどうか、みたいな話になった。

実際にそれを他の人口に広げるのは難しいので、そこで働く人に別途、自分の仕事がどれくらい代替可能性があるか、自分で判定してもらう。それと機械で算出した代替可能性の相関を取る。意外と0.8くらいありそうな気もする。

February 10, 2022

1日の振り返り。

 今日は10時半から社会ゲノミクスのラボ。きょうだいの遺伝子から親の遺伝子を類推して補充し、親から子への間接的な遺伝効果を推定する手法が開発され、にわかに関心を集めており、今日は先生がその論文の発表。自分も、そのパッケージを動かして、Add Healthの遺伝子データを補充する予定。

午後2時からインタビュー。学部生の寮の、院生スタッフみたいなポジション。受かれば、学部生と同じ寮に住む。ひとまず書類が通って、面接まで呼ばれたのはよかった、全く評価されていないわけではないと思えたので。自分の中では、最近では結構背伸びした経験に入る。難しい質問にはちょっと窮しちゃったけど、それも経験、少しずつ成長している、はず。この手の、正解がない、オープンエンデッドな質問には、まだ英語では苦労している。それなりのことを言ったつもりでも、相手の意図を根っこから理解しているのか、よくわからなくて、不安になる。

そのあとは来週ワシントン大学で報告する、論文の改稿。博論第3章でもあるこの論文、今日はそのイントロをかなりガラッと変えて、結構インパクトがあるように見えてきた。これは、個人的には大きな進捗。中身を変えてなくてもイントロで論文の印象が変わるのは、アメリカの社会学の論文あるあるな気がする。

午後7時から、映画館で竜とそばかすの姫を見た。プリンストンの映画館で日本のアニメが上映されるのはかなり珍しいみたいで、最終日に間に合ってよかった。幾田りらが歌わない役で出てたのが1番の驚き。日本の映画もスクリーンでたまに見られるんであれば、全然アメリカ住めるな(それができないんだけど)、カンヌの力は偉大だなと思わされた。

February 2, 2022

官僚答弁

 ハローワークのインターネットサービスに、全国の高校や大学・学部ごとの就職希望者と実際の就職者数が「全国学校便覧」として公開されている。

https://www.hellowork.mhlw.go.jp/enterprise/catalog_college.html

このデータベース、学校単位で就職希望者数と実際の就職者数をとっていて、貴重なデータだと思う。当然?、過去のものも利用できないかが気になり(就職浪人に男女差はあるのかが気になる)、ホームページを見たところ「最寄りのハローワークにお問い合わせください」とある。

アメリカにいる私にとって、最寄りのハローワークとはどこなのだろうか?

仕方ないので、ひとまず水戸のハローワークに電話してみた。1日待って調べてもらったところ、厚労省の若年者キャリア形成支援担当まで連絡してくださいと言われ、翌日電話する。

さらにここで調べるので1日待つことになり、翌日の回答は「毎年度新しいものに更新しているので提供できるものはありません」だった。

官僚答弁ってやつですね。あるのか、ないのか、こたえないやつ。

「古いデータは残してるけど公開してないのか、そもそも廃棄してるのか、どっちですか」と聞いても「毎年度新しいものに更新しているので提供できるものはありませんとしか回答できません」の一点張り。最後はお互いに笑ってしまった(声から察するに若手の人だろう、厚労省でもこのポストは最初に就くらしい)。おそらく、上司の人にそう言えと言われてるんだろう、模範的なまでに、官僚的だった。

「毎年度新しいものに更新しているので提供できるものはありません」と言われたのですが、事業所の方では過去のデータを保管しているのでしょうか、と水戸のハローワークに戻って聞いてみたところ、答えとしてはどこの事業所も神かデジタルかはわからないが5-6年は保管しているはずだということ。あれ、保管してるんじゃないですか〜となり、今は各地域のハローワークが情報をあげている茨城の労働局に電話中。都道府県単位になると、官僚度は少し上がるか。

数日電話してみて思ったのだが、官僚は自分が専門でないことには、とにかく上司や組織の方針を一点張りにする傾向がある、自分で柔軟に考えようとしない。専門性があれば、自分の裁量で判断できるだろうに、専門性を(意図的に?)身に付けてないがために、官僚答弁が身についてしまう。

February 1, 2022

先学期に教えた授業の反省

 某トップジャーナルに論文がR&Rになってしまい、てんやわんやの数日を過ごしている。5日間で、少なく見積もって30時間は論文の改稿をしていた。不思議なもので、机に向かうとゾーンに入るというか、日常とは比べ物にならない集中力でリプライレターを書くことができている。この論文を通せば、自分の人生が変わることを理解しているからなのかもしれない。人は人生の重要な曲面に入ると、尋常じゃない集中力を発揮するのだなと思った。

明日から、社会ゲノミクスのラボが再開する。先学期に教えていた社会ゲノミクスの授業は、本当に大変だった。大変だった理由は20くらいあるのだけど、そのうちの1つは政治的考えによる対立。功利主義的な発想から遺伝子選別をよしとする人、それに反対する人、正直収拾がつかなくなった。新しい技術(例:遺伝子選別)は既存の政治的スペクトラムの中に回収されてしまうのだと思った。

こういう政治的意見の対立の話は、そもそも前提・事実が共有されてないんじゃないかと思われることがあるかもしれない。しかし授業の前半で、どうやって遺伝率を求めるのか、遺伝効果とは何で何ではないか、そういったベーシックなことをカバーしても、対立する時は対立する。なかなか難しい。

遺伝に対する様々な解釈はあっていいし、現代的な価値観では全く支持されない考えを持っていても、それは一つの考えだと思う。悲しいのは、ゲノミクスを学んでも、それぞれの認識が改まることは少なく、既にある考えに適合的なように解釈されてしまうこと。

だからもし「正しい」遺伝の理解を広げたい場合、大学だともう遅いと思う。個人の政治信条は既に固まってる。介入するなら中等教育だと思う。例えば(センター生物60点の自分が言うのもアレだが)メンデル遺伝学をやるのは構わないけど、形質を説明するのは複数遺伝子であることなどは強調した方がいい。