Showing posts with label PAA. Show all posts
Showing posts with label PAA. Show all posts

April 11, 2019

PAA2019 1日目: Data viz

今日からPAA開始、といっても多くの人が来るのは18時からのwelcome mixerだけ。我々はまず、午前9時から開始されるdata vizのセッションに行った。データをどうやって可視化し、伝えていくかと言うのは人口学、あるいは社会科学一般で重要になってきており、UW-Madisonも形式人口学の授業でggplot2を使って課題の結果をvizすることが推奨されている。

講師の方はDCのシンクタンクに勤めている人で、職業柄、論文ではなく2ページのブリーフサマリーしか読まない人にも分析の結果を伝えなくてはいけないので、そう言うこともあってdata vizを専門にしていると言う。参加者のうち、大学院生は比較的少数で、多くは講師の人と同じようなバックグラウントを持つ民間セクターの人や政府機関の人だった。data vizを学生に教えなくてはいけないという教授の人も来ていた。

セッション自体はdata vizの基礎的な考え方がメインで、実習パートはなかった。これは参加者の背景や使用するソフトウェアの多様性を考えると仕方ないかなと思う。4時間程度のセッションで、いくつかtipsを持ち帰ることができた。4つほどあげると、


  1. Consider who is your audience : 当たり前だが、研究の報告には「誰に」報告したいかという問題がある。当たり前すぎてあまりかんがえていなかったが、講師のメッセージは同じデータを使ったグラフでも、誰がオーディエンスなのかによってrepresentationを変えるべきというものである。例えば、論文に投稿するような図であれば多くの色は使えないので別の方法を考える必要がある。一般向けに報告する場合は、その人が知らないような表現の仕方をいちいち説明している時間はないかもしれない。そのため、最後にあげるパイチャートの限定的な使用もOKなのではないかというアドバイスもあった。
  2. Make a graph title active : これはあまりdata vizの文脈で考えていなかったが、タイトルとグラフを連動させるというアドバイスだった。研究者の作るグラフのタイトルは、おおよそtrends in ~だったり、results from...みたいなメッセージ性にかけるものが多い。もしかするとタイトルにグラフの解釈を入れないで客観的であろうとしているのかもしれないが、実際には数あるデータの中から特定のデータを特定の形で表現している時点で主観性が入っているわけで、それならしっかりと伝えたいメッセージをタイトルにも入れるべきだろうというものだ。その証拠として、アイトラッキングの実験データを紹介してくれた。この結果によると、人が論文やポスターを読む時にやはりタイトルに注視しているということだった。人の目に多く触れるのに味気ないタイトルでは記憶してもらえない、という主張なのかなと思った。具体的には、Growing trends in ..だったりRise and fall of ...みたいなグラフから読み取れるトレンド自体をタイトルに含めるという例が紹介された。
  3. Start with a gray graph and then think about how you can improve it : これはかなり実践的なアドバイスだと思った。エクセルにしろggplotにしろ、デフォルトのグラフには色がついているのでそれで満足してしまう。講師の人のアドバイスはデフォルトからいじろうとするのではなく、一度全ての色をグレーにしてしまうというもの。こうすることで、全てのグラフのエリアや線が同じになってしまうので、どこを強調したいのかがわからなくなる。逆にいうと、グレーのグラフから始めることで改めてこのグラフではどこを強調したほうがいいのかを強制的に考えることができる。
  4. Use pie charts “with care”: バイチャート(円グラフ)が悪名高いのは広く知られるようになったが、講師の人は限定的な使用ならOKではないかというスタンスで面白かった。パイチャートは一般の人に非常に広く知れ渡っているので、日アカデミアの人は他のグラフよりもわかりやすさを覚えるという。したがって、オーディエンスが特定の層の場合においては、パイチャートの仕様も悪くない。さらに、パイチャートの悪い点はパイチャート内の割合同士を比較することが非常に難しいことにある。しかし、もしパイチャートで1つや明らかに割合が異なる2つの部分だけを強調したい場合には、そこに強調の色をつけて、他の割合は全てグレーにしてしまう。こうすることによって、オーディエンスは色がついた部分が重要なのだと理解してくれるし、2つまでなら割合も比べやすい。
ワークショップ終了後、作業をして18時からのウェルカムミキサーに参加。いろんなところで会った人がこの学会に一堂に会してて、やはりここがホームだなと感じた。カーチャさんと5年ぶりに会って色々話せたのが特によかった。

April 9, 2019

PAA 0日目: Sociogenomics - Biodemography workshop

昨日からPAAでテキサス州のオースティンに入っています。日頃のコースワークから解放されてかなりテンションが高いです。今日は学会前に開催されているワークショップに参加してきました。トピックは社会ゲノミクスです。個人の遺伝子情報を取得する金銭的なコストが劇的に減ったこともあり、ゲノムを使った分析はこの10年で飛躍的に(本当に飛躍的に)発展しています。以前、オックスフォードで開かれた院生カンファレンスのイベントの一環でこのテーマの話を聞いてから関心を持ち、読書会やマディソンにゲノムの人がきたら積極的にあって話を聞くようにしてきました。

今回は1日と短いですが朝から夕方までの短期集中のセミナーで分析ソフトを使ったでもまで含められていたので、思い切って参加してみました。結論から言うと、表面的に接してきた社会ゲノミクスについて、かなり深く理解できるようになったと思います。

今回のセミナーで改めて重要だなと思った点は、遺伝子によって説明される特性の違いは、あくまで集団内のばらつきを説明するために用いるものであり、集団間の比較に用いてはいけないと言うものでした。人口学などの社会科学分野で関心のある特性、例えば身長などは、あくまで集団レベルにおいて遺伝子との関連がわかるものであり、それはheritabilityとして定義されます。heritabilityはあくまで集団の中でどれだけ遺伝子が特性のばらつきを説明するかと言う指標なので、集団間の身長の差を遺伝に帰することは誤りだと言うことです。これは、かなり重要な指摘だなと思いました。例えば、私たちはある集団間(例えば日本人とアメリカ人)の特性の違い(身長)がどれだけ遺伝的な要因によって説明できるか、と考えてしまうかもしれませんが、遺伝によって説明される集団レベルの特徴は、飽くまで集団内の分散を説明するものなので、平均値で集団間で差があったとしてもそれぞれの集団においてheritabilityが説明する度合いは同じであるかもしれないからです。

講師の一人のFelixさんは以前イギリスでお会いしていたこともあったので、話は重複しているところもありましたが、もう一人の講師であるRobbeeさんの研究は非常に刺激的でした。彼の研究は遺伝によって教育年数がどれだけ説明できるのか、と言うものでしたが、GWASの研究の話を進める中で、ある表現型(例えば喫煙行動と飲酒行動)がどれだけ遺伝子的要因を共有しているかというgenetic correrationの研究を紹介してくれました。彼自身は遺伝子が表現型が出る前にpre-determinedされていると言う想定に対しては距離を置いていましたが、このgenetic correlationを非異性愛行動とウェルビーイングの関係に応用した最新の研究を紹介してくれました。これが非常に面白かったです。データベースとして使用したのはイギリスのBritish cohort studyとアメリカの23andmeですが、これらのデータは対象とするコーホートが異なり、ある種の時代差をつかむことができます。非異性愛行動をする人はそうでない人に比べてメンタルヘルスや主観的健康感が低いと言う結果があったのですが、これらの変数を予測する遺伝的要因を特定した後で、その両者の相関をみたところ、古いコーホートを対象にしたBCSでは遺伝を介した相関は負、つまり非異性愛行動の人はヘルスが低いと言う関係があったのですが、新しいコーホートを対象にした23andmeでは遺伝を関した関連が正になっていることがわかったとのことです。これは、近年のコーホートでは非異性愛行動をする人が必ずしもヘルスを悪化させるわけではないと言うことで、時代的な変化を反映しているものと理解されていました。

午後の授業はplinkというターミナル上で走らせるGWAS専用のソフトウェアを使ってポリジェニックスコアを求めたり、そのスコアを回帰分析に投入するまでの一連の作業がカバーされたので、時間的に少しきつかったところはありますが、非常に勉強になりました。他にも、GWASからポリジェニックスコアへの変換の考え方についても理解が深まり、有意義なワークショップとなりました。

April 26, 2018

PAA2018 Day 0(National Longitudinal Survey)

初めての参加となるアメリカ人口学会(Population Association of America)の年次大会、学振の研究奨励費の交付日よりはやく出発する可能性もあったので、できるだけ切り詰めた出張になる。

25日は午前5時に起床、6時半に高速バスに乗り、8時半に成田空港に到着。10時30分に離陸。約12時間のフライトの末、ダラスに到着。乗り換えて、デンバーに到着したのは25日の午後12時。

空港から出ている鉄道とバスを乗り継ぎ、会場のSheraton Denver Downtownに到着。時間に余裕があったので、registrationを済ませてから、会場近辺を散策。

午後3時から、NLSのセッション(Using the National Longitudinal Studies for Your Research)に参加。まだ学会自体は始まっていないので、この日にまでにあったセッションは、データの紹介や手法に関するワークショップが中心である。

NLS(National Longitudinal Survey)はオハイオ州立大学(OSU)が52年前の1966年から始めた一連のパネル調査のことを指す。有名なのはNLSY79あたりだろうが、その前にNLS Original Cohortsと呼ばれる、1966年から始まった調査が最初のパネルとなる。Original Cohortsは1966年に45-59歳だった男性を追跡したもの(Old Men)、同じく1966年に14-24歳だった男性を追跡したもの(Young Men)、最後に1967年に30-44歳だった女性を追跡したもの(Mature and Young Women)の三つに分かれ、いずれも黒人サンプルを多めに調査しており、1981年まで調査が続けらている。

有名なNLSY79(National Longitudinal Survey of Youth 1979)は文字通り、1979年に若年層(14-22歳)だった男女を対象に、1994年までは1年ごと、それ以降は2年ごとに継続して調査している。NLYS97(National Longitudinal Survey of Youth 1997)は1996年12月末日時点で12-16歳だった若年層を対象に現在も行われている調査で、現在まで1年ごとに追跡されている。

最後に、NLSY79については、1986年から女性サンプルを対象に彼女たちの子どもについての情報を2年おきに尋ねている(NLSY79 Children and Young Adults)。子どもが一定の年齢に達してからは、子ども自身に調査をしており、親子比較が可能な設計にもなっている。

まとめると、NLSと総称される調査にもNLS Original Cohorts(Old Men and Young Men), NLS Original Cohorts(Mature Women and Young Women)NLSY79, NLSY97、NLSY79 Children and Young Adultsの5つがあり、正直、名前とサンプルの特徴を覚えるだけでもお腹いっぱいになる内容であることに違いはない。

セッションでは、実際にこれら5つの調査のコーホートに該当する著名人(例えば、NLS Original Cohortsではネルソン・マンデラ(1918年生まれ)、マーガレット・サッチャー(1925年生まれ)、NLSY79ではバラク(1961年)&ミシェル(1964年)夫妻、NLYS97ではビーナス&セリーナ姉妹(1980年生まれ)やマーク・ザッカーバーグ(1984年生まれ)を紹介しながら、それぞれのサンプルの特徴や、質問事項についての紹介があった。パネル調査の特徴を生かし、同じ質問を継続して聞いていることに加えて、NLSの異なるサンプルを使えば、例えば24歳から26歳の若年層について、異なる三つの時代(1984年、2004年(Youth Adultを使用))、2006年)を比較することもできる。

各調査時点で聞かれた1度きりの質問でも非常にユニークなものがある。例えば、NLYS79までは防衛省のサポートを受けて実施されてきたこともあり、NLYS79のサンプルについては、Armed Services Vocational Aptitude Battery(ASVAB)とよばれる、防衛省が実際に志願者に課している語彙力や科学的な思考を測定したスコアが用意されており、こうした若年期の知能スコアが壮年期、ひいては老年期における行動などに与える影響を検討することができるようになっている。

また、NLSは地理データとのリンクも可能で、例えば15歳時点の居住地の空気汚染の情報を埋め込むこともできるようだ。

約2時間のセッションでは、色々な分析ができることがわかったが、もちろんたった2時間で調査の仔細まで掴むことはできない。実際に分析をするときには、NLS Investigatorというページが用意されており、ここの検索機能を使えばどのような変数がどの調査で尋ねられてきたかを調べられる。コードブック作成なども連動しており、最終的には必要な変数だけを取り出してクロス表やデータセットを作ることもできるようだ。

調査項目が多くなりすぎて、途中からpdfベースのコードブックを用意するのをやめたという話には驚くとともに、調査が蓄積されることに伴ってデータベースとして整理する必要性を痛感した。また、調査代表者(PI)はすでに何度も交代しており、最初の調査時になぜこのようなことを尋ねたのかを、調査者本人に尋ねることはできなくなっている。将来的にはNLS自体が歴史的な資料として対象化されることもあるかもしれないと思った。

デンバーの青い空(標高1600mだとか)