May 19, 2012

拙いながらもRでχ二乗検定

Rでχ二乗検定をやってみようと思い立ち、四苦八苦しながらなんとかやってみた。


使用するデータは金井雅之他編『社会調査の応用』のサポートページにある官庁統計を使ったcsvファイルを使った。

http://www.isc.senshu-u.ac.jp/~thh0808/asr/data.html
データは
http://www.isc.senshu-u.ac.jp/~thh0808/asr/data/pref.csv
 
Rを開き、csvデータを読み込んでみる。

しかし、

read.csv("http://www.isc.senshu-u.ac.jp/~thh0808/asr/data/pref.csv", TRUE, ",")
だと

以下にエラー type.convert(data[[i]], as.is = as.is[i], dec = dec, na.strings = character(0L)) : 
<96>k<8a>C<93>に不正なマルチバイト文字があります

というエラーが発生した。どうやら、encodingをcp932に固定すればよいらしく、

> read.csv(file("http://www.isc.senshu-u.ac.jp/~thh0808/asr/data/pref.csv", encoding="cp932"), TRUE, ",")

と指定すると以下のようなデータが出た。

jis pref tfr nursery did high_edu labor_female
1 1 北海道 1.19 331.9 73.0 20.6 45.4
2 2 青森県 1.26 745.6 45.4 15.0 49.5
3 3 岩手県 1.37 540.5 29.4 16.9 50.7
4 4 宮城県 1.25 281.4 58.1 22.0 46.8
5 5 秋田県 1.29 522.6 33.7 14.8 46.9
6 6 山形県 1.39 416.7 41.5 16.7 50.6
7 7 福島県 1.49 299.7 38.5 17.0 49.1
8 8 茨城県 1.37 306.6 35.9 22.2 48.1
9 9 栃木県 1.43 329.3 42.6 21.6 50.1
10 10 群馬県 1.38 400.2 39.6 21.7 49.9
11 11 埼玉県 1.28 241.5 78.9 31.0 48.3
12 12 千葉県 1.31 227.9 71.7 32.6 47.1
13 13 東京都 1.12 282.5 98.0 38.8 46.5
14 14 神奈川県 1.28 199.3 93.8 37.9 46.7
15 15 新潟県 1.37 622.3 46.8 17.3 50.3
16 16 富山県 1.37 578.1 35.8 23.7 52.3
17 17 石川県 1.40 620.3 48.8 23.9 52.3
18 18 福井県 1.55 637.8 40.6 20.7 53.1
19 19 山梨県 1.31 547.1 34.4 25.1 50.3
20 20 長野県 1.43 531.3 34.8 23.2 53.0
21 21 岐阜県 1.37 391.8 39.0 22.2 51.1
22 22 静岡県 1.43 253.8 58.4 23.2 52.6
23 23 愛知県 1.43 280.2 75.5 28.1 50.8
24 24 三重県 1.40 443.3 40.8 21.0 48.9
25 25 滋賀県 1.44 300.8 44.5 27.0 48.9
26 26 京都府 1.20 372.9 81.7 29.4 46.7
27 27 大阪府 1.28 253.9 95.7 28.2 44.8
28 28 兵庫県 1.33 295.8 75.1 29.5 44.6
29 29 奈良県 1.23 284.6 63.9 33.5 41.9
30 30 和歌山県 1.36 478.1 39.4 20.3 45.3
31 31 鳥取県 1.46 633.9 34.1 20.2 52.0
32 32 島根県 1.55 776.2 24.2 17.8 49.7
33 33 岡山県 1.39 389.2 43.7 23.9 47.5
34 34 広島県 1.47 404.1 63.7 29.0 48.4
35 35 山口県 1.43 448.3 47.4 21.4 47.0
36 36 徳島県 1.35 594.9 32.1 21.0 46.7
37 37 香川県 1.48 396.2 32.6 24.5 48.8
38 38 愛媛県 1.41 469.4 50.9 22.9 46.1
39 39 高知県 1.29 782.9 42.8 18.0 49.0
40 40 福岡県 1.37 326.1 69.8 25.7 46.6
41 41 佐賀県 1.49 470.9 28.4 19.3 50.9
42 42 長崎県 1.50 593.1 46.5 18.5 46.8
43 43 熊本県 1.58 613.0 43.7 19.8 49.4
44 44 大分県 1.50 470.3 44.4 19.7 47.5
45 45 宮崎県 1.61 666.7 44.4 17.7 50.2
46 46 鹿児島県 1.56 501.0 39.3 18.9 47.1
47 47 沖縄県 1.79 376.5 65.6 23.9 46.6


これ自体はe-statをもとにしたcsvファイルと同じものなので、ここから解析をしてみる。


> x <- read.csv(file("http://www.isc.senshu-u.ac.jp/~thh0808/asr/data/pref.csv", encoding="cp932"), TRUE, ",")

復習の意味を込めて、慎重にやってみる。これで、

> x とするだけで先ほどの表が出るようになる。

よく分からないが、csv形式だとわざわざdata.frameを指定しなくてもいいようだ。



準備はできたのでクロス表を作ってみる。


東京都と大阪府の高等教育率と女性労働力率を見てみよう。

東京が13、大阪が27行、高等教育が6、女性労働力が7列なので

> x[c(13, 27), 6:7]
high_edu labor_female
13 38.8 46.5
27 28.2 44.8

となる。

> x[c(13, 27), 6:7] -> y
> y
high_edu labor_female
13 38.8 46.5
27 28.2 44.8

ようやくχ二乗検定にたどり着いた。

> chisq.test(y)

Pearson's Chi-squared test with Yates' continuity correction

data: y
X-squared = 0.5027, df = 1, p-value = 0.4783


以上のようになった。



仮に各項目が独立であれば、自由度1のとき、0.05%水準でχ二乗値は3.841となる。
この値の方が標本におけるχ二乗値の方が大きいため、帰無仮説を棄却することはできなかった。すなわち大阪府と東京都の間では、高等教育率と女性労働力率に有意な関連はないようだ。

みたいな感じなんだろうが、恐らく言葉の用法で間違いが多そうだ。


ちなみに、素データがなく、自前で表を作るときはmatrixという関数を使うらしい。

文献メモ

雑誌  赤川学 日本の身下相談・序説 : 近代日本における「性」の変容と隠蔽 社会科学研究 2006
雑誌  赤川学 人口減少社会における選択の自由と負担の公平 社会学評論 2005
雑誌  盛山和夫 理論社会学としての公共社会学にむけて 社会学評論 2006
雑誌  盛山 和夫 近代の階層システムとその変容 社会学評論 1999
雑誌  盛山和夫 制度論の方法について 社会学評論 1996
雑誌  佐藤俊樹 階層帰属の意味論 社会学評論 2009
雑誌  佐藤俊樹 「儒教とピューリタニズム」再考 社会学評論 1990
雑誌  出口 剛司 批判理論の展開と精神分析の刷新 : 個人の終焉から新しい個人主義へ 社会学評論 2011
雑誌  出口 剛司 アクセル・ホネットの承認論と批判理論の刷新--批判理論はネオリベラリズム的変革をどう批判するのか 現代社会学理論研究 2010
紀要  出口 剛司 戦後沖縄の文化構造--都市文化の空間的編制 ソシオロゴス 2001
雑誌  松本三和夫 科学社会学と技術社会学のゆくえ--避けて通れぬ問について 科学技術社会論研究 2002
雑誌  松本三和夫 科学社会学の理論構成 : 制度化の規約 社会学評論 1992
雑誌  松本三和夫 科学者集団と制度化の問題 : 初期マートンの科学社会学再考 社会学評論 1980
雑誌  白波瀬佐和子 家族の変容と社会保障制度改革 : 互恵社会を目指して 都市計画 2011
雑誌  白波瀬佐和子 人口高齢化と経済格差拡大・再考 社会学評論 2009
雑誌  白波瀬佐和子 高齢社会にみる格差:高齢層における所得格差と支援ネットワークに着目して(<特集>還暦を迎える日本社会) 社会学評論 2005
雑誌  白波瀬佐和子 社会階層と世帯・個人 社会学評論 2004
雑誌  白波瀬佐和子 世代間移動の男女比較 社会学評論 1999
雑誌  武川正吾 ベーシック・インカムの理論と実践--日本の社会政策の場合 大原社会問題研究所雑誌 2011
雑誌  武川正吾 福祉社会学の想像力 福祉社会学研究 2011
雑誌  武川正吾 二つの共助 福祉社会学研究 2010
雑誌  武川正吾 福祉国家の社会学--グローバル化と個人化 社会学研究 2009

雑誌  本田洋 問題提起 序論 威信の存立と富--民族誌からの展望 (特集 韓国朝鮮社会における富と威信) 韓国朝鮮の文化と社会 2009
報告  本田洋 グローバル化とローカルな日常経験 : 韓国地方社会からの展望 国立民族学博物館調査報告 2007
紀要  本田洋 村はどこへ行った--『朝鮮農村社会踏査記』と韓国農村共同体論の位相 韓国朝鮮文化研究 2007

雑誌  祐成保志ほか 「社会調査のアーカイブズ学」の必要性 : ―札幌学院大学SORDが取り組んだ「夕張調査資料集成」作成経験からの提言― 理論と方法 2009
雑誌  祐成保志 郊外居住の歴史社会学:序論 (特集 「生きられる経験」としての郊外--衰退か、再生か) 関東都市学会年報 2005
雑誌  祐成保志 都市住宅調査と「住むこと」の発見 年報社会学論集 2002
紀要  祐成保志訳 ロバート・K・マートン「ハウジングの社会学」 人文科学論集 2011
雑誌  市野川 容孝 社会的なもの、政治的なもの、文化の分節と接合--近現代のドイツを例として 社会思想史研究 2010
雑誌  山本泰 マイノリティと社会の再生産 社会学評論 1993
雑誌 内田隆三 消費社会におけるシーニュと論理 社会学評論 1983