May 19, 2012

拙いながらもRでχ二乗検定

Rでχ二乗検定をやってみようと思い立ち、四苦八苦しながらなんとかやってみた。


使用するデータは金井雅之他編『社会調査の応用』のサポートページにある官庁統計を使ったcsvファイルを使った。

http://www.isc.senshu-u.ac.jp/~thh0808/asr/data.html
データは
http://www.isc.senshu-u.ac.jp/~thh0808/asr/data/pref.csv
 
Rを開き、csvデータを読み込んでみる。

しかし、

read.csv("http://www.isc.senshu-u.ac.jp/~thh0808/asr/data/pref.csv", TRUE, ",")
だと

以下にエラー type.convert(data[[i]], as.is = as.is[i], dec = dec, na.strings = character(0L)) : 
<96>k<8a>C<93>に不正なマルチバイト文字があります

というエラーが発生した。どうやら、encodingをcp932に固定すればよいらしく、

> read.csv(file("http://www.isc.senshu-u.ac.jp/~thh0808/asr/data/pref.csv", encoding="cp932"), TRUE, ",")

と指定すると以下のようなデータが出た。

jis pref tfr nursery did high_edu labor_female
1 1 北海道 1.19 331.9 73.0 20.6 45.4
2 2 青森県 1.26 745.6 45.4 15.0 49.5
3 3 岩手県 1.37 540.5 29.4 16.9 50.7
4 4 宮城県 1.25 281.4 58.1 22.0 46.8
5 5 秋田県 1.29 522.6 33.7 14.8 46.9
6 6 山形県 1.39 416.7 41.5 16.7 50.6
7 7 福島県 1.49 299.7 38.5 17.0 49.1
8 8 茨城県 1.37 306.6 35.9 22.2 48.1
9 9 栃木県 1.43 329.3 42.6 21.6 50.1
10 10 群馬県 1.38 400.2 39.6 21.7 49.9
11 11 埼玉県 1.28 241.5 78.9 31.0 48.3
12 12 千葉県 1.31 227.9 71.7 32.6 47.1
13 13 東京都 1.12 282.5 98.0 38.8 46.5
14 14 神奈川県 1.28 199.3 93.8 37.9 46.7
15 15 新潟県 1.37 622.3 46.8 17.3 50.3
16 16 富山県 1.37 578.1 35.8 23.7 52.3
17 17 石川県 1.40 620.3 48.8 23.9 52.3
18 18 福井県 1.55 637.8 40.6 20.7 53.1
19 19 山梨県 1.31 547.1 34.4 25.1 50.3
20 20 長野県 1.43 531.3 34.8 23.2 53.0
21 21 岐阜県 1.37 391.8 39.0 22.2 51.1
22 22 静岡県 1.43 253.8 58.4 23.2 52.6
23 23 愛知県 1.43 280.2 75.5 28.1 50.8
24 24 三重県 1.40 443.3 40.8 21.0 48.9
25 25 滋賀県 1.44 300.8 44.5 27.0 48.9
26 26 京都府 1.20 372.9 81.7 29.4 46.7
27 27 大阪府 1.28 253.9 95.7 28.2 44.8
28 28 兵庫県 1.33 295.8 75.1 29.5 44.6
29 29 奈良県 1.23 284.6 63.9 33.5 41.9
30 30 和歌山県 1.36 478.1 39.4 20.3 45.3
31 31 鳥取県 1.46 633.9 34.1 20.2 52.0
32 32 島根県 1.55 776.2 24.2 17.8 49.7
33 33 岡山県 1.39 389.2 43.7 23.9 47.5
34 34 広島県 1.47 404.1 63.7 29.0 48.4
35 35 山口県 1.43 448.3 47.4 21.4 47.0
36 36 徳島県 1.35 594.9 32.1 21.0 46.7
37 37 香川県 1.48 396.2 32.6 24.5 48.8
38 38 愛媛県 1.41 469.4 50.9 22.9 46.1
39 39 高知県 1.29 782.9 42.8 18.0 49.0
40 40 福岡県 1.37 326.1 69.8 25.7 46.6
41 41 佐賀県 1.49 470.9 28.4 19.3 50.9
42 42 長崎県 1.50 593.1 46.5 18.5 46.8
43 43 熊本県 1.58 613.0 43.7 19.8 49.4
44 44 大分県 1.50 470.3 44.4 19.7 47.5
45 45 宮崎県 1.61 666.7 44.4 17.7 50.2
46 46 鹿児島県 1.56 501.0 39.3 18.9 47.1
47 47 沖縄県 1.79 376.5 65.6 23.9 46.6


これ自体はe-statをもとにしたcsvファイルと同じものなので、ここから解析をしてみる。


> x <- read.csv(file("http://www.isc.senshu-u.ac.jp/~thh0808/asr/data/pref.csv", encoding="cp932"), TRUE, ",")

復習の意味を込めて、慎重にやってみる。これで、

> x とするだけで先ほどの表が出るようになる。

よく分からないが、csv形式だとわざわざdata.frameを指定しなくてもいいようだ。



準備はできたのでクロス表を作ってみる。


東京都と大阪府の高等教育率と女性労働力率を見てみよう。

東京が13、大阪が27行、高等教育が6、女性労働力が7列なので

> x[c(13, 27), 6:7]
high_edu labor_female
13 38.8 46.5
27 28.2 44.8

となる。

> x[c(13, 27), 6:7] -> y
> y
high_edu labor_female
13 38.8 46.5
27 28.2 44.8

ようやくχ二乗検定にたどり着いた。

> chisq.test(y)

Pearson's Chi-squared test with Yates' continuity correction

data: y
X-squared = 0.5027, df = 1, p-value = 0.4783


以上のようになった。



仮に各項目が独立であれば、自由度1のとき、0.05%水準でχ二乗値は3.841となる。
この値の方が標本におけるχ二乗値の方が大きいため、帰無仮説を棄却することはできなかった。すなわち大阪府と東京都の間では、高等教育率と女性労働力率に有意な関連はないようだ。

みたいな感じなんだろうが、恐らく言葉の用法で間違いが多そうだ。


ちなみに、素データがなく、自前で表を作るときはmatrixという関数を使うらしい。

No comments:

Post a Comment