カイ二乗検定

キーワード:統計、カイ2乗検定(χ2乗検定)

観測データの分布には誤差が含まれるため、理論的に求まる分布と完全には一致しない

そこで次のような疑問がおこる。

「観測されたデータの分布は、理論値の分布とほぼ同じと見なせるだろうか?」


これを判断するのがカイ2乗検定


それにしても、「ほぼ同じ」って。。その表現は曖昧じゃない?


曖昧に見えるかもしれないけど、この「ほぼ同じ」という表現は、確率できちんと表すことができる表現で、
「ほぼ同じ」=「5%の確率で違うかもしれないけど、95%の確率で同じと言ってしまって大丈夫!」
というような意味を持つ。

カイ2乗検定によって次のような問いに答えることができる。


(例1)通行人100人を無作為に抽出したら男:女の比率が59:41だった。これは「男女比が1:1の集団から、ランダムに抽出された100人である」と言えるか。(このくらいのバラつきは普通にあることなのか?それとも近くにあるお店などの影響で、そもそも男性の多い場所と判断できるか?)

(例2)サイコロを120回ふったら、出た目がそれぞれ1の目25回、2の目27回、3の目20回、4の目10回、5の目13回、6の目25回だった。このサイコロは歪んでいると言えるか。(このくらいのバラつきは、普通のサイコロでも起こることなのか?それとも、やはり、このサイコロが歪んでいるのか?)

(例3)日本人の血液型の割合はA型40%,B型20%,AB型10%,O型30%である。ある学校の生徒100人の血液型はA型40人,B型28人,AB型12人,O型26人だった。「この学校の生徒の血液型分布は,日本人全体の血液型分布とほぼ同じである」と言えるか。(このくらいの血液型のバラつきは普通なのか?それとも、この学校には(なぜかわからないけど)B型の生徒が多くいると判断してよいか?)


■ カイ2乗検定の手順
具体例として、(例2)のサイコロのケースを挙げて手順を紹介しよう。


1. 次のような表を準備する。

サイコロの目 O(観測度数) E(期待度数) O-E (O-E)^2 \frac{(O-E)^2}{E}
1
2
3
4
5
6

2.「観測度数」に、実際に出た回数を記入する。

3. 「期待度数」に、理論的に期待される値を記入する。
今回は120回振ったので、それぞれの目はその6分の1である20回出ることが期待されるため「20」を記入する。

4. 観測度数をO、期待度数をEとしたときの、(O-E)の値、(O-E)^2の値、(O-E)^2/Eの値を計算して記入する。
その結果、次のような表を得る。

サイコロの目 O(観測度数) E(期待度数) O-E (O-E)^2 \frac{(O-E)^2}{E}
1 25 20 5 25 1.25
2 27 20 7 49 2.45
3 20 20 0 0 0
4 10 20 -10 100 5
5 13 20 -7 49 2.45
6 25 20 5 25 1.25

5. 右端の値((O-E)^2/E)の合計を求める。これがカイ二乗値」である。
今回は、1.25+2.45+0+5+2.45+1.25=12.4

6. 自由度kを求める。自由度は(項目数-1)なので、今回は(6-1)=5である。

7. カイ二乗分布表から、自由度が5、p=0.05の値(有意水準5%)を調べる。
http://www.eco.osakafu-u.ac.jp/~kano/images/file/note_statistics/tab_chi2.pdf
すると、今回は11.07の値が得られる。

8. 手順5で求めたカイ二乗値(12.4)と手順7で求めた値(11.07)を比較する。
今回、観測値から求めた値が分布表で求めた値よりも大きいので
有意水準5%で「サイコロに歪みは無い」という帰無仮説は棄却される。
つまり「サイコロに歪みはあると言える」と結論される。

仮に、カイ二乗値が手順7で求めた値(11.07)より小さい場合は、
「サイコロに歪みがある、とまでは言えない」という結論になる。

■ 参考
大阪府立大学経済学部・経済学科 経済統計 講義ノート
Wikipedia
http://www.geisya.or.jp/~mwm48961/statistics/kai2.htm

統計学がわかる (ファーストブック)

統計学がわかる (ファーストブック)

統計数字を疑う なぜ実感とズレるのか? (光文社新書)

統計数字を疑う なぜ実感とズレるのか? (光文社新書)