t検定

関連エントリ
統計的検定の考え方 - 大人になってからの再学習
カイ二乗検定 - 大人になってからの再学習


今回は、t検定の具体例を紹介してみる。

■ はじめに

何かの実験を2回おこなった場合、その結果がまったく同じになることはほとんどなくて、程度の差こそあれ違う結果が得られる。
この「程度の差」が重要で、あまり差が無いのであれば「偶然でしょう」と考えることができる。
差が大きければ「何か要因がある違い(有意である)」と考えられる(統計的検定の考え方 - 大人になってからの再学習)。


t検定では、2つの実験結果、2つのアンケート結果などの「平均値の差」に対して、その違いが偶然なのか(よくあるデータのバラつきなのか)、それとも何か本質的な違いがあるのか(有意水準5%または有意水準1%で差があると言えるのか)判断を下すことができる。


■ t検定でできること

t検定(2つの母平均の差に対するt検定とする)によって、次のような問に答えることができる。


(例1)システムAとシステムBの使いやすさを、5点満点で12人の被験者に評価してもらったところ、システムBの方が平均値が高いことがわかった。システムBの方がシステムAより使いやすいと言えるだろうか。(よくあるデータのばらつきの範囲だろうか。それとも、「違いがある」と言えるだろうか。)


(例2)40人の被験者から、3月分と4月分の携帯電話の通話料のデータを集め、4月分の平均値は3月分の平均値より大きいことがわかった。この結果から、3月と4月では携帯電話の通話料に差があると言えるだろうか。(よくあるデータのばらつきの範囲内だろうか。それとも、年度の変わり目で新しい友達が増えるため、などの何らかの要因によって「4月は通話料が増えた」と言ってよいだろうか。)


(例3)22人の被験者に対して、サッカー用シューズと、テニス用シューズをはいて100メートルを走った時のタイムを計測し、平均を求めた。この結果には、有意な差があると言えるだろうか。(注意:検定で判断できるのは「差があると言えるかどうか」であって、その差がシューズの違いによってもたらされたものであると判断するものではない。)


■ t検定を用いてはいけない例

次のような問にはt検定を使用すべきでないので注意が必要。


(ダメな例1)被験者の数が十分大きい場合(100を超えるくらい)。
→ t検定は少ないサンプル数を対象としている(z検定を用いる)


(ダメな例2)携帯電話の通話料の違いを20代の若者と60代のシニア層で比較したい。
→t検定では同一の被験者を用いることが前提となっている。異なる被験者を対象とできない。



■ t検定の手順

具体例として、(例1)の「2つのシステムの使いやすさの比較」を紹介する。

1. 次のような表を準備する(実験データ)


【システムAとシステムBに対して5点満点で、使いやすさを評価した結果】

被験者ID Aの評価( x_i) Bの評価( y_i)  x_i - y_i(=d)  d^2
1 3 2
2 2 3
3 3 5
...
12 3 3
合計 - -




2.表の空欄を埋める

被験者ID Aの評価( x_i) Bの評価( y_i)  x_i - y_i(=d)  d^2
1 3 2 1 1
2 2 3 -1 1
3 3 5 -2 4
...
12 3 3 0 0
合計 - - -9 17


3.値の差の標準偏差を求める

標本数: n = 12
データの差の合計: \sum{d} = -9
データの差の2乗の合計: \sum{d^2} = 17
データの差の平均:

データの差の分散:

データの差の標準偏差



4.検定統計量を計算する

t検定の統計量の式


5.t分布表を参照する

t分布表を参照し、上記の値を評価する。
http://www.koka.ac.jp/morigiwa/sjs/td.htm


t分布表表から参照する値は
「自由度(df):n-1=11, 有意確率: 両側5% (p=0.05)」
より
「2.2010」

6.比較

手順4で統計量(2.692)と手順5で求めた値(2.201)を比較する。
今回は、観測値から求めた値が分布表で求めた値よりも大きい。


7.結論
有意水準5%で「データの平均値に差は無い」という帰無仮説は棄却される。
つまり「2つのシステムの使いやすさには差がある」と結論される。


統計学がわかる (ファーストブック)

統計学がわかる (ファーストブック)



9割の人間は行動経済学のカモである ―非合理な心をつかみ、合理的に顧客を動かす

9割の人間は行動経済学のカモである ―非合理な心をつかみ、合理的に顧客を動かす