αエラーとβエラー - 大人になってからの再学習

キーワード：αエラー、βエラー、偽陽性、偽陰性、第一種の過誤、第二種の過誤、ベイズ推定

例として、肝臓癌の検査を取り上げてみる。

検査結果が100％正しいことはなく、結果には誤りが含まれる。

検査の誤りには次の2通りがある。

(A) 「肝臓癌ではないのに、肝臓癌である」と判定する誤り。
(B) 「肝臓癌なのに、肝臓癌でない」と判定する誤り。

どちらも「誤り」だけど、その性質は違う。

(A)の誤りをαエラー（第一種の過誤）と呼ぶ。
偽の陽性なので偽陽性（False positive）とも言う。

(B)の誤りをβエラー（第二種の過誤）と呼ぶ。
偽の陰性なので偽陰性（False negative）とも言う。

αエラーは「あわてんぼさんの過ち」
βエラーは「ぼんやりさんの過ち」

と語呂で覚えるといい。

具体的な例を見てみる。

肝臓癌の検査を1万回行ったとき、次のような結果になったとする

★のついたものは、肝臓癌ではないのに陽性の判定をしているのでαエラーである。
肝臓癌でない9980件中、1497件の判定を誤ったので、αエラーは1497/9980=0.15となる。

☆のついたものは、肝臓癌なのに陰性の判定をしているのでβエラーである。
肝臓癌である20件中、4件の判定を誤ったので、βエラーは4/20 = 0.20となる。

このような検査結果の誤りは、条件付き確率の問題としてよく取り上げられる。
例えば次のような問題。

患者が実際に病気ならば、99%の場合に検査結果は正しく「陽性」となる。
患者が実際は病気でないならば、95%の場合に検査結果は正しく「陰性」となる。
患者の0.1%が実際に病気である。
このような条件のものと、あなたの検査結果は「陽性」だった。
実際にあなたが病気である確率は何%か？

A を「患者が病気である」という事象、B を「結果が陽性だった」という事象とすると、
結果が陽性であった場合に、本当に病気である確率（A|B）はベイズの定理より、次の計算で1.9%となる。

つまり、たとえば検査結果が「陽性」だったとしても、本当に病気である確率はわずか1.9%しかない。

そもそも病気である確率が0.1%と低い値なので「病気でないのに陽性となってしまう」場合の数が多くて、結果が陽性であっても病気である確率はそれほど高くない。ということ。