今回は条件付き確率とベイズの定理をまとめて取り上げてみたいと思います。
ある任意の事象Xが起こる確率を$P(X)$と表現する。ある事象Aが起こった状態で別の事象Bが起こる確率を条件付き確率$P(B|A)$と呼び、次のベイズの定理が成立する。
$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$
定義と公式は以上ですが、今回はそもそもなぜ条件付き確率が重要なのかというところから始めて、ベイズの定理の意味までを具体例も含めながら、できるだけ分かりやすく説明したいと思います。
なぜ条件付き確率を考えるのか?
条件付き確率を学ぶ前提として、まず条件付き確率というものを考える理由について述べてみたいと思います。
確率と言う言葉自体は数学が得意でない方であってもある程度馴染みはあるんじゃないかと思います。学校でも必ず習いますし、日常生活においても降水確率やゲームなどの勝率などを意識することがあるかもしれません。
とはいえ、条件付き確率というものを考える機会はあまりないと思います。条件付き確率の定義は最初に述べたように、ある事象Aが起こった状態で別の事象Bが起こる確率でした。一般論だと分かりづらいと思うので、具体例を書いてみましょう。
ある人がガンの検査を受けて陽性と診断された場合に、その人が実際にガンに罹患している確率はどのくらいか?
これが条件付き確率の例です。条件付き確率の定義の事象Aに該当するのが「ガンの検査結果が陽性である」というところです。一方で、事象Bに該当するのが「実際にガンに罹患している」というところです。もうすでにお分かりかと思いますが、この条件付き確率を考えることで、ガン検査の有効性を測ることができますね。この条件付き確率が高ければ、ガン検査はガンをちゃんと見抜いていることになります。
もう一歩踏み込むと、条件付き確率は原因の確率と解釈されることもあります。今回の例に当てはめると、「ガンの検査結果が陽性である」というのが結果です。この結果が生じる原因は次の2つのどちらかです。
- ガンの検査が誤判定をした
- 実際にガンである
つまり、先ほどの例では「ガンの検査結果が陽性である」という結果の原因が「実際にガンである場合」の確率を考えているとも言えます。
確率というと、「宝くじが当たる確率は何パーセントか?」のように結果を予測するために用いられるというイメージが強いと思いますが、条件付き確率は逆に原因を推定することが目的であるといえます。
ベイズの定理を使って条件付き確率を求めてみよう
条件付き確率を考える理由が分かったところで、次はベイズの定理を使って実際に条件付き確率を計算してみましょう。
さて、ベイズの定理とは始めのように述べたように以下の公式でした。
$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$
$P(B|A)$が事象Aが起こった状態で別の事象Bが起こる確率を表しています。せっかくなので、この公式がなぜ成り立つのかを具体例を使って考えてみましょう。
以下のように赤と青のボールが入った箱があり、その中から2回ボールを取り出して、赤と青をそれぞれ1個ずつ引く確率を考えます。
「赤いボールを引くこと」を事象A、「青いボールを引くこと」を事象Bとします。2回ボールを取り出して、赤と青を1個ずつ引くパターンは次のいずれかであることが分かると思います。
1回目 | 2回目 |
赤を引く | (1回目に赤を引いた状態で)青を引く |
青を引く | (1回目に青を引いた状態で)赤を引く |
2パターンありますが、どちらも結果は同じなので、それぞれのパターンで計算した確率は一致するはずです。従って、次のような数式が成立します。
$P(B|A)P(A) = P(A|B)P(B)$
左辺が1つ目のパターン、右辺が2つ目のパターンを示しています。後は両辺をP(A)で割るだけでベイズの定理が得られます。
$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$
では、ベイズの定理の導出が分かったところで、次の例題を考えてみましょう。
例題
あなたは次のようなガンの検査において陽性と診断された。あなたが実際にガンである確率はどのくらいか?
・ガンに罹患している人がこの検査を受けると95%の確率で陽性になる。
・ガンに罹患していない人がこの検査を受けると4%の確率で陽性になる。
なお、一般的なガンの罹患確率は0.6%とする。
ここでも事象Aが「ガンの検査結果が陽性であったこと」、事象Bが「実際にガンであること」としましょう。そうすると、求めたい条件付き確率$P(B|A)$はベイズの定理より次のように表すことができます(ベイズの定理そのままです)。
$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$
まず、$P(B)$は実際にガンである確率ですが、これは問題文から$\frac{6}{1000}$です。
次に$P(A|B)$ですが、これは「実際にガンである状態において、ガンの検査で陽性になる確率」です。これは問題文から$\frac{95}{100}$だと分かります。
最後に$P(A)$ですが、これはガンの検査を受けて陽性になる確率です。これは2パターン考えられます。1つが「実際にガンにかかってしまって、ガンの検査で陽性になる」というパターン、もう1つが「実際にはガンでないが、ガンの検査で陽性になってしまう」というパターンです。
前者は、「実際にガンになる確率」と「実際にガンである状態で、ガンの検査で陽性になる確率」の掛け算です。それぞれの確率の値はここまで説明した通りです。一方、後者のパターンはどうでしょうか?
まず、ガンでない確率は「ガンである確率」の逆なので、$\frac{994}{1000}$です。この時にガンの検査で陽性になってしまう確率は問題文から$\frac{4}{100}$です。これら2つの値を掛け合わせると、「実際にはガンでないが、ガンの検査で陽性になってしまう」という確率が出ます。
最後に2つのパターンを足し算すれば、ガンの検査を受けて陽性になる確率$P(A)$が求まります。
では、ここまでで求めた数値をベイズの定理に当てはめてみましょう。
$P(B|A) = \frac{\frac{95}{100} \times \frac{6}{1000}}{\frac{95}{100} \times \frac{6}{1000} + \frac{4}{100} \times \frac{994}{1000}}$
これを計算すると、$P(B|A)$は12%と求まります。つまり、このガンの検査で陽性であっても、実際にガンにかかっている確率はさほど高くないということですね。
意外に感じるかもしれませんが、ガンの罹患確率が0.6%であることから分かるように、検査を受ける人のほとんどはガンではないのです。つまり、陽性と言う結果が出た場合には、「実際にはガンでないのに、誤って陽性と判断されてしまった」と言うケースがほとんどだということです。
ベイズの定理の意味をもう少し考えてみよう
ベイズの定理の使い方は例題を通して、理解していただけたかと思いますが、ここではベイズの定理を少し違った角度で見てみようと思います。
$P(B|A) = \frac{P(A|B)}{P(A)} \times P(B)$
これはベイズの定理で$P(B)$を分数の外に出しただけです。
数式は全く同じですが、こう見ると、$P(B)$に係数がかかって$P(B|A)$が求められているように見えませんか?
実は$P(B)$は事前確率、$P(B|A)$は事後確率と呼ばれており、事前確率に係数をかけることで事後確率にアップデートしているという解釈もできるのです。
先ほどの例題をそのまま使うと、$P(B)$は一般的にガンに罹患している確率です。例えば、あなたの周囲の人が全く知らない人を指さして、「あの人ってガンにかかっていると思う?」と聞いたとしましょう。この時、あなたは何と答えますか?
全く知らない人であるため、その人に関する情報は一切ないので、一般的な確率を用いて0.6%の確率でガンだと答えるしかありません。
しかし、そこに「あの人はガン検査で陽性だった」という情報が加わったらどうでしょうか?
その情報をもとに確率をアップデートできそうですね。
これをやっているのがまさにベイズの定理です。条件付き確率では、ある結果が分かっているので、その情報を用いて一般的な確率をアップデートしているわけです。
係数に当たる$P(A|B)$は尤度と呼ばれ、「もっともらしさ」という意味です。今回の例で言えば、「実際にガンであって、ガン検査が陽性になること」のもっともらしさ(確率)ということです。ちなみに、尤度はもっともらしさですが、「ガン検査で陽性になること」の全体と比較してどのくらいもっともらしいかと考えるのが自然なので、係数の分母には$P(A)$が置かれることになります。この場合の$P(A)$は周辺尤度と呼ばれます。
最後に
今回は条件付き確率とベイズの定理を基礎から解説してみました。
一般的によく聞く確率の概念とは少し異なるところもあり、初めてだとすんなり入ってこないかもしれませんので、そういった方は是非何度も本記事を読み直していただければと思います。
本格的にデータサイエンスを学ぶならキカガク長期コース
本記事では、基礎的な内容について解説を行ないましたが、より本格的にデータサイエンスを学んでみたいという方にはキカガク長期コースの受講をお薦めします。
- 基礎理論からAI搭載のWEBアプリ開発まで幅広く学習可能
- 将来追加されるものも含めて、プロによる全ての講義動画がずっと見放題
- 質問し放題のチャットや定期的な個別メンタリングなどのサポート体制
- IT専門のキャリアアドバイザーによる転職サポート
- 中央省庁からの給付金対象であるため受講料が最大70%
- ディープラーニングE資格の受験資格を獲得可能
興味はあるけど、いきなり受講を申し込むには抵抗があるという方は、キカガク長期コースの無料オンライン説明会も是非活用してみてください!