統計検定

【基礎から解説】中心極限定理って何がすごいの?

本日は中心極限定理について解説してみたいと思います。私が初めて中心極限定理を知ったのは大学生時代でした。統計物理学の授業で習い、定理の文言は一応理解したものの、何が嬉しいのか、実際にどう活用できるのかがよく分かりませんでした。

少し前に統計検定の勉強をして、久々に復習した際に、その定理の素晴らしさが分かったので、今回は以前の私のように「中心極限定理っていったい何がすごいの?」って思っている人にその素晴らしさが伝わるように説明してみたいと思います。

そもそも中心極限定理とは?

中心極限定理とは次のような定理です。

平均値$μ$、分散$σ^{2}$である母集団から十分に大きな$n$個の標本を抽出するとき、母集団の分布に依らず、標本平均の分布は平均$μ$、分散$σ^{2}/n$の正規分布に従う。

一般論だと少し分かりづらいかもしれないので、具体例を交えて定理の中身を説明します。

例えば、あなたが「日本人の平均身長」を調べたいとします。これを実行する最も単純な方法は、日本人全員(母集団)から身長を聞き出して、その平均値を計算することです。しかしながら、「日本人全員に身長を聞く」というの事実上不可能なので、実際は一部の人(標本)に対して調査を行なうことになります。

今回は、仮にインターネット上でランダムにアンケートを行なって10000人から回答を得たとしましょう。この時、この10000人のデータから計算した平均と分散(標本平均と不変分散)を$\hat{μ}_1$,$\hat{s}^2_1$としましょう。添え字の$1$は1回目の調査という意味です。同様の調査を何度も繰り返し行ったとすれば、毎回回答者は異なるので、($\hat{μ}_2$,$\hat{s}^2_2$), ($\hat{μ}_3$,$\hat{s}^2_3$), ( $\hat{μ}_4$,$\hat{s}^2_4$)・・・・のように毎回異なった標本平均と不変分散が得られるはずです。データがたくさん集まったところで、この$\hat{μ}$のヒストグラムを書いてみます。すると、一体どのような分布になるのでしょうか?

ここで中心極限定理が登場します。中心極限定理によれば、これは正規分布になるというのです。正規分布というのは、よくご存知のように、パラメータは平均値と分散の2つです。この2つが分かれば具体的に正規分布のグラフを図示することができます。これらのパラメータはどうなっているのでしょうか?

ここでまたまた中心極限定理が登場です。中心極限定理によれば、平均値は母集団の平均値$μ$(今回の例では「日本人全員の平均身長」)、分散は母集団の分散$σ$を標本サイズ(今回の例では10000人)で割ったものになります。

以上が中心極限定理から直接的に言えることです。これまでの説明に追加で気にかけていただきたいのは、日本人の平均身長の分布は全く不明(正規分布とは限らない)なのに、その標本平均$\hat{μ}$の分布は正規分布になると分かってしまうということです。今はまだピンと来ないかもしれませんが、後々にこの事実もとても重要になります。

さて、以上の説明で中心極限定理の中身は分かっていただけたかと思いますが、「結局何が嬉しいの?」ってなっている方もいらっしゃると思います。少なくとも、私であればここまでの説明だけでは、「中心極限定理ってめちゃめちゃすごい!!」と腑に落ちることはないでしょう。

では、ここから中心極限定理がどうやって役立てるのかを説明したいと思います。

中心極限定理を使ってみよう

中心極限定理の有用性を理解するために、先ほどの「日本人の平均身長を求める」という例を引き継いで、区間推定をやってみましょう。

区間推定というのは、ある求めたい値$X$があった場合に、「Xの真値は○○%の確率で$A\pm a$の範囲にある」と突き止めることです。今回の例で言うと、「日本人の平均身長は90%の確率で170±5cmの範囲にある」と結論を得るようなものです。真値をピンポイントで求めるには、母集団全て(日本人全員)の数値を調べるしかないのですが、それは非現実的なので、現実的な標本数で調査を行なうとこのような結果になります。ピンポイントな値ではないものの、限られた標本数から高確率で真値の範囲を絞りこめれば有用ですよね?ここからは、中心極限定理を使えば区間推定を簡単に実行できるということを説明しようと思います。

さて、仮にインターネット上で調査を行なって10000人の人から身長について回答を得たとします。ここから得られる標本平均と不変分散を改めて$\hat{μ}$, $\hat{s}^2$とします。この情報を使って、「母集団(日本人全員)の平均身長$μ$がどのくらいの確率でどのような範囲に収まるのか」(区間推定)を考えたいと思います。

繰り返しになりますが、中心極限定理によれば、$\hat{μ}$は正規分布に従い、その正規分布は平均が$μ$、分散が${σ}^2/10000$(母集団の分散)です。ということは、正規分布の性質を用いて次の数式が99.7%の確率で成立します。

$μ-3\times{\sqrt{\frac{{σ}^2}{10000}}} \leqq \hat{μ} \leqq μ+3\times{\sqrt{\frac{{σ}^2}{10000}}}$ (1)

正規分布の性質と言いましたが、簡単に補足をすると、正規分布に従う確率変数$X$があった場合に、得られる$X$の値は99.7%の確率で平均値±3×標準偏差(標準偏差は分散の平方根)の範囲に収まります。この性質を利用して数式(1)を求めました。ただ、我々が求めたいのは$μ$なので、$μ$が中心に来るように式を変形します。

$\hat{μ}-3\times{\frac{σ}{100}} \leqq μ \leqq \hat{μ}+3\times{\frac{σ}{100}}$ (2)

数式(1)から単純な式変形をして数式(2)を導きました。これで求めたい$μ$の値の範囲が具体的に絞り込めたことになります。中心極限定理の活躍を示すにはこれで十分なのですが、もう1点だけ補足します。具体的に$μ$の範囲を計算するにあたって、$\hat{μ}$は標本平均で既知なので問題ありませんが、母集団の分散である${σ}^2$は未知数なので計算に支障があります。どうすればよいでしょう?実は標本数が十分大きい場合には数式(2)の${σ}^2$を不変分散の${\hat{s}}^2$で置き換えてもよいことが分かっています。従って、最終的に得られる数式は次のようになります。

$\hat{μ}-3\times{\frac{\hat{s}}{100}} \leqq μ \leqq \hat{μ}+3\times{\frac{\hat{s}}{100}}$ (3)

これで未知数が消えたので、具体的に計算ができるようになりました。従って、日本人の平均身長($μ$)は99.7%の確率で$\hat{μ} \pm 3\times{\frac{\hat{s}}{100}}$の範囲に入ることが分かりました。

中心極限定理のすごさ

中心極限定理がどこで活躍したか分かったでしょうか?

ずばり、数式(1)を導くことができたのは中心極限定理があるからこそです。中心極限定理によって「標本平均が正規分に従うこと」と「その正規分布の平均値が母集団の平均値、分散が母集団の分散を標本数で割ったもの」となることが分かっているというのが数式(1)が出てくる大前提です。あとは、単純な式変形なので、例に挙げた区間推定は中心極限定理があるからこそ成立しているのです。

さらに最初に強調しておいたように中心極限定理は母集団の分布が何であろうと成り立ってしまうので、非常に応用範囲が広いのです。

どうですか?中心極限定理の魅力を少しでもご理解いただけたなら幸いです!!

本格的にデータサイエンスを学ぶならキカガク長期コース

本記事では、基礎的な内容について解説を行ないましたが、より本格的にデータサイエンスを学んでみたいという方にはキカガク長期コースの受講をお薦めします。

キカガク長期コースのメリット
  • 基礎理論からAI搭載のWEBアプリ開発まで幅広く学習可能
  • 将来追加されるものも含めて、プロによる全ての講義動画がずっと見放題
  • 質問し放題のチャットや定期的な個別メンタリングなどのサポート体制
  • IT専門のキャリアアドバイザーによる転職サポート
  • 中央省庁からの給付金対象であるため受講料が最大70%
  • ディープラーニングE資格の受験資格を獲得可能

興味はあるけど、いきなり受講を申し込むには抵抗があるという方は、キカガク長期コースの無料オンライン説明会も是非活用してみてください!

ABOUT ME
keikesu
電気機メーカーのエンジニア、オフィス・工場向けIOTシステムエンジニアを経て、現在は大手のコンサルティングファームに在籍し、様々な組織のDXを支援するITコンサルタントをしています。 JDLA G検定・E資格を取得しているので、このブログではディープラーニング(主に資格試験関連)の基礎的な内容を投稿しています。